そんなで、大手の映画データベースサイトの IMDb が、元データを配布しているのを見つけた。これが使えれば、いちいち、スクレイピングとかしなくても良くなるかも。データは毎日更新しているらしいが、動画管理に使うので、最新情報は不要。時々アップデートすれば問題ないかと。
IMDb 映画データベースサイト
IMDb Datasets Document IMDb data files available for download
・個人および非営利目的で使用可能
・データベースは、UTF-8、タブ区切りのTSVファイルが、gzip圧縮されている
・データテーブルは、7種類
・日本語は、例のローマ字仕様で使えない
・タイトルに日本語が登録されているのもある(中途半端)
いいかげん日本語対応にしてくれても良さそうなのに。国内の映画サイトも色々あるから、IMDb を使う日本人は、そもそも多くないのかもね。僕が必要なのは、洋画の振り分けに使うデータで、この最大の欠点は、問題なし。邦画の管理に使いたいという人は、ハナから無理です。自前で、ローマ字・漢字変換するのは、可能でも不毛すぎる。IMDb Datasets Document IMDb data files available for download
・個人および非営利目的で使用可能
・データベースは、UTF-8、タブ区切りのTSVファイルが、gzip圧縮されている
・データテーブルは、7種類
・日本語は、例のローマ字仕様で使えない
・タイトルに日本語が登録されているのもある(中途半端)
データの中身に関しては、サイトに説明があるので、そちらを見てもらえばいい。とりあえず、へなちょこPCで、タブ区切りファイルのままじゃ埒があかないので、使えそうな部分のみ SQLite に変換した。洒落たデータベースソフトなら、インポート処理で簡単に出来そうな気もするが、Lazarus で1行づつ読んでは、DBに吐き出させた。
title.basics.tsv + title.principals.tsv
name.basics.tsv
title.akas.tsv
結論だけ書くと、1枚目+2枚目の画像のデータで、ジャンル、人名での振り分けには、使えそう。3枚目のタイトルの別名のテーブルや、その他のデータは、使い道が無さそうだ。
やりたいのは、ジャンル、人名での振り分けだけではなく、独自の分類を手軽に設定すること。当然、その部分は、手動での作業になるが、Kodi のライブラリは、そのまま使うにはいいが、細工をするには複雑すぎて難しい。その辺を、シンボリックリンクのフォルダ分けと、Kodi のライブラリ機能の一部を使って実現するソフトを作成したい。
0 件のコメント:
コメントを投稿