2020/01/20

IMDb Datasets を調べる、その2

 しばらく、実験していたが、結局、5つのファイルデータを使うことにした。時間はかかるが、プログラムまかせだし、寝ている時にでも動かしておけばいいわけで。まぁ、今時のPCを使っている人なら、そのまま表計算ソフトやDBソフトにインポートできると思われる。
 name.basics.tsv 人名
 title.akas.tsv 日本タイトル
 title.basics.tsv コード、タイトル、年、ジャンル
 title.crew.tsv 監督
 title.episode.tsv
 title.principals.tsv キャスト
 title.ratings.tsv
 title.principals.tsv から、監督情報は取れるはずだが、一部抜けるようなので title.crew.tsv からに変更。日本語タイトルを title.akas.tsv から取得する。

 データベースは、DLLさえあれば、そのまま動くSQLite を使う。難しいことをしないのなら、これで十分。元ファイルを、1行づつ読み込むより、丸ごと読み込んで処理したほうが、当然早い。だが、32bit版の Lazarus では、読み込みエラー。先日導入した動画PC(という名のサーバ)に、64bit版 Lazarus に入れて開発することに。メモリも8GBあるので、このぐらいのサイズのファイルならエラー無しで読み込めた。

 とりあえず作ったデータベースを元に、ファイル名とマッチングさせる。見つかった諸データを、.nfo ファイルに書き出し、Kodi のライブラリに登録させる。サムネイル画像は、某所からデータベースとは別に取得した。

 久々にライブラリ機能使ってみたが、あらすじとか、ファンアートとか不要なので、サムネイル表示で使えるか確認。以下、非ライブラリ環境との違い。


 1)検索できる。リモコンでの文字入力は、僕のリモコンソフトで対応しているので、人名や、タイトルの一部を入力して動画を探せるのは便利かもしれない(めったに使わないとは思うが)。

 2)ファイル名とは別に表示されるタイトルを設定できる。ファイル名自体は、IMDb データとの紐つけのため、オリジナルタイトルに準拠したのを付けているが、例えば、邦題もいっしょに表示できたら、わかり易いと思う。検索するにしても、それを対象に出来る。原題を知ってはいても、綴りとか怪しいし、馴染みはそちらのほうがあるわけで。

 3)ライブラリ無しでは、シンボリックリンクとフォルダを使って分類していたが、これをMovie setsとかいうのに置き換えるだけで、似たような振り分けが可能かも。

 4)もちろん、nfoファイルに書いたデータ(ジャンルや年、人名など)は、自動で分類表示される。


 そういうわけで、IMDb のデータは、作品毎に登録されている俳優数とか少ないから、情報目的には物足りないかもしれないが、HTPC 上の分類ぐらいには使えそうだ。

 一応、言っておくと、Kodi 標準のスクレーパーが、同様というか、それ以上の情報を取得、展開出来る。普通に使う分には、余計な手間も時間もかける必要はない。

0 件のコメント:

コメントを投稿