2020/01/14

IMDb Datasets を調べる、その1

 Kodi のライブラリ代わりのファイル振り分けソフトが、データ元に使っていた某映画サイトのリニューアルにより使えなくなり、新しい方式を模索中。Kodi 付属のデータ取得は、TMDBからで、仕様に不満がなければ、そのまま使うのが面倒もなく、楽チン。でも、僕のように、どうも気に入らないって人は、独自に振り分けるべく、イバラの道へ。

 そんなで、大手の映画データベースサイトの IMDb が、元データを配布しているのを見つけた。これが使えれば、いちいち、スクレイピングとかしなくても良くなるかも。データは毎日更新しているらしいが、動画管理に使うので、最新情報は不要。時々アップデートすれば問題ないかと。
IMDb 映画データベースサイト
  IMDb Datasets Document  IMDb data files available for download

 ・個人および非営利目的で使用可能
 ・データベースは、UTF-8、タブ区切りのTSVファイルが、gzip圧縮されている
 ・データテーブルは、7種類
 ・日本語は、例のローマ字仕様で使えない
 ・タイトルに日本語が登録されているのもある(中途半端)
 いいかげん日本語対応にしてくれても良さそうなのに。国内の映画サイトも色々あるから、IMDb を使う日本人は、そもそも多くないのかもね。僕が必要なのは、洋画の振り分けに使うデータで、この最大の欠点は、問題なし。邦画の管理に使いたいという人は、ハナから無理です。自前で、ローマ字・漢字変換するのは、可能でも不毛すぎる。


 データの中身に関しては、サイトに説明があるので、そちらを見てもらえばいい。とりあえず、へなちょこPCで、タブ区切りファイルのままじゃ埒があかないので、使えそうな部分のみ SQLite に変換した。洒落たデータベースソフトなら、インポート処理で簡単に出来そうな気もするが、Lazarus で1行づつ読んでは、DBに吐き出させた。

title.basics.tsv + title.principals.tsv
name.basics.tsv
title.akas.tsv
 結論だけ書くと、1枚目+2枚目の画像のデータで、ジャンル、人名での振り分けには、使えそう。3枚目のタイトルの別名のテーブルや、その他のデータは、使い道が無さそうだ。

 やりたいのは、ジャンル、人名での振り分けだけではなく、独自の分類を手軽に設定すること。当然、その部分は、手動での作業になるが、Kodi のライブラリは、そのまま使うにはいいが、細工をするには複雑すぎて難しい。その辺を、シンボリックリンクのフォルダ分けと、Kodi のライブラリ機能の一部を使って実現するソフトを作成したい。

0 件のコメント:

コメントを投稿