機械学習に使えるGoogle提供のデータセット

人工知能開発に便利なデータをご紹介します

The Open Images Dataset

9月にリリースされたこちら。

900万の画像URLが6000カテゴリに分かれて格納されています。

全て著作権フリーのCreative Commonsなので、

再利用も可能です。

カテゴリラベルは全て人力でつけられているので、

精度も高いです。

YouTube-8M Dataset

読んで字のごとく800万のYouTubeビデオからコンパイルされています。

全てのビデオが1000回以上視聴されており、2分以上の長さがあります。

また、YouTube内のカテゴリにラベル付けされています。

利用形態も、オンライン、ダウンロード、オフラインで可能ですが、

このデータセットはTensorFlow Record File Formatのみで利用可能です。

他のフォームで試したい場合は各自で加工する必要があります。

Google Books Ngrams

言葉がいつから一般的に流行り始めたのかを調べるのに便利なツールです。

例えばHeavy Metalという言葉は1800年代から存在しましたが、

文化的な意味を持ち始めたのは1975年からです。

Web上でも使えますが、

2.2TBダウンロードする余裕があればローカルでも使えます。

Google Trends Datastore

様々な検索トレンドがダウンロードできます。

現在だと米国大統領選挙に関する物が多いです。

Google Public Data Directory

Googleが提供するデータポータルで、

全世界の100を超えるデータプロバイダの情報が集められています。

人口統計や、経済指標など、カバーしている領域も幅広いです。

Google自身が集めたデータではないですが、

キュレーションアルゴリズムが働いているので品質の高いデータが多いです。

参照記事:

追伸:Team AIでは人工知能専門に受託開発を承ります。

いまなら無料で御社のビジネスに効く人工知能技術コンサルティング致しますので、

是非dai@jenio.coまでご連絡ください。

--

--