ゼロから始めるデータサイエンスをざっくりと

最近、AI、人工知能、Deep learning、Iotと騒がれておりますが、Deep learningをする前に大量のデータを整えたり、機械学習でもなんの手法を使うのかを決めるのがデータサイエンティストの一部の役目だといわれてます。
スマホの普及により日常に近いデータが消費者からとることが容易になりました。これらからマーケティングはより、皆さんの行動から出たデータによって正しくターゲッティングされていくのだろうと思い、自分もデータサイエンスは今後絶対役に立つだろうと思い学習を始めました。
今回は、データサイエンスのざっくりとした概要をアウトプットがてらかいていきます。※随時更新していきます。

ロゴジェネレータ:https://nippori30.herokuapp.com/rezero

はじめに データサイエンスとは

データサイエンスの定義はいまのところないそうです。
あえて定義するのであれば、

大量の乱雑なデータの中から物事の本質を引き出す者

多くのデータサイエンティストとソフトウェアエンジニアの線引は難しく、一部は統計学者で、多くは簡単な機械学習を知らないが、一部は機械学習のプロです。多くは学術論文を読んだことはありませんが、中には素晴らしい論文を書いたことあるPhD保持者もいます。定義がまだないのですが、大量のデータを扱い、興味深い真実を引き出す学問です。

なぜデータサイエンスが注目されているのか

シリコンバレーで生まれた「インターネット時代」を経て、Google, Facebookに代表される「ビッグデータの時代」が到来しようとしている。NewYorkTimesでは

ビッグデータの技術は「Measurement(計測)」で革命を起こしている。この革命は新たな効率化とイノベーション野並隣、経済全体に波及するだろう。ビッグデータはただの技術ではなくではない。ビッグデータを見つめれば個々人の未来の意思決定を左右する「哲学」を見出すことができる。さらにいずれはAIがデータを動力源としてデジタル世界を物理世界のトップの座へと押し上げるだろう。 引用:データサイエンティストの作る未来

米国のITリサーチ会社IDCによると、推定で4.4ゼタバイト、つまり4.4兆ギガバイトものデータが全世界に溢れるという。これだけのデータをアップルのiPadに容量いっぱいまでいれて積み重ねると高さ25万2660キロメートルつまり、月までの距離の約3分の1となる。中でも価値を持つのは動画と写真のデータである。個人がスマホで動画や写真をとり、ネットに投稿しているからデータの膨張は凄まじい。今もYoutubeには毎分48時間分の動画がアップされている。

だが、ビッグデータといってもそのままは使えない。例えると地球上の多くをしめる海の水も飲める水としては使えない。

それでも注目されている理由は、ソフトウェアの進化である。重要なコードの殆どを進化を着実に続ける機械学習ソフトが生み出しているからである。

最新の望遠鏡が最新の天文学を生み、最新の顕微鏡が最新の生物学を生んだ。ビックデータも同様の成果が期待される。しかもあらゆる分野においてである。インターネットはコミュニケーションの経済学を変えた。ビックデータも同様に「発見」の経済学を変えていっている。まだその動きは始まったばかりだが、この動きは人るの意思決定を大きく変えていくといわれている。すべての意思決定が直感ではなく、データと解析によって行われていくでしょう。


ビジネスでの実用例

Google(検索アルゴリズム)、Facebook(ネットワーク、広告)、Amazon(レコメンド)、IBM(人工知能Watson)、Apple(Siri)など世界を動かす大企業でデータサイエンティスト(AI研究者)がいないところはありません。
一番注目されている職業である所以です。

具体的な例で言うと、マッチングアプリのOkCupidは、大量の質問をユーザーに行い、最も適した相手をみつけます。同時に最初のデートで相手が眠くならないように、相手が興味を持たない分野を明らかにする分析も行います。

例えば、Facebookはこれまでに住んだ場所と現在の居住地を訪ねます。これはユーザーの友人を発見しやすくするためといわれていますが、同時に移住パターンや居住地ごとにフットボールチームの好みを分析するためにも使われています。

ハマーバッカーというゲノム解析の准教授で、元金融での複雑な動きを数学に落とし込んでいた天才いて、当時データサイエンスがまだ確立されてない頃にFacebookに参画し、データサイエンス部という部署をつくり、ソーシャルネットワークの構造化とデータマイニングを行い、サービスとネットワーク広告の改善策を打ち出し、大学から始まって2年目のFacebookはその後、世界でも有数のIT企業となりました。FacebookはただのSNSだと思ってましたが、実はデータの活用に鍵があったのです。後ほど、手法としてネットワーク分析として説明します。

日本では、東大発ベンチャーのニュースアプリGunosyが有名だと思います。オススメのニュース記事を今までのクリックした記事からレコメンドします。
詳しい話はこちらから読んでいただいた方がわかりやすいと思います。
引用:

Gunosyのデータ分析基盤、ログ基盤の全容

GunosyにおけるAWS上での自然言語処理・機械学習の活用事例

この記事を書きながら調べているときに面白い記事を見つけました。(順番おかしいですが)
データサイエンス領域で最も優れている起業はどこだと思いますか?という質問にエン・ジャパン イノベーションラボのデータサイエンティスト(略称)のマシューさんはこう答えています。

GoogleはMapReduceをはじめとして、様々な最先端の技術を発表しつづけています。 そしてFacebook とAmazonはデータサイエンスを競争力の源泉として優れたビジネスを築き上げました。これらの企業が自社のビジネスのために開発してきた技術が、ここ数年のデータサイエンス業界を発展させてきたことは事実ですし、今後もこの流れはしばらく継続すると考えています。

データサイエンスを競争力の源泉に優れたビジネスを築き上げたとあります。
世界時価総額ランキング10位以内のTOP企業がデータサイエンスでここまで大きくなったと聞くと、やっぱりデータを使える人というのは今後重宝されるのではと思い、学習への意欲も高まりますね。


以降、扱っていく手法

1.データの可視化

2.線形代数

3.統計

4.確率

5.仮説と推定

6.勾配降下法

7.データの取得

8.データの操作

9.機械学習

10.k近傍法

11.ナイーブベイズ

12.単純な線形回帰

13.重回帰分析

14.ロジスティック回帰

15.決定木

16.ニューラルネットワーク

17.クラスタリング

18.自然言語処理

19.ネットワーク分析

20.レコメンドシステム

21.データベースとSQL

※随時更新


参考になるすばらしい記事まとめ

データサイエンスに関する素晴らしい記事をここで紹介します。勉強が辛くなったり、目的を見失ったときに読む記事リンク集です。

データサイエンス

・一番分かりやすかったデータサイエンティストについての記事

最初に読んどけばよかったなと思う記事。よくまとまってます。

・データサイエンス界隈で有名な方のブログ

データサイエンス事情が詰まってます。

・データサイエンティストになるには

道は厳しいようですが輝かしい未来がほぼ確だとおもっているので頑張ります。

・データサイエンティストになりたいならKaggle

この記事はKaggleだけでなくデータサイエンティストについても非常にわかりやすくておすすめです。必読です。
練習問題としても使えるし、Kaggleは国際的なコンペであり、データ系の就職の際にも実績として一番使えるので、私もKaggleで結果出すことを目標として学習を進めています。めざせGoogle!

・Schooの動画

上記の記事でも登場されていたリクルートの方の講義です。一部無料。

・初心者でもわかる機械学習 動画カリキュラム しかも無料

お金をはらうと卒業証書ももらえて資格として使えるそうです。英語ですが…

人工知能って?統計と機械学習とディープラーニングの違い

上記の記事をよんだあと、結局データサイエンスって統計・ML・DLどれなん?ってなりますが、この記事は非常によくまとまってます。これかけるくらい賢くなりたい。

Deep learning

・最近話題のDeep learningでできること 実際のところAIってどうなの?がわかる記事

騒がれているようにAIは将来的に大きな市場になることは間違いなさそうですが、実際にAIを歌っている企業の殆どがDeep learningよりはMacine Learningなのが現実なようです。騒がれているほどAIはまだ便利では無いです。

・DLでできること(画像認識の例)

こういう高度なおふざけができるようになりたいです。心がぴょんぴょんします。

・DL理論の勉強の参考になるブログ

数学メインで勉強したいときにどうぞ。

統計

・体系的にまとまっている統計のサイト

避けては通れない統計と数学…

Pythonでデータサイエンス

・Pythonは独学なのですが、非常に役立ったおすすめサイト

ゲーム感覚で楽しく勉強できました。プログラミング何したらいい?って聞かれたらこれをおすすめしてます。

個人的に注目してるもの

・性格診断エムグラム

一時期話題になった心理学に基づく性格診断のサービス。
CEOの松村さんはCS(コンピュータサイエンス)の博士で、アメリカのIBMで働いたやばい人が起業して、とにかくすごい(小並感)何も成果上げてないですが元インターン先です。インターンの感想を書いた記事を後ほど書こうと思ってまだ書いてない...

・IBM WatsonのPersonality Insights(Twitterの投稿から性格を分析)

自然言語処理すごい。ぜひ使いこなしたい。これがオープンソースってすごくないですか…

まとめ

データサイエンスは最強。

ですが、勉強しなければいけない分野も幅広く、東大や研究者あがりやPhD保持者しかいないんじゃないかと…一方では最難関でもあります。

難しくて、範囲広くて、数字苦手なのでときどき心が折れますが。絶対に世界のインフラとなると信じて諦めず勉強していきます。

データサイエンスの概要がわかったところで、次からは手法について紹介します。

※オライリー出版のゼロから始めるデータサイエンスを参照しています。著作権の関係上、アフィリエイトなどの利益目的のものは入れておらず、学習が目的となっております。