データサイエンスの授業でデータサイエンス以上のたくさんのことを学んだ

Togo Kida
neurotogo
Published in
8 min readJan 9, 2020
1学期で授業で学んだデータサイエンス単元

2018年秋、ハーバード大学院に入学した初学期に私は統計と確率の授業に苦しんでいた

学部ではデザインとメディア・アートを専攻し、仕事では広告を生業にしていた自分にとっては文字通りの未知の世界だった。なぜ、わざわざ統計の授業を履修していたのか?それは、データサイエンスの授業を取る、という目的のためだった。

統計を無事履修し終えた私は満を持して、ハーバードのデータサイエンス入門の授業を2019年の秋に履修した。

昨年の統計同様、かなり苦戦した授業だったが、同時に履修して本当に良かった。フォーマルにデータサイエンスの教育をアカデミックな環境で受けたのは初めてだったので、初学者としての授業の感想を書いてみたい。

クリエーティブ出身者がデータサイエンスを学ぶモチベーション

そもそも、クリエーティブ系のバックグラウンドの自分がなぜデータサイエンスの授業を取ろうと思ったのか?もともと大学でメディア・アートを学び、そして会社で通算7年近くデジタル・クリエーティブ系の部署で仕事をしてきた自分にとって、デジタルを用いた表現というのは身近なものだった。

ProcessingやopenFrameworksなどを用いて、コードを使った表現というのにも慣れ親しんで来たが、昨今のジョン・マエダ先生のDesign in Techレポート他の人の記事を読んだりしていて、「データ」という新しい材料が新しいデジタルでのものづくりの地平線を垣間見せてくれるのではないかと感じ、きっちりとデータを扱う、ということについて大学院期間中に学ぶ機会を得たいと思い、履修した。

履修授業について

実は2019年秋学期には二つデータサイエンス系の授業を履修したのだが、今回書いているのはそのうちの一つ、APCOMP209A(CS109A)という授業だった。

ハーバードにおけるデータサイエンスの入門の授業として知られ、履修するにはハーバードでもっとも人気がある授業と言われているCS50(プログラミング入門)と、同じくハーバードで超がつく人気授業であるSTAT110(確率入門)の授業を経ないと履修できないコンピュータサイエンスの授業だ。

本当は昨年ハーバードに入学した時点で即履修しようとも思ったのだが、確率の知識が足りず、履修前に課されていたスキルアセスメントのための宿題が解けず、泣く泣く断念…。結果、昨年の地獄の統計へと続くわけだが、地獄の統計を経て今一度このスキルアセスメントを受けてみたところ普通に解けた…感動…。

新しい領域を習得するには、何事もいきなり飛び込むのではなく前提となる知識に敬意を払い、その知識の積み重ねを軽視しないことが大事だと痛感。

晴れて無事履修が叶うことになったものの、これ以降も簡単な道ではなかった。

生徒の多様性に驚く

実際に授業に参加する前は、強烈なアウェー感を感じていた。「コンピュータサイエンスの授業だし、人気の授業だし、ハーバード中のコンピュータサイエンス専攻の学生が大挙してやってくるのではないか…そんななか自分はちゃんとついていけるのだろうか…」と。が、履修してみたらこの予想は大きく外れた。

授業が大変だったのは間違いないが、履修している生徒の多様性に驚いた。学部生も院生がそもそも入り乱れているのは想定の範囲内だったが、皆バックグラウンドが全然違った。コンピュータサイエンス専攻の学生ももちろんいたが、ハーバード教育大学院の学生もいれば、ビジネススクールの学生もいた。一見関係なさそうに思えるかもしれないが、デザイン大学院の生徒も私含めて結構履修していた。

もっというと、オンライン経由でも授業を履修している生徒はたくさんおり、毎回オンラインで授業に参加している人たちが多数だった。授業のオンラインサイトの掲示板を覗くと、全米各地に生徒がいるので、各都市で一緒にスタディーグループを作りませんか?と募っている人たちが多数で、とにかく活気があった。

コンピュータサイエンス専攻ではない学生の話をすこし聞いてみると、皆自分の専門領域においてデータサイエンスを活用することで活動の幅を広げたいと思っている人がほとんどで、とても素晴らしいと思った。

データサイエンスと聞くととかく専門家の専門領域であって、素人は触ってはならない、と思いがちだがある種、こういう「門外漢」がきちんとデータサイエンスのいろはを知ることで実社会で生かされるのではないかと思うし、社会全体へのインパクトがもたらされると思う。

みんなでやろう

授業はよく設計されていた。データサイエンスに触れたことがない人でもきちんと分かるよう、基本的なパラダイムから教えてくれる。線形回帰に始まり、それが徐々に積み上がっていってk近傍法になり、ロジスティックス回帰になり、決定木になり、ランダムフォレストになり、そして最終的にニューラルネットワークになっていく。

日本でまだ仕事をしていた時、書籍でディープラーニングについて学ぼうとしたが、イマイチしっくりこないところがあった。データサイエンスにおける基本的なパラダイムの理解が抜け落ちていたからだと今になって思う。しかしこの授業でしっかりと積み上げていけるのはよかった。

授業自体はレクチャーと演習が毎週2回。宿題は1〜2週間で一つ提出する、というなかなかのハードワークっぷりだったが、統計も同様だったので目新しいことではない。ただ今回違ったのは生徒同士でペアを組んで宿題を進めることが奨励されていることだった。このペアプログラミング的手法はとても良かった。

githubの履歴を見るとほぼ毎日何かしら書いていた

一人で孤独に課題に取り組むの大事だが、悩みに悩んだ上でその過程をパートナーと共有し、議論しながら課題を解いていくのは学びの過程として有益だ。パートナーと議論し、互いにアプローチを説明し合うことで理論への理解が一段と深まっていく。みんなでやることで、効率よく学べる。

みんなで考えよう

もう一つ特徴的だったのは、授業の中でデータサイエンスにおける倫理を考えるパートが含まれていたことだ。ハーバード大学の哲学科から講師を呼び、実例を用いながらデータサイエンスの用いられ方によっていかに偏見や差別が助長されうるか、というディスカッションをした。東大の某特任教授とは大違いだ。

哲学科講師に来てもらい、みんなでデータのもたらす不平等について授業で話し合う

このデータサイエンスの授業の中にこの倫理のパートが組み込まれていてよかったと思うのは、データにおける偏見の助長が実際にどのように起こるのか仕組みをきちんと理解した上でみんなが議論に参加する土壌が出来上がっていたことだ。生徒も適当に参加するのではなく、活発に参加していた。

ファイナル・プロジェクト

学期の総仕上げはファイナル・プロジェクトの提出だった。4人でチームを組み、Spotifyのプレイリストを生成する、というプロジェクトに挑戦した。このファイナル・プロジェクトもペアでやっている宿題同様、みんなで議論しながら進めていけたのが良かった。また、ただの宿題よりは長いスパンでプロジェクトとしてやれたので、実際の仕事に取り組むような感覚で楽しめた。

みんなで議論したボード

個人的に印象的だったのはプロジェクトメンバーの構成だった。データサイエンス修士課程に在籍する学生二人とタフツ大学で神経科学の教授と僕の4人のチームだった。教授に話を聞くとわざわざサバティカル休暇を取得し、その間自分のスキルアップのためにいろいろな授業を履修しているのだという。自分より遥かに年上でキャリアも全然違う人だったが学び続けるその姿勢は敬服に値した。

学期を終えてみると、しっかりとデータサイエンスの基礎が身についたのもさることながらそれ以上にいろいろな出会いやアメリカでのデータサイエンス教育における潮流が感じられたのも良かった。

--

--

Togo Kida
neurotogo

Creative. Marketer. Strategist. Technologist. Formerly at UCLA, Harvard, Dentsu, and Uniqlo. 100 Leading Global Thinkers 2016. Creativity, design & data.