データ、計算、過去そして計算社会科学

計算社会科学に代表されるような大量のデータと計算(computation)を組み合わせた研究がにわかに盛り上がりを見せています(https://css-japan.com/)。この種の研究ではTwitter/Xに代表されるようなSNSのデータがよく分析されます。実際に、計算社会科学分野でよく参照されるある国際会議ではTwitter/Xのデータを使った研究が大勢を締めており、大きな偏りがあります

現在(いま)だけに興味があるの?

当然のことながら、このような最新のデータを利用した研究で得られるのは現在の状況であり、それはつまり”What’s going on?”を知るための研究です。たとえば、ある事柄についてキーワードで検索した結果と適当な統計的手法の組み合わせで見れる「現在の状況」だったり「(そのプラットフォームでの)人々の考え方」を特徴づけ(characterization)れば、現在の状況の記述という点で意義ある分析ができるかもしれません。括弧付きではあるものの「現在の状況」の記述は、近接的な未来や過去を知ることにつながるでしょう。

データと計算を適用できるのは現在についての分析ではありません。過去についても知ることができます。データと計算というフレーズから、過去という単語は想起しにくいかもしれませんが、最新の技術で過去を見直すこともできます。インターネットに代表されるような技術の発展によって、私達は現在のデータを記録し、蓄積することが可能になったからです。この延長線上に機械学習やAI、近年のChatGPTを含む生成AIもあるのです。

過去・現在・未来へのデータ拡張

データの蓄積は未来方向だけではなく、過去方向にも進みます。たとえば、過去に出版された書籍をデータ化したGoogle Ngramは研究にも利用されます。「世界中の情報を整理し、世界中の人々がアクセスできて使えるようにすること」を使命に掲げているGoogleが無料で公開しているこのデータは過去100年以上の書籍などの出版物で利用された単語の頻度が記録されています。このようなデータで、書籍にどのようなバイアスが隠れそれが社会状況と関連しているか[論文][論文解説]、人の内面がどのように変化しているのか[論文][論文解説]、といった分析を歴史を遡って行うことができます。日本においても、この出版物の電子化は進んでいて、国立国会図書館 (National Diet Library, NDL)によって過去の日本の出版物を元に作成されたデータセットが公開されています

データでみる人類の愛の歴史

テキストといった直接的なデータに加えて、歴史的な情報を要約したデータもよく利用されます。言葉は時間とともに変化し地域によって異なり、記録されている形態も様々です。ある歴史的な事柄や事象などについて一つの言語で統一的にまとめられたデータがあれば統一的で全体的な分析を実現できるでしょう。

たとえば、物語において恋愛要素が組み込まれ初めたのは、人類のどの時期なのかを調べたいとしましょう。このとき、Wikipediaのようなある意味での要約サイトが利用できます。Wikipediaは1つの言語である事柄についての説明が同じようなフォーマットで説明されているので、様々な言語で書かれた一つ一つの物語を分析するよりも再現性や分析者の主観が入りこむことを避けた分析がすることができます。このようなデータと、文学研究の学問的蓄積、操作変数法といった経済学の知識(計量経済学と開発経済学)を利用した因果推論によって、人口密度の増加と物語における恋愛要素の出現に関係がありそうだということがわかりました[論文][論文解説]。

単にデータや計算だけでなく、様々な学術的知見を組み合わせることで過去についての知識を得る事ができます。このような学術的知見がどのように生み出されてきたかを分析した、Science of Science (以下SciSci)と呼ばれる分野も盛り上がりを見せています。SciSciの定義や内容は、Wang and BarabashiのThe Science of Science (現在、翻訳中)などに任せるとして、大量のデータを利用している点に特徴があります。

科学者、それもデータと分析の対象

SciSciでは、科学者のキャリアや論文の引用関係の研究が多く行われる一方で、学問の歴史を分析するようなスケールの大きい分析も行われています。たとえば、Li et al. (2023)は物理学や哲学といった10つの学問分野において、学問の歴史において”great idea”(偉大なアイディア)がどのように生み出されたかを分析しています[論文][論文解説スライド]。論文では、great ideaが時間的・地理的な集中を持つことが指摘されています。この分析にもWikipediaが利用されています。著者たちはgreat ideaを選出するために、各学問分野のWikipediaの記述からその学問の歴史において重要な人物を選出し、それらの人物の最高傑作(magnum opus)を選出し、それが出版された地域と年度をリストアップしたデータセットを構築しています。このデータセットにネットワークモデルのような計算モデルを適応し、great ideaの時間的かつ地理的な集中を分析したのです。

I do not know what I may appear to the world, but to myself I seem to have been only like a boy playing on the sea-shore, and diverting myself in now and then finding a smoother pebble or a prettier shell than ordinary, whilst the great ocean of truth lay all undiscovered before me.

このブログポストでは、データ・計算・過去、という3つのキーワードで近年の研究を紹介しました。最新の研究で明らかになるのは現在についてだけではありません。「海岸で貝殻を拾って遊ぶ子供のようなもの」と科学者を形容したのはアイザック・ニュートンですが、海岸は現在だけでなく過去にも広がっているのです。

--

--

Akira Matsui
DeNAデータ分析ブログ

計算社会科学で研究的なことをする研究者