ゲノムデータの蓄え先

4 min readNov 13, 2015

遺伝子解析のコストがぐんぐん下がっている。2003年のヒトゲノムプロジェクト（人類史初めて、ヒトの全ゲノムを解析したプロジェクト）にかかったコストはもろもろの開発・間接コスト含めて、$1 billion(約1200億円）。今はそれが約$1,000（約12万円）まで下がった（下記の表は2013年で止まっているがその後２年間でまた１桁コストが落ちた、ということになる）。

この$1,000のコストに飽き足らず、更に一桁下の$100でヒトゲノムが読み出せる次世代シーケンサーの競争も激化している。日本の大阪大学発のベンチャー・クオンタムシステムズもその一つ。

さて、コストが$100-$1,000の領域に落ちてくると、もっとたくさんのサンプルをとって解析をしよう、という欲が湧いてくる。2008年に始まってつい最近Natureに解析結果が発表された1ooo Genome Projectやイギリス政府が主導する100,000 Genomes Projectはほんの一例で、ヒトだけでなく農作物も畜産物も調べておこうか、速く走る馬種のゲノムデータもとろうか、いや、地球上のすべての生き物のゲノム解析をしてデータベースを作ろうか、と諸研究機関は思うだろうし、個人のレベルでもそれだけ安ければ子供が生まれたらとりあえずゲノム解析をしておくか、いやそれならペットのDNAも、、、、と欲はつきない。

で、そうなってくると、実はゲノムデータの保存先が大変なのである、という話を最近聞いた。人１人あたりの塩基配列は全部で30億ペア、60億塩基分ある。それだけをATGCのコードで保存するだけでも700MB、更に解析の裏にある生データを保存すると、１人分あたり200GBのデータを食うらしい（詳しくはこちら）。更に一人あたり３回重複して読んでいたりするため、600GB、場合によっては一人あたり1TBほどのデータ量を保存しているらしいのである。2時間のHD動画のデータ量が3–4.5GBだから、200GBなら映画約50本分、1TBなら映画250本分の量である。

商業目的なら、生データを捨てる、更には個々人で違う部分の塩基配列（違いは全体の0.1%程度）だけを保存する、などといった割り切りもできるだろう。が、研究目的だとむやみに生データを捨てるわけにもいかない。というよりも、今ゲノム研究の世界で、生データをどう扱うべきかの方針が決まっておらず、とりあえずみんな保存しているらしい。（天文や高エネルギー研究の分野では、解析後の生データは捨てているとのこと。）

ヒトゲノムプロジェクト以来、7ヶ月ごとに倍々ゲームで増えてきた遺伝子解析のデータ蓄積量。その増加の勢いは今後YoutubeやTwitterをも凌駕し、データストレージにも、読み出し・分析のための演算能力にも大きな負担がかかる、という論文も最近発表された。

ちなみにこの大量のデータは今、どうやって保存しているかというと、各々の研究機関が主に磁気テープで保存しているらしい。HDDだとあまりに電気を消費するので負担が重いらしく、じみに磁気テープの市場は伸び続けている。まさに「風が吹けば桶屋が儲かる」である。

もちろんIT屋さんはそのデータをクラウドにのせてくれないかと勢い良く営業をかけており、特にGoogleとAmazonは、競うようにゲノムデータの保存を申し出ている。（例えば前述の1000 Genome ProjectのゲノムデータはGoogle、Amazonともに無料でホストしている。）折しも今年3月にNIH（アメリカ国立衛生研究所）が政府が持っていたゲノムデータをクラウドに上げることを解禁。ますますもって、競争が盛り上がりそうだ。

とはいえ、ゲノムデータは、まだまだ「安く読めるようになりました！」という段階。このあまりあるデータを蓄えた後、どうやって使っていくのか、それはまたこの次のお話。

ゲノムデータの蓄え先

Written by SR