ゲノムデータの蓄え先
SR
11

面白い記事をありがとうございます。ゲノムデータと一口に言っても色々あるということは初めて知りました。

計算機技術者としてのコメントをしますと、参照先の記事にあるFASTQデータのサイズの話はやや誇張があるのではないかと思いました。

FASTQデータをそのまま1文字を1バイトとして保存すると200GBになるという説ですが、単純にデータを文字のままではなく数値として保存するだけで半分以下になりますし、基礎的なデータ圧縮技術を使うだけでおそらくさらに半分になるのではないでしょうか。

さらにFASTQデータ特有の性質を加味したり、さらに複数データ同士の冗長性などを加味して圧縮すれば、1/10以下にできると思うので、データ量は大した問題にはならないかと思います。

と思って検索したところ、実際にそのようになっているようです。 https://en.wikipedia.org/wiki/Compression_of_Genomic_Re-Sequencing_Data

Show your support

Clapping shows how much you appreciated 新井俊一’s story.