
試験管の中のビデオ?マイクロソフトとワシントン大学がDNAデータ保存システムの水準を引き上げる
アラン・ボイル著

マイクロソフトとワシントン大学のコンピューター科学者らは、デジタルデータのDNA保存に関する新たな標準を確立したと発表しているが、この標準は長く続かないだろうと認めている。
現時点では、基準は200メガバイトに設定されています。これは、研究者たちが合成DNAペアリングにエンコードし、正しく読み出すことができたデータ量です。エンコードされたファイルには、OK Goの高解像度ミュージックビデオ「This Too Shall Pass」…100以上の言語で書かれた世界人権宣言…プロジェクト・グーテンベルクの上位100冊…そしてクロップ・トラストの世界種子データベースが含まれていました。
しかし、このプロジェクトのマイクロソフト主任研究者であるカリン・ストラウス氏は、理論的にはもっと多くのことが可能であると認めている。
「1立方インチに1エクサバイトのデータが詰め込めます」と彼女はGeekWireに語った。1エクサバイトは8京ビットの情報量に相当し、これは議会図書館に収蔵されている情報量をはるかに上回る。(正確にはどれくらいなのか?それは議論の余地がある。)
確かなことが一つあります。データストレージへの需要は飛躍的に高まっており、その主な要因は、データ量の多い動画への需要とビッグデータ・アプリケーションの台頭です。このニーズに応えるため、DNA鎖はシリコンベースのハードドライブよりもはるかに高密度にデータを保存できます。そして、DNAを冷暗所で保護された場所に保管すれば、データは何世紀にもわたって無傷のまま保存できる可能性があります。
「これは究極のバックアップメディアだ」と、プロジェクトの共同リーダーでワシントン大学のコンピューターサイエンスとエンジニアリングの教授であるルイス・セゼ氏は語った。
このコンセプトは、DNA分子における自然界の核酸塩基の対合を応用したものです。アデニンはチミンと、グアニンとシトシンが対合します。ATGGGGCCAGTのようなこのような対合の文字列は、従来のデータストレージデバイスで使用される1と0の2進コードと同じ機能を果たすことができます。
もちろん、課題はあります。研究者たちは、エラー訂正メカニズムと、エンコードされたファイルへのランダムアクセスを可能にする分子マーカーを組み込む必要がありました。そして、デジタルファイルがATGCコードに変換された後、サンフランシスコのTwist Bioscienceで分子鎖に変換され、シアトルのUW-Microsoftチームに送り返される必要がありました。
「これは実質的に試験管のようなもので、中身がほとんど見えません」とストラウス氏はマイクロソフトのブログでこのプロジェクトについて述べている。「底に少し塩が乾いたような感じですね」
1メガバイト相当のデータをエンコードする商用コストは数千ドル程度で、ファイルの変換には数分程度かかるとセゼ氏は述べた。しかし、研究者たちはコストと変換時間の両方が劇的に削減されると予想している。
「私たちはDNAの書き込みと読み取りに対してあらゆる種類のインセンティブを作り出すつもりです」とセゼ氏は語った。
ハーバード大学の遺伝学者ジョージ・チャーチ氏もDNAデータ保存システムの開発に携わっており、この分野が急速に変化していることに同意しています。チャーチ氏と彼の研究グループは最近、22メガバイトのDNAデータをエラーなく保存・検索できたことを報告しており、次はギガバイト級を目指しています。
「これを意味のある、最適に圧縮された形で実現するまでにどれくらい時間がかかるのかはまだ明らかではありません」とチャーチ氏はGeekWireへのメールで述べた。しかし、この技術が本格的に使える準備が整えば、需要は生まれるだろう。
例えば、テクニカラーは、自社の膨大な映画ライブラリのDNAデータアーカイブ化に関心を寄せています。「これが映画アーカイブの未来の姿だと私たちは信じています」と、同社の研究・イノベーション担当副社長、ジャン・ボロット氏は先日ハリウッドで、1902年の無声映画の傑作『月世界旅行』のDNAコードが入った小瓶を披露しながら語りました。
以前:研究者は猫のビデオ(および他の多くのデジタルデータ)をDNA分子に保存します
チャーチ氏は、DNAストレージ技術は膨大なビデオ監視データセットのアーカイブ化に適していると述べた。ツェーゼ氏とストラウス氏が挙げた潜在的な用途には、健康記録、研究データ、そして台頭著しい「モノのインターネット(IoT)」のセンサーデータも含まれている。
クラウドコンピューティングの黎明期において、エンドユーザーは自分の情報が合成DNA分子に保存されていることに気づかないかもしれないし、気にも留めないかもしれない。彼らが気づくのは、自分たちの「クラウド」がテラバイト単位ではなくエクサバイト単位へと、はるかに大容量化していることだけかもしれない。
まだやるべきことは山積みだ。「私たちはチームとして、エンドツーエンドのシステムの開発に真剣に取り組んでいます」とセゼ氏は語った。つまり、DNA分子の仕組みをより正確に解明する必要があるのだ。セゼ氏はこの作業を、彼と同僚がエンコードしたOK Goのミュージックビデオに登場するような、複雑なルーブ・ゴールドバーグ・マシンの構築に例える。
「DNAをナノスケールで見ると、信じられないほどですが、非常に信頼性の高いルーブ・ゴールドバーグ・マシンのように見えます」と彼は言いました。