Ipad

マイクロソフトとワシントン大学が自動化されたDNAデータストレージを実証

マイクロソフトとワシントン大学が自動化されたDNAデータストレージを実証
自動DNAデータ保存システム
マイクロソフトとワシントン大学の研究者たちは、ボトルに入った化学物質を供給し、カスタム設計されたDNA分子に日付をエンコードする自動システムを構築しました。(Microsoft / UW Image)

DNA データ ストレージは、膨大な量の情報を試験管に入れることを約束しますが、データ センター内で一日中試験管を持ち歩きたい人がいるでしょうか?

マイクロソフトとワシントン大学の研究者たちは、よりよい方法、つまりデジタルビットをコード化された DNA 分子に変換して保存し、必要に応じてその分子を再びビットに戻すことができる完全に自動化されたシステムの開発に取り組んでいます。

彼らは、本日Nature Scientific Reports誌に掲載された論文で説明されている概念実証システムを用いて、「hello」という単語をDNA鎖にエンコードし、それを読み出すという実験を行いました。途方もなく単純な作業のように聞こえるかもしれませんが、この実験によってこのシステムが実際に機能することが実証されました。

「DNA分子はデータストレージに適した候補だと確信しています。しかし、私たちは根っからのコンピュータアーキテクトです。未来のコンピュータがどのようなものになるのかを本当に理解したいのです」と、ワシントン大学ポール・G・アレンコンピュータサイエンス・エンジニアリング学部のルイス・セゼ教授はGeekWireに語った。「私たちにとってエキサイティングなのは、分子コンポーネントと電子コンポーネントを備えたコンピュータシステムの実現に向けた一歩を踏み出したということです。」

DNAデータ保存の仕組みは、私たちの細胞内のDNAが遺伝情報をエンコードする方法に似ています。電子的な1と0の代わりに、エンコードシステムはデータをDNA塩基対に変換し、アデニン、シトシン、グアニン、チミン(A、C、G、T)を表す化学的な「文字」を用います。例えば、「He​​llo」はTCAACATGATGAGTAという化学文字列でエンコードできます。

特注分子は遺伝的に何も行わないことに注意することが重要です。むしろ、システムはDNA内の化学物質をコードとして利用するだけです。

「細胞も生物も存在しない」とマイクロソフトの主席研究員カリン・ストラウス氏は言う。

この手法により、データストレージの密度が劇的に向上します。理論的には、1立方インチのDNAに10億バイト(エクサバイト)ものデータを保存できるとストラウス氏は言います。

マイクロソフトとワシントン大学(UW)のチームは過去の実験で、DNAを用いて歴史的文書から猫の写真、高解像度のOK Goミュージックビデオまで、様々なファイルをエンコードしてきました。ワシントン大学の分子情報システム研究所には、「Memories in DNA(DNAの記憶)」というウェブサイトがあり、独自のファイルをアップロードしてDNAストレージに保存することができます。

しかし、その作業には、コードを解読し、分子の合成を指示し、DNAが郵送で戻ってくるのを待って実験を行うという、多くの手作業が必要でした。膨大な量の処理が必要だったため、ミスを犯す機会が多くありました。商業的には決して受け入れられないでしょう。

「データセンター内をピペットを持って走り回る大勢の人員を配置することはできません。人為的ミスが発生しやすく、コストがかかりすぎ、設置面積も大きくなりすぎます」と、アレン・スクールのシニアリサーチサイエンティストで本研究の筆頭著者であるクリス・タカハシ氏は、マイクロソフトのブログ投稿で説明した。だからこそ、自動化システムは重要なのだ。

システムのソフトウェアはデジタルコードをDNAコードに変換します。変換されたコードは自動的に合成装置に送信され、必要な化学物質と液体が適切な順序と割合で混合され、カスタムメイドのDNA分子が保存容器に吐き出されます。

データを読み出すには、DNAを装置に引き込み、化学物質を加えてナノポアDNAシーケンシング装置に通します。すると、DNAの配列は自動的にデジタルデータの1と0に変換されます。

セゼ氏によると、この手順には依然として12~16時間かかるが、この実験の目的は経過時間ではなく、自動化システムが最初から最後まで確実に作業を実行できることを示すことにあるという。

マイクロソフトとワシントン大学のチームは、PurpleDropと呼ばれるデジタルマイクロ流体デバイス上で液滴を移動させることができるプログラム可能なシステムも開発しました。Puddleと呼ばれるこのオペレーティングシステムは、Linuxのような従来のオペレーティングシステムが電子計算システムにコマンドを発行するのと同様に、マイクロ流体システムにコマンドを発行するために使用できます。

以下は Puddle コードのサンプルです。

a = input(substance_A)
b = input(substance_B)
ab = mix(a, b) while get_pH(ab) > 7: heat(ab) acidify(ab)

「このシステムの素晴らしいところは、部品の一つを新しいものや、より優れたもの、より高速なものに交換したい場合、それを差し込むだけで済むことだ」とマイクロソフトの研究員ビクリン・グエン氏は語った。

最終的には、次世代DNAデータストレージシステムをPurpleDropのようなデバイスやPuddleのようなソフトウェアと組み合わせることで、電子工学ではなくマイクロ流体工学に基づいたコンピュータ環境を構築できる可能性があります。Ceze氏は、このシステムにより、電子計算の処理能力とDNAのデータストレージ密度を融合したハイブリッドコンピュータシステムが実現する可能性が高いと述べています。

「分子を利用する私たちのビジョンは、膨大なデータを扱うアプリケーションに応用することです」と彼は述べた。「私たちが研究しているコンピューティングは、パターンマッチングと近似検索です。大量の画像や動画のコレクションがある場合、どのように類似の画像や動画を見つけるのでしょうか?」

チェゼ氏と彼の同僚たちは、DNAベースのコンピューティングが巨大なデータベースから与えられたクエリに一致する画像を「探し出す」方法を既に実証している。このような能力は、国防総省の国防高等研究計画局(DARPA)が開発に強い関心を持っているものだ。

また今週、カリフォルニア工科大学とカリフォルニア大学デービス校の研究者らが、自己組織化DNA分子を用いてアルゴリズムを実行するデータ処理システムに関する論文を発表しました。「非常に興味深いです」とセゼ氏は述べました。「分子レベルでの計算が可能になりますが…私たちの目標である大量データの処理とは程遠いものです。」

DNA ベースのコンピュータ システムが Best Buy にすぐに登場する可能性は低いでしょう。

「私たちは、これをクラウドに展開することを真剣に考えています。…私たちが想定しているシナリオは、データセンターにある大規模システムの一部を、分子データストレージと分子データ検索を利用するシステムコンポーネントに置き換えることです」とセゼ氏は述べた。

ストラウス氏は、Microsoft Azure に DNA を追加するのにどれくらいの時間がかかるかを予測するつもりはないが、マイクロソフトと UW がこの実験を製品化するために必要なことはすべて行うと確信している。

「ここには特別なチームがいます」と彼女は言った。「人々が積極的に賭けに出たり、革新を起こしたりする環境にいられるのは、本当に幸運です。」

ルイス・セゼとカリン・シュトラウス
ワシントン大学のルイス・セゼ氏とマイクロソフトのカリン・ストラウス氏は、DNAデータ保存プロジェクトのチームの一員です。(タラ・ブラウン・フォトグラフィー / ワシントン大学)

高橋、グエン、シュトラウス、セゼは、Nature Scientific Reports のオープンアクセス研究「DNA データストレージのエンドツーエンド自動化の実証」の共著者です。 

3 月 21 日午前 11 時 21 分 (太平洋標準時) の更新: DNA ストレージの理論的なデータ密度の推定をより正確に反映するようにこのレポートを微調整し、研究論文に記載されている実験に使用されたソフトウェアへの参照も修正しました。