Watch

「暗黒物質はただそこに存在している」:生命科学におけるAIの障害となっているもの

「暗黒物質はただそこに存在している」:生命科学におけるAIの障害となっているもの
マドロナ・ベンチャー・グループのインテリジェント・アプリケーション・サミットにおけるライフサイエンス分野のパネリストたち。左から:サイラス・バイオテクノロジーのCEO、ルーカス・ニボン氏、マイクロソフト研究員ジョナサン・カールソン氏、ディープセルのCEO、マディソン・マサエリ氏、そしてモデレーターを務めたマドロナ・ベンチャー・グループのパートナー、クリス・ピカルド氏。(GeekWire Photo / Charlotte Schubert)

生命科学者はデータに関する問題を抱えています。情報が断片化され、サイロ化され、不完全であることです。そして、それが人工知能技術を最大限に活用する妨げとなっています。

先週シアトルでマドロナ・ベンチャー・グループが主催したインテリジェント・アプリケーション・サミットにおいて、研究者のパネルがライフサイエンス分野における AI ツール導入の課題について議論した。

人工知能(AI)は、製品の販売からパッケージのルーティングまで、テクノロジー企業のあらゆる業務を変革しています。GPT-3やDALL-Eといった、新しい文章や画像を生成できる新しいAI「基盤」モデルは、インターネットから収集された膨大な学習データを用いて構築されました。

しかし、生命科学の分野では「データの標準化は非常に難しい」と、単一細胞を視覚的に分析・分類するスタートアップ企業ディープセルのCEOでパネリストのマディソン・マサエリ氏は述べた。

細胞生物学情報は、サンプルの収集、保管、処理における差異に悩まされており、データセット間の比較を妨げているとマサエリ氏は述べた。「サンプル収集から画像を取得するまで、データのばらつきを引き起こす数十ものステップがあります」と彼女は述べた。

ライフサイエンスのデータは、必ずしも乱雑なわけではありません。例えば、タンパク質の構造は標準化されたデータベースにおいて標準化された方法で表現されています。このデータベースは、DeepMind社のAlphaFoldとワシントン大学のRoseTTAFoldといったAIツールの学習を可能にしました。これらのAIツールは、長年の課題であったタンパク質のフォールディング予測を最近解決しました。さらに最近では、ワシントン大学はAIを活用したタンパク質設計ツールProteinMPPNをリリースしました。

しかし、タンパク質に関しても、多くの情報が壁の向こうに隠されています。シアトルのタンパク質設計スタートアップ企業、サイラス・バイオテクノロジーのCEO、ルーカス・ニボン氏によると、サイラスは大手製薬会社に対し、多くの治療の基礎となる抗体の構造に関するデータベースの共有を打診したとのことです。こうした構造は数万点にも上り、様々な企業でサイロ化されています。

ニヴォン氏によると、各社はデータのプールに関心を持ち、独自の構造を共有する仕組みについて議論したという。「そして、いわば最初のリード投資家になりたがる企業は誰もいなかったのです」とニヴォン氏は語った。

サイラス氏は今年の夏、アマゾン ウェブ サービスやその他のパートナーと協力し、オープンソースのタンパク質設計の非営利団体 OpenFold を設立しました。OpenFold は現在、抗体構造データの共有について潜在的なパートナーと協議しています。  

「暗黒物質はただそこに存在しているんです。文字通り、そこに存在しているんです」とニヴォンは言った。「そして誰もがそれを認めているんです。」

ワシントン大学タンパク質設計研究所の AI 搭載ソフトウェアによって幻覚的に生成されたタンパク質リング。(IPD 画像)

パネリストらは、テクノロジーアプリケーションにおける AI モデリングを悩ませている信頼性とバイアスの問題は生命科学にも影響を与えているが、その影響の仕方は異なると述べた。

AIが意味不明な文章を吐き出せば、ユーザーはすぐにそれに気付く。しかし、間違った診断やタンパク質構造を吐き出している場合は、評価が難しくなると、マイクロソフトの研究部門であるMicrosoft Health Futuresでライフサイエンス研究・インキュベーションを率いるジョナサン・カールソン氏は語る。

「生命科学の分野で見られる問題の多くは特異なものではありませんが、非常に深刻です」とカールソン氏は付け加えた。

AIで作られた製品をテストし、そのデータをモデルにフィードバックするという方法は、原理的には簡潔に思えますが、生命科学分野ではこのプロセスには長い時間がかかることがあります。Cyrus社は、新たなトランスジェニックマウスを作製している協力者と共同で、自社の人工タンパク質の一部をテストしていますが、このプロセスには1年以上かかることもあります。しかし、Nivon氏のチームは、ハイスループットのin vitroおよび細胞スクリーニングシステムも活用しています。

スクリーニングシステムの最適化に向けた取り組みは、AIモデルのより迅速な洗練を可能にするとニボン氏は述べた。彼は、動物モデルを用いて遺伝子治療の設計を反復的に設計・スクリーニングし、組織を採取して体内の適切な場所に効果的に到達しているかどうかを評価しているCapsida Biotherapeuticsの例を挙げた。

研究者たちは生物学的データと臨床結果の関連性を高めたいと考えているが、プライバシー保護の必要性など、多くの障害が立ちはだかっているとマサエリ氏は述べた。「世界中の健康データや生物学的データをすべて網羅するGoogleの力は存在しません」と彼女は述べた。

カールソン氏は、より多くのライフサイエンスデータが匿名化され、標準化された相互接続されたフォーマットに集約される未来を思い描いています。最終的には、臨床試験や動物実験のデータがネットワークに効率的にフィードバックされ、新たな仮説の構築や基礎研究の課題の深化に役立つようになるでしょう。

そこへどのように到達するかは、この分野にとって大きな課題だとカールソン氏は述べた。「知的財産だけでなくプライバシーも尊重しながら、どのように協力を可能にするのか? データを公開することさえできないのに、大規模な基盤モデルを構築できるということは、実際には何を意味するのか?」