Airpods

新しいウェブサイトは、エンジニアが優れたアルゴリズムを生み出す生物医学的課題を見つけるのに役立ちます

新しいウェブサイトは、エンジニアが優れたアルゴリズムを生み出す生物医学的課題を見つけるのに役立ちます

リサ・スティフラー

Sage Bionetworks の新しい OpenChallenges プラットフォームのホームページ。(Sage Bionetworks グラフィック)

バイオメディカルの分野には、人間よりもコンピューターの方が正確かつ効率的に実行できるタスクが数多くあります。マンモグラフィーによる乳がんの検出がその一例です。

しかし、健康や病気に関する問題の中には、人工知能アルゴリズムで解決しようと誰も考えていないものも数多くあります。あるいは、同じ問題に取り組むモデルが複数存在し、どれが最も効果的かが不明瞭な場合もあります。

生物医学的な課題が役に立つかもしれません。

これらのコンテストでは、高校生プログラマーから製薬会社まで、誰もが機械学習やAIを活用した最高の医学的謎解きモデルを作成できます。賞金が用意されているものもあれば、自慢できる権利や科学の発展に貢献できる満足感を得られるものもあります。

セージ・バイオネットワークスの社長兼CEO、ルカ・フォシーニ氏

今では、こうしたコンテストを集約し、促進するプラットフォームがあります。シアトルの非営利団体Sage Bionetworksは今月、バイオメディカルコンテストの主催者や参加者が新しいイベントや対戦相手を見つけることができる無料ウェブサイト「OpenChallenges」を立ち上げました。

現在、サイトでは11の開催中および開催予定のコンテストと、270の終了したイベントが開催されています。これらのコンテストには、遺伝子配列の断片を精査して双極性障害を予測する、CTスキャンで腹部外傷を認識する、細胞内の寄生虫を検出する、分子の物理的特性に基づいてその匂いを予測するなど、より難解なタスクも含まれています。

「本当に素晴らしいのは、チャレンジが、あまり交流がなく、本来はもっと協力し合うべき2つのコミュニティをつなぐインターフェースになっていることです」と、セージ・バイオネットワークスの社長兼CEO、ルカ・フォシーニ氏は述べています。これらのコミュニティとは、健康問題に取り組む科学者と、アルゴリズムを構築するAIエンジニアのことです。

チャレンジの仕組みは次のとおりです。

  • 研究を行う非営利団体、大学、製薬会社などの組織がコンテストを作成し、対戦の費用を負担し、場合によっては賞品を提供するスポンサーを探します。
  • 参加者は公開データセットまたは独自のデータセットを使用してアルゴリズムを構築し、それをトレーニングします。
  • 参加者は、独自のデータセットとモデルの両方のプライバシーを確​​保するために、アルゴリズムを「ブラックボックス」で提出します。
  • 主催者は、医療システムやその他の第三者から入手したデータセットを用いてアルゴリズムをテストします。データセットは人間によって確認、つまり「検証済み」です。例えば乳がんの場合、研究者は生検によってどの画像にがんが含まれているかを確認しているため、正解は明らかです。
  • 優勝したアルゴリズムは、他のアプローチを評価するためのベンチマークとなります。(アルゴリズムをテストするための基準となるベンチマークデータセットも存在します。)

Sage Bionetworksは、OpenChallengesの作成に加え、独自のコンテストも主催しています。この非営利団体は、労力と費用がかかる可能性のあるチャレンジの設定に関するロジスティクスの標準化プロセスの構築に熱心に取り組んでいます。

また、生物医学モデルを正しく評価するのは、意外と難しいこともあります。

「これまで機械学習は主に精度、つまり実際のデータとどれだけ正確に一致できるかという点に重点が置かれてきました」とフォシーニ氏は述べた。「人々は、それだけが重要なのではないことに気づき始めています。安全性が重要であり、公平性も重要なのです。」

たとえば、アルゴリズムは、患者全般に対しては優れたパフォーマンスを発揮するが、特定の人種の人々などのサブセットを調べる場合にはパフォーマンスが低下する可能性があります。

新たな困難が生じているのは、生物医学解析において、時間と計算量の多い大規模言語モデルを用いることです。これらのモデルは優れた結果を生み出す可能性がありますが、その解決策は研究や商業利用、そしてコンテスト自体においても実現可能かつ実用的である必要があります。こうした計算コストは​​急速に増大します。

「それが夜も眠れない原因なんです」とフォシーニ氏は言う。「一度実行して評価するだけでも莫大なコストがかかるような大規模なAIモデルの時代へ、どうやって移行していくのでしょうか?」