Iphone

このAIは医師の診断書を理解する:Truvetaの新しいモデルは、乱雑な医療データから意味を見出す

このAIは医師の診断書を理解する:Truvetaの新しいモデルは、乱雑な医療データから意味を見出す
トルベタの最高技術責任者ジェイ・ナンドゥリ氏(左)とCEOテリー・マイヤーソン氏。(トルベタ写真)

医療データは医療の向上に大きな可能性を秘めていますが、その掘り出しは容易ではありません。その金脈を掘り出すために、Truvetaは2万以上の診療所と700以上の病院から集められた医療文書を分析する大規模なAIモデルを構築しました。

Truvetaのモデルは、医師の診断書や保険請求書類といった、略語、専門用語、スペルミスが満載の乱雑で非構造化テキストから、患者の診断、投薬、検査結果などのデータを抽出するように設計されています。同社によると、このモデルはこれらのタスクを90%以上の精度で実行します。

シアトル地区のヘルスケア テクノロジーのスタートアップ企業は、最近のプレプリント出版物で Truveta 言語モデルを紹介し、今週ホワイト ペーパーとブログ投稿でさらに詳しい背景を説明しました。

このモデルは、同社の 28 の医療システム パートナーからの大量の医療テキストでトレーニングされており、米国の患者ケアの 16% を占めている。同社はまた、データセットを毎日更新している。

「私たちが毎日処理し、研究者にタイムリーに提供しているデータの量は、非常に複雑で、まさにビッグデータの問題となっています」と、Truvetaの最高技術責任者ジェイ・ナンドゥリ氏はGeekWireとのインタビューで語った。

Truvetaのヘルスケアおよびライフサイエンス分野の顧客は、医薬品の副作用や患者の発作頻度といった事象を研究しています。がん研究者は、このプラットフォームを利用して、病気の進行や治療法の変更の必要性を予測できる可能性があります。

このモデルは、乱雑なデータを「正規化」することで、「急性COVID-19」と「COVID19 急性感染症」といったテキストが同じ意味になるようにします。しかも、このモデルは大規模に実現可能です。Truvetaは主要な医療システムとの連携により、31億件の患者データと24億件の投薬データにアクセスできます。

Truvetaのモデルは、Microsoftが支援するOpenAIが開発した「生成型」大規模言語モデルであるGPT-4とは異なります。GPT-4は、プロンプトに基づいてコンテンツを瞬時に生成します。GPT-4の医療分野での活用方法としては、診断のサポート、医師と患者の会話の要約、医師へのベッドサイドでの言語提案などが挙げられます。

Truveta のモデルの結果は、現在研究中の概念の精度を向上させる臨床医が関与するワークフローを通じて継続的にチェックされます。(Truveta 画像)

マイヤーソン氏によると、Truvetaの医療データセットに関する専門的なトレーニングは、インターネット上の幅広い公開情報でトレーニングされたGPT-4を凌駕する。GPT-4はクエリに対して誤った回答を「幻覚」することでも知られていると、同氏は指摘した。

GPT-4は「LSDを摂取した医師」のように見えるかもしれないとマイヤーソン氏は述べた。「GPT-4の不正確さは深刻な問題です。」

しかし、GPT-4はさらに賢くなりつつあります。マイクロソフトの子会社であるNuanceは、医療データでトレーニングされた医療記録システムにGPT-4をすでに組み込んでおり、この夏にアプリケーションのプレビューを予定しています。 

マイクロソフトも Truveta の投資家であり、このスタートアップ企業と提携して、プラットフォームへの新規顧客紹介などの取り組みを行っている。

スタートアップ企業はGPT-4を自社のサービスに組み込み始めています。Nanduri氏は、企業がGPT-4に独自のデータセットを取り込み、カスタマイズした用途に活用していると考えています。一方、Truvetaは自社のプラットフォームをデータソースとして販売しています。

Truvetaは、自社のシステム上にアプリケーションを構築する他社と提携しています。ユーザーは、Truvetaのデータを利用した生成ツールや抽出ツール、そしてがん予測モデルなどの「識別」ツールを構築できます。「私たちはこれら3種類のアプリケーションすべてを実現しています」とナンドゥリ氏は述べています。

Truvetaの協力企業には、COVID-19ワクチンと治療薬の安全性を監視するためにプラットフォームを活用しているファイザー社や、臨床試験への患者マッチングにTruvetaを採用したシアトルのAlpine Immune Sciences社などが含まれます。また、Truvetaは昨年秋、患者データをリアルタイムで管理できるインターフェース「Truveta Studio」を発表しました。

Truveta データ パイプライン。(Truveta 画像)

Truveta言語モデルは、共通の出発点となるオープンソースオプションから始まり、2年以上かけて構築・学習されました。このモデルは、同社における他の2つの技術開発プロジェクトと連携して動作します。1つは情報のプライバシーと匿名性を確保すること、もう1つは複数の医療システムに分散しているデータの標準化です。

これらの医療システムを一つに統合することは、2020年の創業以来、プロビデンスをはじめとする3つの医療システムを傘下に収めるというトゥルーベタの大きなビジョンでした。同社は2021年に9,500万ドルを調達し、新たな医療システムをネットワークに追加し続けています。

元マイクロソフト幹部のマイヤーソン氏は、Truveta言語モデルと、同社が3月に発表したゼロから構築した大規模言語モデル「BloombergGPT」の間に類似点を見出している。Bloombergは大量の金融情報を用いてこのモデルを学習させたが、これはTruvetaのモデルが膨大な医療データを用いて学習させている方法と似ている。

「健康の世界には正確なモデルが必要であり、正確なモデルを得るにはトレーニングの対象となる適切なデータが必要です」とマイヤーソン氏は述べた。