
今週のギーク:マイクロソフトの研究員デビッド・ヘッカーマンが世界最大の問題のいくつかに取り組んでいる

スパムメールとHIVの共通点は何でしょうか?それは、長年マイクロソフトの研究員を務めてきたデビッド・ヘッカーマン博士が、医師としての経歴とコンピュータサイエンスの研究を活かし、驚くべき分野で進歩を遂げてきた、キャリアを通じて取り組んできた様々な問題の一例です。
スパムとの戦いは 1997 年に遡ります。ヘッカーマン氏が初めて迷惑メールを受信し、対策を講じることを決意したのがきっかけで、同氏と同僚は数年にわたってスパマーと戦い、その結果、現在も Microsoft 製品に使用されている高度な保護機能が生まれました。
ヘッカーマン氏は、同様の機械学習アプローチを用いて、HIVとの闘いにも積極的に取り組んでおり、免疫系にウイルスをはるかに正確かつ効率的に攻撃する方法を教えるワクチンの開発に貢献しています。この研究は何年も前から進められていますが、彼と共同研究者たちはワクチンの重要な試験に近づいています。
次は、科学者が膨大な量のデータを活用できるように支援するゲノミクスの進歩です。
今週の新しい Geek をご紹介します。レドモンドの Microsoft キャンパスで Heckerman 氏と最近行った会話の抜粋を引き続きお読みください。
最近何に取り組んでいますか?
ここ数年は、機械学習と健康・生物学の融合と言えるでしょう。私たちは、社会にとって大きなインパクトがあり、重要でありながら、まだ解決策が見つかっていない問題を見つけることに注力しています。科学者たちと協力し、彼らの研究成果を理解し、彼らがやりたいことを実現するためのツールが不足している点を把握し、そのギャップを埋めていくことを大切にしています。
あなたが取り組んでいる分野の一つにヒトゲノミクスがありますが、そこでの重点は何ですか?
ゲノミクス分野のデータは指数関数的に増加しています。これは、ヒトゲノムの配列決定にかかるコストと時間が、曲線で見るとムーアの法則よりもはるかに速いペースで減少していることが分かるからです。ムーアの法則は素晴らしいものですが、今回のデータはそれをさらに上回る速さです。12年前、最初のヒトゲノムの配列決定には数十億ドルもの費用がかかり、何年もかかりました。今では5,000ドルでゲノムを24時間、あるいは48時間で解読できます。さらに言えば、多くのことを知るためにゲノム全体を解読する必要はありません。
このように膨大な量のデータが収集されており、このデータを活用する目的の一つは個別化医療です。ゲノムを用いて、病気になる可能性があると警告したり、「心配しないでください。この病気になる可能性は非常に低いです」と知らせたり、「あなたは運動すればコレステロールを下げることができるタイプです」と知らせたり、「そんなことはあり得ません」と諦めさせたりするのではなく、薬があなたによく効くのか、それともひどい副作用があるのかを知らせたりします。
これだけのデータで何ができるのでしょうか? また、課題は何でしょうか?
あなたのゲノムとあなたに関する興味深い事柄との関連を見つけるために使われている一般的なメカニズムは、ゲノムワイド関連研究と呼ばれています。何百万ものマーカーを取り出し、それらを1つ、あるいは複数同時に、ある形質、例えばあなたがこの病気にかかりそうかどうかと相関させます。…しかし、得られるシグナルは非常に弱いです。どのシグナル、どのマーカーも、形質に非常に弱い影響を与えます。ではどうすればいいのでしょうか?機械学習を使えば、より多くのデータが得られます。弱いシグナルを見つけたいなら、大量のデータが必要です。既に現在進行中のこのような研究を行うために、50万人のデータを集めることを想像してみてください。すでに10万人分のデータセットを持っている人たちもいます。しかし、人々は本当に大規模なデータセットを目指しています。
機械学習の観点から見ると、データが乱雑になってしまうのです。互いに近縁関係にある人々、つまり異なる民族の人々が含まれます。そのため、間違った答えが導き出されることになります。しかし、標準的な統計アルゴリズムを実行すると、「このゲノムマーカーとこの病気にかかるかどうかの間には関連がある」という結果が出てきます。しかし、データが乱雑なため、それは全くの誤りであることが判明するのです。
幸いなことに、動物育種家や植物育種家は、人類がゲノミクス研究を始めるずっと以前から、この問題を抱えていました。そして、何人かの優秀な数学者が、ずっと昔にこの問題を解決する方法を編み出しました。彼らは「混合モデル」と呼ばれるものを発明したのです。これは素晴らしいもので、うまく機能し、先ほどお話しした問題を解決してくれます。しかし、一つ問題があります。それは、計算コストが非常に高いことです。データセットにN人いる場合、実行時間はNの3乗になります。つまり、50万の3乗です。これは非常に長い時間がかかります。誰も試そうとは思わないでしょう。メモリの問題もあります。これを実行するにはNの2乗のメモリが必要です。これは大変なことです。
さて、私たちはやって来て、線形時間でそれを実行する方法を見つけました。
それはどういう意味ですか?
基本的には代数的なトリックです。機械学習コミュニティで既に知られている巧妙な機械学習の技術をゲノミクス問題にも応用し、さらに巧妙な代数的トリックを加えることで、この問題を迅速かつ実行可能なものにすることができ、今では50万人を対象としたゲノムワイド関連研究を実施できるようになりました。そのための準備を進めています。
あなたが解決したい次の大きな問題は何ですか?
奇妙な生物の配列を解析するのはゲノミクスの分野では素晴らしいことだと思います。
奇妙な生物?どんな生物?
例えばサトウキビです。サトウキビは非常に優れた燃料です。栽培できればトウモロコシよりもはるかに優れています。ブラジルやハワイなどの狭い地域だけでなく、もっと広い地域で栽培できたら素晴らしいと思いませんか?ウイルスとより効果的に戦い、より多くのエネルギーを生み出せたら素晴らしいと思いませんか?現在行われている方法は、ランダムに選んだ品種、つまりこの品種のサトウキビとこの品種のサトウキビを組み合わせて何が起こるかを調べるというものです。これは長いサイクルです。何がうまくいくかを調べるには何年もかかります。ですから、ゲノムを活用すれば、どの品種を組み合わせるべきかを判断でき、より迅速な進歩を遂げることができるようになると良いのではないでしょうか。
どの問題に焦点を当てるかをどのように決めますか?
社会にとって重要なことなら、検討します。こういうことは自然に起こるものです。サトウキビについてある人と話したのですが、「ゲノムは分からないから、これをやるべきだ」と言われました。ですから、もし何か重要なことが起こったら、喜んで耳を傾け、私たちが貢献できるかどうか検討します。
人類はコンピューターサイエンスの力を借りて、何世紀にもわたって闘い続けてきた巨大な脅威に対して、着実に進歩を遂げているようだ。果たして誰が勝利するのだろうか?
ああ、私たちは勝つだろう。科学におけるこれらの問題はすべて物理法則に由来しており、それは固定されていて、変わることはない。私たちは賢いので、座って何が起こっているのかを理解し、賢く問題を解決できる。母なる自然は変わらない。私たちは人間であり、非常に柔軟性がある。それが根本的に私たちに有利に働いていると思う。
さて、恒例の「今週のギーク」の質問をいくつかしましょう…
好きなアプリは? Excelですね。毎日使っています。Excelがないと仕事ができません。
人生で一番好きなスポーツは?テニス。時間があればいつでもテニスをするのが大好きです。
転送装置、タイムマシン、それとも透明マント? ああ、透明マントは絶対にダメ。タイムマシンだ。全てを変えられるかもしれない。
[ヘッカーマン氏の写真はマイクロソフト提供]