Vision

ビッグデータ(とボランティア)が科学者の何百ものタンパク質パズルの解決を助けている

ビッグデータ(とボランティア)が科学者の何百ものタンパク質パズルの解決を助けている

アラン・ボイル

タンパク質図
左の分子図は、DMTスーパーファミリートランスポーターYddGとして知られるタンパク質分子の、Rosetta@Homeソフトウェアによって生成されたものです。右の図は、実験によって決定された分子の図です。(Sergei Ovchinnikov et al. / UW via AAAS / Science)

分子生物学者は、バイオテクノロジーの大きな課題の1つである、タンパク質分子がどのように折り畳まれるかを解明するために、ゲノミクスとビッグデータの最先端のトレンドを活用してきた。

しかし、何万人ものボランティアの助けがなければ、彼らはそれを成し遂げることはできなかったでしょう。

クラウドソーシングによるコンピューター研究の成果が、本日、サイエンス誌に掲載されました。ワシントン大学をはじめとする研究機関の研究者たちは、タンパク質の折り畳みに関する600以上の謎を解明したと発表しました。これは、分子構造が未解明だった推定5,200のタンパク質ファミリーのうち、かなりの割合を占めています。

さらに多くの解決策が研究中であり、それらのパズルを解くことで、新しいタイプの医薬品や合成分子機械が生まれる可能性があります。

「タンパク質は小さな機械のようなものです」と、ワシントン大学タンパク質設計研究所所長で、本研究の主任著者であるデイビッド・ベイカー氏はインタビューで説明した。鍵の形がどの扉を開けるかを決めるのと同じように、タンパク質の分子構造が機能を決定するのだ。

適切な形状のタンパク質は、細胞機能の回復や、アルツハイマー病から癌に至るまでのさまざまな病気の蔓延を阻止する道を開く可能性がある。

タンパク質ファミリーは、様々な生物において特定の機能を果たす個々のタンパク質の大きな集合体で構成されています。タンパク質ファミリーのよく知られた例としては、血液を通して酸素を運ぶヘモグロビンが挙げられます。マウス、クジラ、そしてヒトは皆ヘモグロビンを利用しています。しかし、タンパク質の構造は種によって異なります。

これまで、様々なタンパク質ファミリーの分子形状の解明は、主に核磁気共鳴画像法(NMR)などの実験的手法によって行われてきました。しかし、ベイカー氏とその同僚たちは、ソフトウェアを用いてタンパク質の力学をシミュレーションする先駆的な手法を開発してきました。

彼らのツールの一つは、120万人のユーザーが提供するコンピュータリソースを活用する分散コンピューティングプラットフォーム「Rosetta@Home」です。このスクリーンセーバーソフトウェアは、化学相互作用に関する膨大なデータを処理し、タンパク質が取り得る最も可能性の高い形状を導き出します。データ量が多いほど、精度は向上します。

データは通常、既知の生物のゲノム配列解析から得られます。しかし、ワシントン大学の研究者セルゲイ・オブチンニコフ氏は異なるアプローチを取りました。池の水など、ありふれた資源から採取した微生物DNAから得られた、より大規模なメタゲノムデータです。

研究者たちは、これらのタンパク質配列がどのような生物由来のものか正確には知らなかったが、それは問題ではなかった。重要なのは、20億もの配列からなるデータベースを利用できるようになったことだった。

このデータベースは、Rosetta@Homeのパズル解決への取り組みを加速させました。研究チームはまず、27の大規模タンパク質ファミリーの既知の構造と比較することで、その成果を検証しました。次に、構造が未知の614のタンパク質ファミリーのモデルを生成しました。

これらのモデルが生成されて以来、5 つのタンパク質ファミリーの構造が実験的に決定され、予測された構造と類似していることが判明しました。

「20年前にタンパク質折り畳み問題をどうやって解決するかと聞かれたら、池の水と世界中のボランティアの配列情報を使うことになるとは想像もできなかっただろう」とベイカー氏はGeekWireに語った。

ベイカー氏は、サイエンス誌の論文でも謝辞を述べられているRosetta@HomeとCharity Engineのボランティアの貢献に特に敬意を表した。「彼らの貢献は、この論文だけでなく、長年にわたり彼らが行ってきた研究の大部分において、極めて不可欠でした」と彼は述べた。

タンパク質フォールディングの分野では、まだ多くの研究が残されています。メタゲノムDNAは微生物由来であるため、614のタンパク質ファミリーは比較的基本的な機能を扱う傾向があります。しかし、研究者たちはタンパク質配列のデータベースを拡張し、より複雑な細胞機能に焦点を当てようと取り組んでいます。

Rosetta@Homeシステムの大きな利点の一つは、余剰の計算能力が無料で提供されることです。ベイカー氏は、単一のタンパク質ファミリーの構造を解読するのにかかるコストは、従来の方法では数万ドルかかるのに対し、わずか数百ドルにとどまると見積もっています。

「構造を計算するコストは実にわずかです」とベイカー氏は言う。「ボランティアによる計算だからです。」

「メタゲノム配列データを用いたタンパク質構造の決定」の著者には、Ovchinnikov 氏と Baker 氏の他に、Hahnbeom Park 氏、Neha Varghese 氏、Po-Ssu Huang 氏、Georgios Pavlopoulos 氏、David Kim 氏、Hetunandan Kamissety 氏、Nikos Kyrpides 氏が含まれています。

Rosetta@Home にボランティアとして参加するには、http://boinc.bakerlab.org で登録してください。