
COVID-19研究論文をマイニングするためのソフトウェアツールが科学者の間で流行

COVID-19オープン研究データセット(CORD-19)のデビューから1か月後、コロナウイルス関連の研究論文のデータベースは規模が2倍になり、パンデミックに関して毎日発表される数百の研究を流すための10を超えるソフトウェアツールが誕生しました。
今週、ArXivプレプリントサーバーに掲載された総括レポートの中で、シアトルのアレン人工知能研究所、マイクロソフトリサーチ、そしてプロジェクトの他のパートナーの研究者らは、CORD-19の論文コレクションが約28,000件から52,000件以上に増加したと述べています。査読付きジャーナルやBioRxiv、MedRxivなどのプレプリントサーバーでは、毎日数百件もの論文が新たに発表されています。
CORD-19 は、Allen Institute for AI (AI2 とも呼ばれる) が開発した Semantic Scholar 学術検索エンジンを使用して、それらすべてを理解することを目指しています。
「危機の終息が見通せるようになるまで、データセットを定期的に更新することを約束します」とプロジェクトの主催者は述べている。
新型コロナウイルス最新情報:シアトルとテクノロジー業界におけるCOVID-19の最新情報
3 月中旬以降、データセットは 150 万回以上閲覧され、75,000 回以上ダウンロードされています。
しかし、それは単なる量の問題ではありません。CORD-19 は、パンデミックとその阻止方法に関する重要な疑問に答えるために、COVID-19 研究を視覚化して整理することを目的としたスピンオフ プロジェクトの開発を促しました。
最も注目を集めているものの一つは、商務省の国立標準技術研究所とホワイトハウスの科学技術政策局が先週立ち上げたテキスト検索カンファレンス-COVID(TREC-COVID)だ。
TREC-COVIDの主催者には、AI2、米国国立医学図書館、オレゴン健康科学大学、テキサス大学ヒューストン健康科学センターなどが含まれます。このプロジェクトの目標は、COVID-19に関する研究論文を、例えば「コロナウイルスは天候の変化にどのように反応するのか?」といったトピックに関するクエリとの関連性に基づいてランク付けするシステムの能力を評価することです。

「世界中のAI専門家はホワイトハウスの呼びかけに応え、科学者がCOVID-19に関する数千もの学術文献から洞察を得るためのアプローチを開発しています」と、米国最高技術責任者のマイケル・クラツィオス氏はニュースリリースで述べています。「TREC-COVIDプログラムは、医療・医学研究コミュニティのニーズに合わせて、文献から知識を抽出する強力で正確な検索エンジンを開発することで、これらの取り組みをさらに発展させます。」
CORD-19のもう一つのパートナーは、オンラインデータサイエンスコミュニティのKaggleです。Kaggleは、パンデミックを取り巻く主要な研究課題への回答を抽出するためのテキストマイニングコンペティションを実施しています。550以上のチームがこのコンペティションに参加しており、すでに機械ベースの分析と人間によるキュレーションを融合させる新しい方法を見つけています。
「数人のKagglerが医学生のグループと協力し、半自動化された生きた文献レビューページを作成しています」と、CORD-19チームのメンバーであるAI2のルーシー・ルー・ワン氏は述べた。「機械学習の専門家たちは、CORD-19データセットから回答を抽出するシステムを開発しており、医学生たちはその結果を評価し、一般公開に適した形で提示する作業に協力しています。」
王氏と他のチームメンバーは、データベース構築の取り組みにおいていくつかの障害に直面したと述べています。その一つは研究へのアクセスに関するものです。「多くの出版社がこの時期にCOVID-19に関する論文を惜しみなく公開してくれていますが、情報へのアクセスには依然としてボトルネックがあります」と、主催者は報告書の中で述べています。
CORD-19でまだ公開されていない論文の公開権を確保することは、主催者の最優先事項の1つであり、国立衛生研究所のPubMed Central COVID-19イニシアチブが主導的な役割を果たしている。
もう一つの障害は、科学論文の主要な配布形式であるPDF文書形式に関係しています。PDFは、論文を読んだり印刷したりするために忠実にレンダリングするように最適化されており、自動文書分析には適していません。そのため、PDFファイルで公開された研究は、AIが処理できるようにするために大幅なクリーンアップを施さなければなりません。さらに、研究論文に付随するメタデータを表現するための標準形式も存在しません。
「私たちはコミュニティが団結してこれらの課題の解決策を提案することを奨励しています」とCORD-19の主催者は言う。
朗報としては、CORD-19メタアナリシスという肥沃な分野において、新たなデータ検索・可視化ツールが次々と登場していることが挙げられます。以下にその一部をご紹介します。
- Neural Covidex: AI ベースの生物医学研究のランキング。
- CovidScholar: COVID-19 向けに最適化された MatScholar の適応。
- COVID-19 Explorer:インドの研究者によって開発された検索フィルター。
- COVID-19 検索: Microsoft の Azure Cognitive Search を活用しています。
- Covid Graph:ドイツを拠点とするチームによって作成されたナレッジグラフ。
- CoViz: AI2 で開発された可視化ツール。
- CovidAsk:韓国で作成された質問回答ツール。
- Vespa: CORD-19 向けに最適化された Verizon Media の検索エンジン。
- ASReview: ASReview ソフトウェア用の CORD-19 プラグイン。
- CORD-19 デモとリソース: Semantic Scholar のツールのリスト。
CORD-19チームメンバーでAI2の応用研究科学者であるカイル・ロー氏は、生物医学研究の課題解決に自然言語処理とテキストマイニングを活用するという考え方は、決して新しいものではないと述べた。「新しいのは、これらの論文から抽出された答えや知見が、いかに速いペースで必要とされているかということです」と彼は述べた。
ワン氏は、CORD-19のために構築された情報インフラとツールは、現在のパンデミックが過ぎ去った後も長く利益をもたらすはずだと述べた。「将来起こるあらゆる危機にも役立つことを願っています」と彼女は述べた。
この報告書は、Wang氏とLo氏のコメントを加えて更新されました。CORD-19に関する新たに発表されたプレプリント論文「CORD-19:COVID-19オープン研究データセット」の他の著者には、AI2のYoganand Chandrasekhar氏、Russell Reas氏、Jiangjiang Yang氏、Rodney Kinney氏、William Merrill氏、Brandon Stilson氏、Chris Wilhelm氏、Douglas Raymond氏、Daniel Weld氏、Oren Etzioni氏、Sebastian Kohlmeier氏、Microsoft ResearchのDarrin Eide氏、Zhihong Shen氏、Kuansan Wang氏、Boya Xie氏、国立医学図書館のKathryn Funk氏とJerry Sheehan氏、KaggleのPaul Mooney氏とDevvret Rishi氏、Chan Zuckerberg InitiativeのZiyang Liu氏とAlex Wade氏、ジョージタウン大学のDewey Murdick氏が含まれます。