
コンピューターが科学を破壊した経緯と、それを修復するために私たちにできること
[編集者注: ベン・マーウィックはワシントン大学考古学准教授です。この記事はThe Conversationに掲載されたものです。クリエイティブ・コモンズ・ライセンスに基づき、ここに再掲載しています。原文も併せてご覧ください。]

再現性は科学の礎の一つです。1660年代にイギリスの科学者ロバート・ボイルによって普及したこの考え方は、発見が科学的知識として受け入れられるためには、再現可能である必要があるというものです。
要するに、私が学術論文で発見を発表する際に説明した方法に従えば、私と同じ結果が得られるはずです。例えば、研究者が新薬の病気治療における有効性を再現できれば、それはその薬がその病気のすべての患者に効果があるという良い兆候です。もし再現できなければ、どのような偶然やミスが当初の好ましい結果をもたらしたのか疑問に思い、その薬の有用性に疑問を抱くことになります。
科学の歴史の大部分において、研究者は自らの結果を独自に再現できるような方法で研究方法を報告してきました。しかし、パーソナルコンピュータ、そしてそれをより使いやすく進化させたポイントアンドクリック式のソフトウェアプログラムの登場以降、多くの研究の再現性は疑わしいものとなり、場合によっては不可能になってきました。多くの研究者が依存するようになったコンピュータの不透明な使用法によって、研究プロセスのあまりにも多くの部分が覆い隠されてしまっています。そのため、部外者が結果を再現することはほぼ不可能になっています。
最近、いくつかのグループがこの問題に対する同様の解決策を提案しました。彼らは協力して、記録されていないコンピュータ操作というブラックボックスから科学データを解き放ち、独立した読者が再び批判的に結果を評価・再現できるようにすることを試みています。研究者、一般市民、そして科学そのものが恩恵を受けるでしょう。
コンピューターはデータを処理するが、それを曖昧にすることもある
統計学者のビクトリア・ストッデン氏は、パーソナルコンピュータが科学史において占める独自の地位について論じています。パーソナルコンピュータは、望遠鏡や顕微鏡のように、新たな研究を可能にする単なる機器ではありません。コンピュータは別の意味で革命的です。科学データに新たなパターンを見出すための、あらゆる種類の新しい「スコープ」を生み出す小さな工場なのです。
現代の研究者で、たとえ定量的な分析がそれほど重要でない分野であっても、コンピューターを使わずに研究している人を見つけるのは難しいでしょう。生態学者はコンピューターを使って、災害が動物の個体群に与える影響をシミュレーションします。生物学者はコンピューターを使って膨大な量のDNAデータを検索します。天文学者はコンピューターを使って膨大な数の望遠鏡を制御し、収集したデータを処理します。海洋学者はコンピューターを使って衛星、船舶、ブイからのデータを組み合わせて地球の気候を予測します。社会科学者はコンピューターを使って政策の影響を発見・予測したり、インタビューの記録を分析したりします。コンピューターは、ほぼすべての分野の研究者がデータの中から興味深いものを見つけるのに役立っています。
コンピューターは個人的な道具としての側面も持ち合わせています。私たちは通常、自分専用のコンピューターを独占的に使用し、そこに保存されているファイルやフォルダは、一般的にプライベートな空間とみなされ、人目に触れません。データの準備、分析、結果の視覚化といった作業は、コンピューター上でプライベートに行われます。そして、そのプライベートな作業をすべてまとめた、公開されるジャーナル論文が完成するのは、パイプラインの最終段階になってからです。
問題は、現代科学のほとんどがあまりにも複雑で、多くのジャーナル論文が簡潔であるため、研究者がコンピュータでデータを分析する際に行った多くの重要な手法や意思決定の詳細を論文に記載することが不可能であるということです。では、他の研究者はどのようにして結果の信頼性を判断したり、分析を再現したりできるのでしょうか?

科学者はどの程度の透明性を負うのでしょうか?
スタンフォード大学の統計学者ジョナサン・バックハイトとデビッド・ドノホは、パーソナルコンピュータがまだかなり新しい概念であった1995年に早くもこの問題について説明しました。
科学出版物に掲載された計算科学に関する記事は、学術研究そのものではなく、単に学術研究の宣伝に過ぎません。真の学術研究とは、ソフトウェア開発環境全体と、その数値を生成した命令セット全体を指します。
彼らの主張は過激だ。つまり、私たちのパソコンにあるプライベートなファイルや、論文発表の準備のために行う個人的な分析作業はすべて、論文と共に公開されるべきだというのだ。
これは科学者の働き方を大きく変えることになるでしょう。コンピューター上で行ったすべての作業が最終的に他の人にも見られるように、最初から準備を整えておく必要があります。多くの研究者にとって、これは大変なことです。ビクトリア・ストッデン氏は、ファイル共有に対する最大の懸念は、ドキュメントの作成や整理といった準備にかかる時間にあることを明らかにしました。次に大きな懸念は、誰かがファイルを使用した場合に、その功績が認められないリスクです。
再現性を高めるための新しいツールボックス

最近、複数の科学者グループが、コンピュータ上で行われたファイルや分析の追跡を容易にするためのツールや手法に関する勧告に合意しました。これらのグループには、生物学者、生態学者、原子力技術者、神経科学者、経済学者、政治学者などが含まれます。彼らはマニフェストのような論文で勧告をまとめています。このように異なる分野の研究者が共通の行動方針に収束することは、科学研究における大きな転換期が訪れつつある兆候と言えるでしょう。
重要な推奨事項の一つは、データ分析中のポイントアンドクリック操作を可能な限り最小限に抑え、コンピュータに実行させる指示を記述したスクリプトに置き換えることです。これにより、痕跡がほとんど残らず、他の人に伝えにくく、自動化も難しい、一時的なマウス操作の記録という問題を解決できます。これは、Microsoft Excelなどのスプレッドシートプログラムを使用したデータのクリーニングや整理作業でよく見られます。一方、スクリプトには明確な指示が記述されており、作成者自身は(具体的な詳細を忘れてしまった後でも)将来的にも、他の研究者にも読み取ることができます。また、スクリプトはファイルサイズが小さいため、学術論文に組み込むことも可能です。さらに、スクリプトは研究タスクの自動化にも簡単に応用でき、時間を節約し、人為的ミスの可能性を減らすことができます。
この例は、微生物学、生態学、政治学、考古学の分野で見られます。これらの研究者は、メニューやボタンをマウスで操作したり、スプレッドシートのセルを手動で編集したり、複数のソフトウェア間でファイルをドラッグアンドドロップして結果を取得したりする代わりに、スクリプトを作成しました。スクリプトは、ファイルの移動、データのクリーニング、統計分析、グラフ、図、表の作成を自動化します。これにより、分析結果の確認や再実行にかかる時間が大幅に短縮されます。また、出版物の一部となるスクリプトファイル内のコードを見れば、誰でも、出版された結果を生み出した正確な手順を確認できます。
その他の推奨事項としては、ファイルの保存に一般的な非独占的なファイル形式(データテーブル用のCSV(カンマ区切り変数)など)を使用すること、そして情報を構造化したものを容易に理解できるよう、ファイルをフォルダに体系的に整理するためのシンプルなルーブリックを使用することなどが挙げられます。また、データ分析と視覚化には、あらゆるコンピュータシステム(Windows、Mac、Linuxなど)で利用できる無料ソフトウェア(RやPythonなど)の使用が推奨されています。共同作業には、複数の人が同じドキュメントを編集する際に変更を追跡するのに役立つGitという無料プログラムが推奨されています。
これらは現在、最先端のツールと手法であり、中堅・ベテラン研究者の多くは漠然とした認識しか持っていません。しかし、多くの学部生は今、これらを学んでいます。多くの大学院生は、組織化、オープンフォーマットの活用、フリーソフトウェア、そして効率的な共同作業のメリットを認識し、Software Carpentry、Data Carpentry、rOpenSciといったボランティア団体のトレーニングやツールを活用し、正規のトレーニングで不足している部分を補っています。私の大学は最近、eScience Instituteを設立し、研究者がこれらの推奨事項を導入できるよう支援しています。当研究所は、バークレー大学やニューヨーク大学の同様の研究所を含む、より大きな運動の一翼を担っています。
これらのスキルを学んだ学生が卒業し、影響力のある地位に就くにつれて、これらの基準が科学における新たな標準となるでしょう。学術雑誌は、論文にコードとデータファイルを添付することを義務付けるでしょう。資金提供機関は、それらを公開アクセス可能なオンラインリポジトリに配置することを要求するでしょう。

オープンフォーマットとフリーソフトウェアはお互いにメリットがある
研究者のコンピュータ利用方法のこうした変化は、科学への一般市民の関与に有益となるでしょう。研究者がファイルや手法をより積極的に共有するようになれば、一般市民は科学研究へのアクセス性を大幅に向上させることができます。例えば、高校教師は最近発表された研究成果の生データを生徒に見せ、分析の主要部分を丁寧に説明できるようになります。なぜなら、これらのファイルはすべて論文に添付されているからです。
同様に、研究者がフリーソフトウェアを利用する機会が増えるにつれ、一般の人々も同じソフトウェアを使って、ジャーナル論文に掲載された研究成果をリミックスしたり拡張したりできるようになるでしょう。現在、多くの研究者は高価な商用ソフトウェアプログラムを使用しており、そのコストの高さゆえに大学や大企業以外の人には利用できません。
もちろん、科学における再現性の問題は、パーソナルコンピュータだけが原因ではありません。実験設計の不備、不適切な統計手法、競争の激しい研究環境、そして新規性と著名な学術誌への掲載への過度な評価などが、すべて原因です。
コンピュータの役割のユニークな点は、私たちがこの問題に対する解決策を持っていることです。コンピュータサイエンスの研究から借用した成熟したツールと十分に検証された手法に関する明確な推奨事項があり、あらゆる科学者がコンピュータ上で行う研究の再現性を向上させることができます。これらのツールを習得するために少し時間を投資するだけで、科学の礎となるこの技術の復活に貢献できます。