
解説:データスクレイピングをめぐる争いでLinkedInに不利な判決を下すのはなぜ正しいのか

ウェブサイトの公開データを「スクレイピング」するという一般的な慣行が、法的に攻撃を受けている。画期的な判決(HiQ Labs対LinkedIn)は最近、スクレイピングは合法であると結論付けたが、LinkedInは「この訴訟はまだ終わっていない」と述べた。
私自身、学術研究や設立した企業でスクレイピングに個人的に依存してきたため、裁判所の決定を支持し、皆さんにも議論に参加していただきたいと思います。
この記事では、LinkedIn、Amazon などのデータを収集・集約する大企業の犠牲の上に「情報を持たない人々」が利益を得ることが多い、事実をスクレイピングする慣行に焦点を当てています。

複数のベンダー間で同じ製品の異なる価格を簡単に比較できる比較ショッピングのケースを考えてみましょう。
1996年、私はNetbotを共同設立しました。これは、消費者にオンライン比較ショッピングを提供した最初の企業です。その後のスタートアップでは、同僚と共にこのアイデアを航空運賃(Farecast)、電子機器製品(Decide.com)などにも展開しました。私たちは、消費者が最良の価格で商品を購入し、最適な購入時期を見極めるお手伝いをし、ブラックフライデーの割引の価値に関する誤解を打ち破り、消費者にとって公平な競争環境の実現に貢献しました。
これらのスタートアップ企業(そしてその他多くの企業)は、主要な製品や価格情報を取得するために、本質的にウェブスクレイピングに依存しています。そのため、スクレイピングは消費者にとって製品の価格を並べて比較できるという大きなメリットをもたらし、より高価なベンダーにとってはより競争力のある価格を提供するインセンティブとなります。
ウェブスクレイピングは研究にも有効です。例えば、Nicholas J. DeVito、Georgia C. Richards、Peter Inglesbyは、Nature誌に掲載された論文の中で、スクレイピングを活用して検死官の報告書を分析し、将来の死亡事故を未然に防ぐ方法を説明しています。
アレンAI研究所(AI2)の主力プロジェクトの一つであるSemantic Scholarは、学術論文に関する情報をスクレイピングする能力を基盤としています。がんの治療法が何百万もの研究論文の中に埋もれているかもしれないという仮説に基づき、研究者が科学文献の最新情報を把握できるよう、学術コンテンツの動的なリポジトリの開発を目指しました。
スクレイピングは透明性と説明責任の促進にも役立ちます。スクレイピングによって、様々な分析に活用できるデータが民主化されます。例えば、ジャーナリストは養子縁組スキャンダル、監視ネットワーク、違法な銃器販売といった画期的な調査において、スクレイピングをツールとして活用してきました。
今日、私たちはスクレイピングに依存するウェブサイト、特にGoogleを利用する機会が多くなっています。だからこそ、HiQ Labs対LinkedInの判決は極めて重要なのです。
LinkedIn は、HiQ による会員データへのアクセスが会員のプライバシーを脅かすと主張しているが、これは単なる見せかけであり、本質はデータ、アクセス、そして利益にある。
第9巡回裁判所の判決は、「LinkedIn自身の行動は、ユーザーが公開プロフィールにおいてプライバシーを期待しているという同社の主張を弱めるものである。LinkedInの『Recruiter』サービスは、採用担当者が見込み客を『フォロー』し、『見込み客がプロフィールを変更した際に通知』を受け取り、『それらの通知を適切なタイミングでアプローチするためのシグナルとして利用』することを、見込み客に知られることなく可能にする」ことを可能にしている…」と結論付けている。
さらに、「LinkedInは、新製品のマーケティングを通じて、LinkedInプロフィールに含まれる膨大なデータを活用する方法を模索してきました。2017年6月、CBSの番組に出演したLinkedInの最高経営責任者(CEO)ジェフ・ワイナー氏は、「5億人がサイトに参加していることで収集できた膨大なデータを最大限に活用したい」と語りました。」と述べています。
この件における裁判所の判決には賛成ですが、スクレイピングされたデータの特定のユースケースについては懸念を抱いています。例えば、HiQ Labsは「スキルギャップや離職リスクを数ヶ月も前に予測するのに役立つ水晶玉を提供する」と主張しています。例えば、同社のKeeper製品は離職リスクを分析します。
分析にバイアスが入り込み、特定のグループに不均衡な影響を与える可能性があることは、容易に想像できます。私たちはすでに、再犯予測、採用決定、財務上の意思決定など、様々な場面でこのバイアスが顕在化しているのを目にしています。
データは私たちの社会における重要な通貨であり、スクレイピングはその通貨への普遍的なアクセスを提供します。どのように活用するかは私たち次第です。
ウェブスクレイピングに賛成する人は必ずしも多くなく、プライバシーを主な反対理由として挙げる人も多い。こうした懸念には一理ある。
例えば、HiQ Labs対LinkedInの訴訟では、LinkedInユーザーがアカウントを閉鎖した場合、LinkedInはプライバシーポリシーに基づき、アカウント閉鎖後のユーザーデータの取り扱いについて一定の義務を負い、その契約を遵守する責任を負います。HiQ Labsが以前にLinkedInから当該ユーザーのデータを取得していた場合、HiQ LabsはLinkedInと同様の義務をユーザーに対して負うことはありません。
これは決して小さな課題ではありませんが、データはスクレイピング時に公開されており、Web スクレイピングを実践として検討することのメリットがデメリットを上回ります。
総じて、研究、商業競争、そして公共にとってのスクレイピングのメリットは、そのコストを上回っています。裁判所は、この一般的な慣行を支持し、法的異議申し立てから守るべきです。