
Amazonのレビューで病気を予防できる?研究者がテキスト分析で食品リコールを予測
クレア・マクグレイン著

アマゾンは過去1年間、肯定的なレビューに対して金銭を提供する販売者や第三者に対し厳しい取り締まりを行ってきました。しかし、あるデータサイエンティストのチームにとって、アマゾンにおける否定的なレビューは肯定的なレビューよりもはるかに興味深いものです。
ワシントン大学の社会貢献のためのデータサイエンスプログラムの研究者たちは、Amazonのレビューを活用して食品リコールを予測する取り組みを開始しました。チームは、Amazonのレビューのテキストをマイニングし、製品の安全性を予測できる機械学習プラットフォームを開発しました。このプログラムはまだ開発段階ですが、食品リコールのプロセスに革命をもたらす可能性を秘めています。
チームのプロジェクトリーダーであり、ワシントン大学健康指標評価研究所の国際保健学助教授でもあるエレイン・ンソージー氏は、現在のリコール手続きは信じられないほど遅い可能性があると述べた。
「一部のケースでは、『この製品には何か問題がある』というレビューを誰かが書いたのを見てから、FDAが実際にリコールを発行するまでに1年もかかった」と彼女は語った。
この遅延の主な原因は、リコールが正式な調査プロセスを経て初めて行われることであり、通常、病院が食中毒患者の報告を行った時点で発動されます。このプログラムは、Amazonのレビュー情報を活用してリアルタイムで調査を開始することで、このプロセスを短縮する可能性があります。
シンプルなコンセプトかもしれませんが、それを実現するために必要な技術は複雑です。プロジェクトのリードデータサイエンティストであるヴァレンティーナ・スタネヴァ氏は、レビューのテキストと過去にリコールされた製品を比較し、「テキストのどの部分が、この商品がリコールされるべきか、あるいはリコールされるべきではないかを実際に示唆しているのかを学習する」というアイデアだと説明しました。
このような方法でテキストを処理するのは困難であり、ワシントン大学の社会貢献のためのデータサイエンスプログラムのデータサイエンスフェローチームは、スタネヴァ氏とンソエジー氏と協力し、この問題に対する様々なアプローチを検証しました。彼らはレビュー内の「カビ」「病気」「嘔吐」といった単語にフラグを付け、どの単語がリコールを予測できるかを探りました。また、データとレビューとリコールの関連性を表示するためのインターフェースも作成しました。

しかし、レビューの量は、プログラムの予測能力にとって独特の課題をもたらします。
「非常に稀にしか発生しない事象を扱っている」とスタネバ氏は述べ、リコールの予測を困難にしている。簡単に言えば、このプログラムはリコールされていない製品を迅速に特定できるが、リコールされた製品を特定するのはより困難だと彼女は述べた。
Data Science for Social Good チームの作業は終了していますが、Staneva 氏と Nsoesie 氏は今後 1 年間にわたり、UW の学生の支援を受けながらプログラムの改善を続け、ツイートやその他の公開ソーシャル メディアを含むようにテキスト ソースを拡張することに関心を持っています。
その間、彼らはこの技術を現実化するために、可能なパートナーシップを模索している。
ワシントン州保健局はすでにこのプログラムの利用に関心を示しており、チームは保健当局がさまざまな食品やその他の製品の回収を開始するのに役立つリアルタイムのダッシュボードを構築する予定だとンソーシー氏は語った。
スタネバ氏は、リコールの遅延や見逃しに伴うリスクを考慮すると、このような提携を進める場合は、プログラムをより厳密にテストする必要があると指摘した。「リコール対象製品の見逃しは、誰かの命に関わることになりかねません」と彼女は述べた。
チームはAmazonとの連携も検討している。「Amazonと連携して、データの取得と高速化を支援できれば素晴らしいと思います」とNsoesie氏は述べた。「リアルタイムの何かを開発するなら、データをリアルタイムで入手する必要があるのです。」
次回サルモネラ菌に汚染された野菜を捨てるときは、Amazon のレビューに感謝することになるかもしれません。