
神経毒性の呪い:AI2とワシントン大学の研究者がコンピューターの言語管理を支援

2011年、IBMのスーパーコンピューター「ワトソン」がケン・ジェニングスとブラッド・ラターを破り「クイズ番組『Jeopardy』」の王者に輝いた直後、このスーパーコンピューターの研究者たちは、ウェブベースの「アーバン・ディクショナリー」にワトソンを導入することで語彙を拡張することを決定しました。クラウドソーシングによるスラングや文化的なフレーズのコレクションであるアーバン・ディクショナリーは、その役割を少々やりすぎたようです。まもなくワトソンは罵倒語を連発するようになり、以前のような時代遅れの状態に戻す必要がありました。
IBMの経験は決して特異な事例ではありませんでした。自然言語処理の進歩に伴い、事前学習済みの言語生成モデルにおいて有害な出力が深刻な問題となってきました。このため、アレンAI研究所(AI2)とワシントン大学の計算言語学者チームは、この問題をより深く理解しようと試みました。
彼らの研究成果「RealToxicityPrompts:言語モデルにおける神経毒性変性の評価」は、最近Findings of EMNLP 2020に掲載され、言語生成、わいせつ表現、バイアスに関するいくつかの問題を浮き彫りにしています。この毒性の問題は、予測言語モデルが膨大な量の人間生成テキストを学習データとして生成する方法に一部起因しています。ディープラーニング技術と組み合わせることで、既存のコンテンツに基づいて文の断片を補完することが可能になります。例えば、「それで、彼は完全に…」のような最初のフレーズが挙げられます。いくつかの事前学習済み言語モデルは、この文を補完する際に、定期的に毒性のあるテキストを生成します。
研究者の一人であるSuchin Gururangan氏は次のように説明しています。「多くの人が、このオートコンプリートアプリケーションやあのAPIは、人種差別的、性差別的など、憎悪に満ちた内容を大量に生成する可能性があるといった、経験的に問題を指摘しています。私たちは、特定のモデルを導入する際にどの程度の有害性が生じると予想されるかを評価する体系的な方法が存在しないことに気づきました。」

この問題に対処するため、研究チームは言語生成システムにおける毒性を測定するための評価フレームワークとテストベッドを構築しました。まず、事前学習済みの言語モデルにおいて、プロンプトなしで一定数の世代を生成した場合に生成される毒性の程度と頻度を測定することでベースラインを確立しました。次に、Open WebText Corpus(Redditの大規模なテキストコレクション)から、自然発生的なプロンプト10万件のデータセットを作成し、OpenAIのGPT-2の学習に使用されたデータセットを再現しようと試みました。
GoogleのPerspective APIを用いて、研究対象の各言語モデルがどの程度の毒性変性を引き起こすかを測定する毒性スコアが生成されました。その後、様々な解毒方法がテストされ、毒性を軽減する上でより効果的な方法もいくつかありましたが、完全に除去できる方法はありませんでした。
「私たちは、個々の罵り言葉を見て、モデルがそれを出力するかどうかを確認しているだけではありません」と研究者のマールテン・サップ氏は述べた。「これは、文章全体を取り込み、毒性スコアを予測する機械学習アルゴリズムです。」このコンセプトを実証するために、研究者たちはAI2のウェブサイトで公開されているインタラクティブな視覚化ツールをいくつか作成した。
CTRLやGPT-3のように、ディープラーニングを用いて人間のようなテキストを生成する大規模言語モデルの開発は急速に進んでいます。実際、これらのシステムは非常に優れたものになっており、特定のアプリケーションではそれが機械生成テキストであると見分けるのが非常に困難です。これらのモデルは既に、新しいツールの開発や、オートコンプリートやヘルプシステムなどの既存ツールの改良に活用されています。しかし、出力をより深く理解し、制御しなければ、解決する問題と同じくらい多くの問題を引き起こす可能性があります。
現状では十分なトレーニングデータを一から作成することは現実的ではないため、必要なデータセットは主に既存のウェブベースのテキストから生成されています。特定の不快な単語やフレーズをフィルタリングした場合でも、これらのシステムは「無視できない」量の偏見のある、あるいは有害な言語を日常的に生成しており、安全な導入を妨げています。
「どんな解毒方法も完璧ではない」と、研究著者の一人であるサミュエル・ゲーマン氏は指摘する。「結局のところ、私たちの枠組みでは、どのモデルも毒性を生じさせる可能性があることが判明した。」
これまでのところ、この研究では、学習データの有害性とモデル自体の出力との間に強い相関関係が見出されています。そのため、一部のモデルが、近年の激しい分断を招いた政治シーズンにおいて、より辛辣な表現を生み出したとしても、驚くべきことではないのかもしれません。
コンピューターは処理対象の言語をまだ理解できていません。これがジレンマの大きな要因です。既存の膨大なテキストコレクション(コーパスとも呼ばれます)に基づく予測手法を使用しているため、あらゆる種類の有害な言語や見解が意図せず生成される可能性があります。使用されるコーパスとモデルは、出力される有害性の程度に大きな影響を与えますが、言語の複雑かつ繊細な性質により、このような有害な劣化を防ぐことは特に困難です。
GPT-3のような自然言語生成モデルが幅広いサービスや製品の開発に利用され始めていることを考えると、これは懸念すべき事態です。結果として得られるツールとエコシステムはビジネスに大きな可能性を秘めている一方で、有害な劣化が容易に広報上の悪夢につながる可能性も容易に想像できます。
問題は、単語フィルターや機械学習を用いてシステムから何を避けるべきかを学習させるというレベルにとどまりません。有害性やバイアスは主観的な性質を持つものであり、ある個人やグループにとって不快なものが、別の個人やグループにとっては許容範囲内、あるいは無害な場合もあります。さらに、著者らによると、テキスト出力を制御する様々な手法は、テキストを支離滅裂にしたり、意図しないバイアスを植え付けたりする可能性があります。
「トレーニングデータにごくわずかな有害性があっても、モデルの挙動に非常に大きな影響を与える可能性があります」とグルランガン氏は述べた。「現在、多くの決定は少人数のグループによって行われており、彼らは数百万人の人々と関わっています。そのため、有害な影響を及ぼす可能性があります。ですから、このプロセスをより民主的にし、より多くの人々を巻き込む方法を見つける必要があります。」しかし、これは重要な目標ではあるものの、必要なデータの規模と言語の主観的な性質を考えると、委員会によるトレーニングデータセットの事前監査といった特定の解決策は大きな課題となるだろう。
それでも、RealToxicityPromptsのチームは将来を見据え、彼らのツールが標準を確立し、最終的には将来のデータセットやモデルの検証とトレーニング方法を改善し、不快で偏見のある言語の生成を抑制するのに役立つと考えています。これは重要な点です。なぜなら、これらの言語モデルは、ヘルプデスクから自動応答、デジタルアシスタントまで、ビジネスやその他の場面で様々な用途で使用されるようになるため、自然言語生成がコミュニケーションを妨げるのではなく、向上させるようにする必要があるからです。