Watch

研究者らは、機械生成言語システムが有害な言語を減らすのを助ける新しい方法を開発しました。

研究者らは、機械生成言語システムが有害な言語を減らすのを助ける新しい方法を開発しました。
(AI2写真)

幼い子どもの言語習得能力は驚異的です。しかし、幼児は時折、不適切な言葉を口にしてしまうことがあります。しかも、多くの場合、その意味を理解していないのです。幸いなことに、適切な指導があれば、子どもはそのような不適切な言葉を使わないように導くことができます。

機械学習における自然言語生成(NLG)でも、同様の状況が発生する可能性があります。ただし、そのプロセスは人間の言葉遣いとは大きく異なります。OpenAIのGPT-3言語モデルのようなNLGシステムは、コーパス(膨大な文章のコレクション)で事前学習されたニューラルネットワークです。このモデルはディープラーニングの手法を用いて、簡単な入力プロンプトから人間のような文章を自動的に生成します。その結果は非常にリアルになり、時には実際の人間が書いたものと見分けがつかないほどです。

残念ながら、このアプローチは有害な言語生成につながることが多く、自動化されたビジネス用途では信頼できません。幼い子供と同じように、システムは自分が使っている言葉を理解しているわけではなく、過去に同様の文脈で人々がその言葉を使ったことがあるということしか知らないのです。

現在、アレン人工知能研究所(AI2)とワシントン大学の研究者らは、有害な言語使用の可能性を減らすなど、これらの機械学習システムを誘導する新しい方法を開発した。

「DExperts:エキスパートとアンチエキスパートによるオンザフライ制御テキスト生成」は、この問題に取り組む研究者グループによる新しい論文です。研究チームは、言語モデル(LM)によって生成されたテキストの属性を、流暢性や多様性を犠牲にすることなく、デコード時に制御できるかどうかを解明しようとしました。その結果、GPT-3のような大規模なLMを「操縦」するために、望ましい属性と望ましくない属性を持つテキストをモデル化する2つの小規模なLMを使用するアプローチが生まれました。

「これらの微調整に基づく手法は、元の言語モデル自体を修正します。そのため、デコード時にモデルから直接生成することができます」と、論文の筆頭著者であるアリサ・リュー氏は述べています。「元の言語モデルには一切手を加えていません。代わりに、これらの小さなエキスパートを微調整しているのです。」

チームのアプローチは、「専門家の積」として知られる従来の機械学習手法に基づいており、一連の単純な出力を組み合わせることで、より大規模で複雑なシステムの出力を決定することができます。この手法により、各小規模モデルは問題の特定の側面を分析することに特化することができます。

DExpertsチームは、専門家だけでなく、反専門家も加えました。研究者たちは、専門家と反専門家の言語モデルを組み合わせた研究は、おそらくこれが初めてであると考えています。専門家と反専門家の言語モデルは、特定の分野固有の属性データに基づいて微調整された、対照的な2つの言語モデルです。これらを組み合わせることで、分野固有のシグナルを打ち消しながらも、対象の言語モデルを特定の感情に誘導したり、有害な言葉遣いなどの結果から遠ざけたりすることができます。

このアプローチはデコード時に行われるため、多くの利点があります。エンドユーザーがGPT-2やGPT-3のような巨大なデータセットをダウンロードして自分のコンピュータやデバイスで実行することは不可能です。これらの深層学習言語モデルは、大規模なコンピュータクラスター上で動作する必要があり、通常はAPI(アプリケーション・プログラミング・インターフェース)を介してアクセスされます。そのため、大規模なLMを直接変更することはできません。そこで、より小さなLMが登場します。

「私たちは、自分たちで実行することさえできないほど巨大な言語モデルの領域で研究を進めています」と、論文著者の一人であるマールテン・サップ氏は述べています。「しかし驚くべきことに、私たちの手法はそれほど大きなモデルでも依然として有効です。つまり、より小規模なエキスパートを用いることで、GPT-3のようなモデルを実際に制御できるのです。これは本当に素晴らしいことです。」

研究者によると、DExpertsは既存の感情操作手法だけでなく、既存の解毒手法よりも優れた性能を発揮する。この研究では単一の属性への誘導または離脱のみを検証したが、このフレームワークは複数の専門家や反専門家にも適用できる汎用性を備えている。おそらく、これにより、機械学習で広く用いられている多属性「専門家の積」手法の恩恵をさらに受けることができるだろう。

現在、多くの企業がGPT-3を活用した製品を開発していますが、不正確または不適切な出力の可能性を考慮すると、特に特定の商業環境においては、信頼できる結果を得るためにGPT-3に依存することは依然として困難です。DExpertsのような改良により、これらのモデルを使用する際の信頼性と実用性が大幅に向上する可能性があります。手紙や提案書の作成から、映画や書籍のレビューの自動化、バーチャルアシスタントの構築まで、自然言語生成をより意図的に制御できるようになることは、GPT-3の多くの用途にメリットをもたらすでしょう。

DExpertsのような開発は、多くの新たな進歩とメリットをもたらす可能性が高い一方で、悪用される可能性も無視できません。研究者たちは、この手法が憎悪や過激主義を煽る文章を自動生成するために利用される可能性があることを認めています。自動自然言語生成の能力が高まるにつれ、詐欺師やハッカーが不注意な人々を操るために利用される可能性もあります。近年、テキストベースのチャットボットやAIを活用したメール詐欺は既に蔓延しています。こうした機能を、合成音声通信を含むより高度なインタラクションに拡張するのも、そう遠くはありません。

これらの懸念は目新しいものではありません。あらゆる新しいテクノロジーは予期せぬ用途や予期せぬ結果をもたらすため、開発サイクルの早い段階で安全対策をどのように組み込むかを検討しておくことは重要です。

自然言語生成は将来、どのようにより回復力と信頼性を高めることができるでしょうか?将来的には、ニューラルアルゴリズム推論のような手法が重要な役割を果たす可能性があります。DeepMindの研究者が最近論文で発表したこのアプローチは、これらの言語モデルのようなニューラルネットワークとアルゴリズムに基づくルールベースの計算を融合し、両方の長所を活かした、より信頼性の高い推論パイプラインを構築します。

DExpertsは、GPT-3のような強力な言語モデルをデコード時に制御できるため、企業や消費者にとって大きな可能性を秘めています。多くの反復的な管理タスクを自動化し、日常生活におけるルーチン作業を簡素化します。また、これらのアプリケーションをより環境に優しいものにする可能性も秘めています。

「このアプローチは生成時に機能し、モデル全体を再学習する必要がないため、計算量が大幅に削減されます」とSap氏は指摘する。「つまり、二酸化炭素排出量を削減し、グリーンAIの精神にも合致するのです。これはAI2でも非常に関心のある分野です。」