
マイクロソフトのAIエンジニアは、DALL-E 3の安全性の問題を暴こうとする同社の試みを阻止したと語る

この投稿は、Microsoft と OpenAI のコメント、および両社の発言に対する Microsoft エンジニアの Shane Jones 氏による追加コンテキストで更新されました。
マイクロソフトのAIエンジニアリングリーダーは、12月初旬にOpenAIのDALL-E 3画像ジェネレーターに脆弱性を発見し、ユーザーが安全ガードレールを回避して暴力的または露骨な画像を作成できることを明かし、この問題に世間の注目を集めようとする以前の試みを同社が妨害したと述べた。
先週、テイラー・スウィフトの露骨なディープフェイク画像が出現したことは、「私が懸念していた種類の不正使用の一例であり、私がOpenAIにDALL・E 3の一般利用を中止するよう促し、マイクロソフトに懸念を報告した理由です」とマイクロソフトの主席ソフトウェアエンジニアリングリーダー、シェーン・ジョーンズ氏は、ワシントン州の司法長官と連邦議会議員に宛てた火曜日の書簡に記している。
404メディアは先週、スウィフトの偽の露骨な画像は「女性に対する虐待的な画像を専門とする特定のテレグラムグループ」から発信されたものだと報じ、同グループでよく使用されるAIツールの少なくとも1つは、OpenAIのDALL-E 3の技術を部分的にベースとしたMicrosoft Designerであると指摘した。
「DALL·E 3、およびDALL·E 3を使用するMicrosoft Designerなどの製品の脆弱性により、AIを悪用して有害な画像を生成することが容易になります」とジョーンズ氏は、GeekWireが入手したパティ・マレー上院議員、マリア・カントウェル上院議員、アダム・スミス下院議員、ボブ・ファーガソン司法長官宛ての書簡の中で述べている。
同氏はさらに、「マイクロソフトはこれらの脆弱性と悪用される可能性を認識していた」と付け加えた。
マイクロソフトは声明で、従業員の懸念に対処することに尽力しており、「問題を適切に調査し、解決するための堅牢な社内報告チャネルを確立した。従業員に対し、懸念を公にエスカレーションする前に適切に検証およびテストできるよう、このチャネルの利用を推奨した」と述べた。
同社は、「従業員からの報告を調査し、彼が共有した手法は、当社のAI画像生成ソリューションのいずれにおいても、安全フィルターを回避していないことを確認しました。従業員からのフィードバックは当社の文化の重要な部分であり、当該従業員と連携し、彼が抱えている懸念に対処する予定です」と述べています。
マイクロソフトはその後、声明を更新し、「彼の報告はOpenAI製品に関するものであったため、当社は彼にOpenAIの標準報告チャネルを通じて報告するよう促し、当社のシニアプロダクトリーダーの1人がその従業員のフィードバックをOpenAIと共有し、OpenAIは直ちに問題を調査した」と付け加えた。
ジョーンズ氏は火曜の夜、マイクロソフトの声明に対して次のように回答した。
マイクロソフトの対応は、私が担当者に連絡を取り、独立した効果的な報告ソリューションを提唱している理由を如実に示しています。私はマイクロソフトの社内報告プロセスを利用しました。2023年12月1日にこの脆弱性を経営陣に報告した際、社内のセキュリティインシデントシステム「Report It Now」にも報告するよう指示されました。私は問題を報告し、同日中に以下の回答を受け取り、経営陣と共有しました。「マイクロソフトの企業ネットワークとユーザーアカウントは、サイバーセキュリティの脅威に対して監視されています。今回の報告は、上記のいずれにも影響を与えていないようです。Open AIウェブサイトからフィードバックを送信することをお勧めします。現在、ケースのクローズを進めています。」
さらに、本日午後 5 時現在、私の懸念や AI の安全性に関する推奨事項について話し合うために Microsoft からまだ連絡がありません。
ジョーンズ氏は州司法長官と連邦議員への書簡の中で、12月初旬にこの脆弱性を独自に発見したと述べている。書簡によると、ジョーンズ氏はマイクロソフトに脆弱性を報告し、レドモンドのマイクロソフト社の緊密なパートナーであるOpenAIに問題を報告するよう指示されたという。OpenAIの技術はMicrosoft Designerなどの製品に利用されている。
OpenAIに問題を報告したが、返事はなかったと彼は言う。
「この特定の脆弱性に関連するリスクを調査し続ける中で、DALL·E 3が暴力的で不快な有害画像を生成する能力を持っていることに気づきました」と彼は記している。「モデルの学習方法と私が発見したセキュリティ上の脆弱性に関する私の理解に基づき、DALL·E 3は公共の安全を脅かすリスクがあり、OpenAIがこのモデルに関連するリスクに対処できるようになるまで、一般利用から除外すべきだという結論に達しました。」

同氏は12月14日、LinkedInに公開投稿し、OpenAIの非営利団体理事会にDALL-E 3を市場から撤退させるよう求めたと書いている。
手紙によると、彼はマイクロソフトの経営陣にこの投稿について報告し、すぐに彼のマネージャーから連絡があり、マイクロソフトの法務部門が彼にこの投稿を直ちに削除するよう要求しており、後で説明や正当性を示すと言われたという。
彼はその理由で投稿を削除することに同意したが、マイクロソフトの法務部門からは何も連絡がなかったと書いている。
「その後1ヶ月間、私は繰り返し、なぜ私の手紙を削除するよう指示されたのか説明を求めました」と彼は書いている。「また、私が発見した特定の脆弱性の修正に役立つ情報や、AI画像生成技術をより安全にするためのアイデアを提供することも申し出ました。しかし、マイクロソフトの法務部門は未だに返答しておらず、直接私に連絡を取っていません。」
ジョーンズ氏は1月30日付の書簡で、「人工知能(AI)は前例のない速さで進歩しています。AIによる公共の安全を確保するための法律が制定されるまでには時間がかかることは承知しています。同時に、企業には製品の安全性と既知のリスクを公に開示する責任を負わせる必要があります。私のような懸念を抱く従業員は、脅されて沈黙を守るべきではありません」と付け加えています。
彼の投稿の本文は、火曜日の朝に彼が送った手紙に添付されています。(下記参照)
最新情報: OpenAIの広報担当者は、同社は「マイクロソフト社員からの報告を受け取ってすぐに調査し、同氏が共有した手法では当社のセキュリティシステムを回避できないことを確認した」と述べている。
OpenAIの声明は次のように続く。
安全性は私たちの最優先事項であり、多角的なアプローチを採用しています。基盤となるDALL-E 3モデルでは、性描写や暴力的な描写を含む最も露骨なコンテンツをトレーニングデータから除外し、有害な画像の生成を抑制する堅牢な画像分類器を開発しました。
ChatGPTとDALL-E APIといった製品には、著名人の名前を尋ねるリクエストを拒否するなど、追加の安全対策を導入しました。ポリシーに違反するメッセージを特定して拒否し、生成された画像はすべてユーザーに表示される前にフィルタリングします。また、外部の専門家によるレッドチーム演習を実施し、不正使用のテストを実施して安全対策を強化しています。
ジョーンズ氏は、マイクロソフト社内でこの問題を最初に報告した後、指示を受け、12月9日にOpenAIのウェブサイトを通じて脆弱性の詳細を提出したと述べた。OpenAIからの返答は得られなかったため、12月14日にLinkedInでOpenAI理事会宛ての公開書簡を投稿した。
「私はOpenAIと業界がAI製品をより安全なものにするのを支援することに尽力しており、この脆弱性を修正するためにOpenAIを支援する機会を歓迎します」と彼は火曜日の夜に語った。
GeekWire から、自身を内部告発者とみなしているか、また必要に応じて内部告発者として法的保護を求めるかどうかを尋ねられたジョーンズ氏は、はいと答えた。
同氏の書簡は、政府に対し、AIのリスクと問題を報告・追跡するシステムを構築し、AIを開発する企業の従業員が報復を恐れることなくそのシステムを利用できることを保証するよう求めている。
ジョーンズ氏は最後に、マレー氏、キャントウェル氏、スミス氏、ファーガソン氏に「DALL・E 3 やその他の AI 画像生成技術に関連するリスク、およびこれらの製品を開発・販売する企業の企業統治と責任ある AI 実践について調査する」よう求めました。
マイクロソフトCEOのサティア・ナデラ氏は、火曜日の夜、NBCナイトリーニュースの収録済みインタビューに出演する予定で、司会者のレスター・ホルト氏がテイラー・スウィフトのディープフェイク問題などについてナデラ氏に質問した。ナデラ氏はディープフェイク問題を「憂慮すべき、恐ろしい」問題と呼び、「行動を起こさなければならない」と述べた。
ディープフェイクの出現を受けて先週発表した声明で、マイクロソフトの広報担当者は、同社は「すべての人にとって安全で敬意のある体験を提供することに尽力している」と述べた。
画像の出所は不明だが、広報担当者は「細心の注意を払って調査しており、当社のサービスがこれらの画像の生成に利用されることを防ぐため、既存の安全システムを強化している」と述べた。
マイクロソフトは火曜日の午後に収益を発表し、投資家は企業向けの新しいAI製品が同社の収益に及ぼす影響を注視している。
以下はジョーンズ氏の1月30日の書簡の全文です。LinkedInの投稿文も含まれています。
AI – DALL-E 3 – Scribd の GeekWire による Shane Jones の手紙