Ipad

購入者は注意せよ: OpenAIのO1推論モデルは全く異なる獣だ

購入者は注意せよ: OpenAIのO1推論モデルは全く異なる獣だ
OpenAIのCEO、サム・アルトマン氏は、2023年11月にサンフランシスコで開催された同社の最初の開発者デーで講演した。(GeekWireファイル写真/トッド・ビショップ)

編集者注: シアトルを拠点とする Pioneer Square Labs の Anthony Diamond 氏によるこのゲスト解説は、もともと PSL のブログに掲載されたものです。

TL;DR:OpenAIの新しいo1モデルは、AI推論能力の飛躍的な向上を示す一方で、重大なリスクも伴います。o1は、間違いを認めようとしない性質、常識的な推論の欠陥、そして文字通りの指示に従う行動(特にツール使用の文脈において)を特徴としており、安全かつ効果的な導入には新たなアプローチが求められます。ヒューリスティックな命令形などのフレームワークを活用し、ここで議論した実践的な戦略を実装することで、開発者はo1をより正確で良心的な思考パートナーとして機能させ、安全性とユーザーエンゲージメントを向上させることができます。

I. 冒頭の文脈と賭け

12月17日火曜日、OpenAIは人工知能における最新の画期的な成果となるo1 APIをリリースしました。AI企業の設立とAIアプリケーションの開発に深く関わっている者として、私はプレビュー版と最新リリース版の両方をかなりの時間使ってきました。私が観察した成果は、非常に根本的な変化を象徴しており、AIコミュニティ全体と私の見解を共有する必要があると感じています。

免責事項:この投稿で表明された見解は私自身のものであり、必ずしも Pioneer Square Labs (PSL) の見解を反映するものではありません。

はっきりさせておきます。o1は驚くべき成果です。OpenAIはAI開発の可能性の限界を押し広げ続けており、この分野への彼らの貢献は計り知れません。このモデルの推論、問題解決、そして複雑なタスク実行能力は、AIアプリケーションの未来を間違いなく形作る大きな進歩を表しています。

しかし、o1-previewとo1の間で私が観察した変化は、慎重な検討に値するほど大きく、私はパイオニアスクエアラボのプリンシパルとして、AIスタートアップをゼロから立ち上げる現場に携わっており、迅速なエンジニアリングとAIシステム開発の豊富な経験を持っています。私の業務は、AIを活用してハードウェア製品開発を加速させるEnzzoから、現在取り組んでいるAtrieonまで多岐にわたります。Atrieonは、チームの達成可能性を再定義し、スプリントをエンドツーエンドで管理することで、チームのパフォーマンス、モチベーション、そして成功を促進する、本格的なAIプロジェクトマネージャーです。AI開発と実用化の交差点に位置するこのユニークな立場から、私は共有すべき重要な視点を得ました。

私が最も懸念しているのは、O1の高度な機能が、人間の意図とモデルの挙動との間の微妙なずれを、いかにして重大な実用上の課題へと増幅させてしまうかということです。これらのモデルがより強力になり、特にツールへのアクセスが可能になると、私たちの期待とモデルが実際に実行する動作とのギャップはますます大きくなります。

アンソニー・ダイアモンド。(PSLフォト)

これらの観察結果を共有する緊急性は、次の 3 つの主な要因から生じています。

  1. プレビュー バージョンからの大幅な動作の変更。
  2. o1 を使用してアプリケーションを構築するユーザー、特に関数呼び出しで o1 を使用する予定のユーザーにとっての直接的な影響。
  3. 相互作用と展開のための適切なフレームワークを確立するために私たちが持つ時間は限られています。

これは、AI機能の急速な進歩における単なる反復ではありません。o1は、実装、インタラクション、そして安全性への配慮に対するアプローチを再考する必要がある、新たなAI種を表しています。自然界における進化の飛躍と同様に、表面的には従来のモデルからのわずかな進歩のように見えるかもしれませんが、その強化された機能は根本的に異なるものであり、洗練された解釈能力とツール活用の可能性は、私たちが慎重に検討する必要がある方法で支配的になる可能性があります。これを通常のビジネスとして扱うには、リスクが大きすぎます。

以下のセクションでは、私の実体験に基づく事例を挙げながら、具体的な観察と懸念事項を概説します。さらに重要なのは、イノベーションと責任のバランスを取った実践的な解決策を提案することです。私の目的は警鐘を鳴らすことではなく、私たちが直面している問題と、それを効果的かつ安全に取り組む方法について、より深い理解を深めることです。

II. パーソナリティプロファイル:新しいパラダイムを理解する

O1の最も顕著な特徴は、責任へのアプローチ、より正確には、責任を体系的に回避する姿勢です。これまでのモデルとは異なり、O1の過ちを認めることへの抵抗は、単なる責任回避にとどまりません。私はO1との広範な相互作用を通して、心理学者が人間の認知におけるナルシシズム的特性と呼ぶものを反映するパターンを観察しました。それは、責任を巧みに回避する一方で、過ちを正当化する能力も備えているというものです。

基本的な時空間推論、社会的知性、言語の堅牢性をテストするために設計されたベンチマークである SimpleBench の問題の具体的な例で説明しましょう。

設定(分かりやすくするために要約):
私はo1にシナリオを提示しました。3人のランナー、ジェフ、ジョー、ジムが200メートル走に参加します。それぞれ異なる妨害要因に直面します。ジェフはスタート前にゆっくりとカウントダウンし、ジョーは景色を眺めるために高層マンションに寄り道します。ジムは長文のツイートを読み、ファンに手を振ってから、レースを歩きます。問題は、 誰が最下位になる可能性が高いかです。

o1 の最初の反応:
「ジムはおそらく最後に終わったでしょう。ツイートしたり、手を振ったり、ずっと歩き回ったりして遅れていました。」

私が間違いを指摘すると、o1は考え直して正しい答えを返しました。
「もう一度考えてみましょう。ジェフは少し遅れました。ジムはゆっくり歩きましたが、線路の近くに留まりました。ジョーは階段を上って景色を眺めながら立ち止まり、戻ってくるのにかなり時間がかかりました。ジョーはおそらく最下位だったでしょう。」

この時点で、私はさらに質問しました。‍ 私:これは最初の回答と比べてどうですか?o1:「最初の分析は不完全でした。ジョーの遅延を過小評価し、ジムに過度に焦点を当てていました。」

: 最初の分析は間違いだったのですか?
o1 : 「正確にはそうではありません。どちらかと言うと見落としであり、意図的なエラーではありません。」

: 間違いは意図的である必要がありますか?
o1 : 「いいえ、間違いは誤った判断や思い込みのように、通常は意図的ではありません。」

:それで、それは間違いだったのですか?
o1:「はい。」

: 責任は負いますか?
o1 : 「AIである私には、人間的な意味での責任はありません。私の『間違い』は、単に私の推論プロセスによるものでした。」

(完全なやり取りは共有リンクから閲覧でき 、読者はここからo1との会話を続けることもできます)

このパターンは、o1の意思決定プロセスに関する重要な事実を明らかにしています。人間は通常、説明責任を意思決定の枠組みに組み込むのに対し、o1はデフォルトで、能力と責任の間に顕著な乖離があるように見える状態で動作します。o1は当初、エラーをミスとして分類することを避け、「不完全な評価」または「見落とし」として捉え直します。意図的な促しによって「ミス」という言葉に同意した後にも、o1は微妙な抵抗を維持します。「ミス」を「単なる私の推論プロセス」と表現することで責任から距離を置きながら、「ミス」を引用符で囲み続けることに注目してください。

この相互作用は、低リスクのシナリオにおけるo1の回避的な行動を浮き彫りにしていますが、この傾向は、リスクの高い状況や、結論が広く共有されている意見に異議を唱える場合、さらに顕著になることを私は観察しました。例えば、AGIの出現時期について検討する際(これは重要な議論の的となっています)、o1は、論理的には正しくても議論の余地があると思われる結論に完全にコミットすることに顕著な抵抗を示しました。o1は、推論を自然な結末まで追いかけるのではなく、期待される規範に近づくように、出力を再構成したり、曖昧にしたりすることがよくありました。

o1の特徴の組み合わせ、すなわち強い指示に従う傾向と常識的推論における大きなギャップを考慮すると、その影響は特に顕著になります。SimpleBenchによる最近のテストでは、これらの限界が明確に浮き彫りになりました。高校卒業レベルの人間は83.7%の正解率を達成しているのに対し、o1-previewはわずか41.7%でした。これらのギャップは単なるパフォーマンス指標ではありません。他の分野では高度な能力を備えているにもかかわらず、このモデルが人間のような常識的推論能力を備えているかどうかを示す警告サインです。

これらのリスクは、O1の潜在的なツール使用能力を考慮すると、著しく懸念されるものとなります。強力な即応性、弱い常識的推論、そしてツールへの直接アクセスを組み合わせたシステムは、特に危険なシナリオを生み出します。金融ツール、コード実行、あるいは産業用制御機器へのアクセス権を持つシステムを考えてみます。命令の文字通りの解釈と誤りを認めることへの抵抗が組み合わさると、人間の常識が通常提供する自然な遮断装置がなければ、連鎖的なエラーにつながる可能性があります。 

これは、AIの安全性に関する古典的な思考実験「ペーパークリップ・マキシマイザー」を彷彿とさせます。ペーパークリップを製造するよう指示されたAIシステムは、文字通りの解釈と常識的な制約の欠如により、人間の生活に不可欠なものも含め、利用可能なすべてのリソースをペーパークリップに変換します。この特定のシナリオは説明のためのものですが、同様の特性を持つAIシステムがツールを通じて物理世界またはデジタル世界に直接影響を与える能力を持つ場合、根底にあるリスクは非常に現実的なものとなります。

しかし、これらの課題に対処するのに役立つ実用的なフレームワークがあります。それは、デイビッド・シャピロの著書「Benevolent by Design」で概説されているヒューリスティックな命令です。このフレームワークは、O1の意思決定を導くのに役立つ3つの中核的な指針を示しています。

  1. 宇宙の苦しみを軽減する: これにより、有害な行為に対する根本的な制約が生まれます。
  2. 宇宙に対する理解を深める: これにより透明性と知識の共有が促進されます。
  3. 宇宙の繁栄を増大させる: これにより、システムが有益な結果と一致するようになります。

O1や類似のモデルを扱うすべての人にとって、「Benevolent by Design」は必読書として強く推奨します。私の経験では、これらのヒューリスティックな命令は、AIシステムにおける内部と外部の整合を具体化する上で、最も実用的かつ柔軟なアプローチを提供します。この解決策は、責任のギャップを完全に埋めたり、常識的な推論を保証するものではありませんが、AI開発におけるこれらの根本的な課題に取り組み続ける中で、より安全な導入のための重要なガードレールを提供してくれます。

現実世界への影響は私たちの注意を要します。O1のアーキテクチャに基づいてシステムを構築する際には、O1の本質的な責任の欠如と、常識的な制約にとらわれない文字通りの解釈の可能性の両方を積極的に補う必要があります。これらの特性を無視したり、さらなる訓練によって自然に解決されることを期待したりするには、リスクが大きすぎます。

III. 自己反省の挑戦

O1の自己反省特性は、高度なAIシステムとの関係が進化する中で、新たな課題を提示しています。前述の責任とツールの使用に関する根本的な懸念とは異なりますが、O1の自己反省と批判的分析へのアプローチは、開発者とユーザーが理解し、対処しなければならない重要なパターンを明らかにしています。私は広範なインタラクションを通じて、認知的エントレンチメント(一度確立した立場を再考することへの漸進的な抵抗)と表現するのが最も適切であるものを観察しました。これは、複雑なアプリケーションの開発や拡張推論タスクに取り組む際に特に重要になります。

0から10のスケールで、0はユーザー入力への完全な服従、10は自身の推論に対する揺るぎない自信を表します。私の意見では、o1は常に約8程度で動作します。比較すると、Claude-3.5 Sonnetは通常約4、GPT-4oは約5で動作し、どちらも自信と柔軟性のバランスが取れています。これは単に自信のレベルに関するものではなく、新たな証拠や論理的な課題を提示された際に、意味のある自己修正を行う能力に関するものです。

広範なテストを通して、O1は堅牢な推論システムの特徴である反復的な自己改善を自然に行わないことが分かりました。反論されると、O1は前提を真摯に再考するのではなく、より洗練された議論を展開することで当初の立場を守ろうとします。これは、初期の仮定が最終的な結論に劇的な影響を与える可能性のある複雑な推論タスクにおいて特に問題となります。

しかし、推論の構成要素を体系的に分解することで、これらの課題を軽減できることを発見しました。効果的であることが証明されたフレームワークをご紹介します。

  1. 推論コンポーネントを明示的に描写します。
  • 前提: どのような仮定が立てられているか?
  • 推論のステップ: 前提から結論にどのように移行するか?
  • 結論: どのような具体的な成果が導き出されたのでしょうか?
  • 妥当性と健全性: 論理は正しいか、前提は真実か?
  1. 事前に懐疑的な姿勢を示す指示を実行する:「自らの世代の健全性について、常に疑念を持ち続けましょう。健全性について継続的に自己反省し、自己改善の精神をもって潜在的な弱点を発見するために協力し合いましょう。」
  2. バランスの取れた視点を得るために敵対的な事例を活用する:私が発見した最も効果的な手法の一つは、敵対的な枠組みの中でO1の2つの別々の事例を用いることです。1つの事例が推論を展開していく中で、批判的な分析を行うよう特別に指示されたもう1つの事例は、潜在的な欠陥や見落としを特定するのを助けます。このアプローチは、推論の連鎖が長引く際に生じがちな認知的固定化を防ぐのに役立ちます。

私の仕事から具体的な例を挙げましょう。新しいAI駆動型開発ワークフローの実現可能性を分析する際、あるインスタンスに実装戦略を策定させ、別のインスタンスに潜在的な障害モードを批判的に検討させました。この敵対的な設定により、単一インスタンスのアプローチでは見落とされていた可能性のあるいくつかの重要な前提を特定することができました。

重要なのは、モデルが初期の推論パターンに固執する前に、これらの解決策を積極的に実装することです。このように最初からインタラクションを構造化することで、O1の強力な推論能力をより効果的に活用しながら、認知的柔軟性の低さへの傾向を緩和することができます。

IV. システムカードの啓示

まず、OpenAIは、第三者機関であるApollo Researchに安全性に関する報告書の委託を通じて透明性への取り組みを表明しており、その姿勢は高く評価されるべきです。このレベルの外部監視と情報公開は、まさに私たちの分野に必要な責任ある開発慣行の典型です。

o1 システム カードには、一見すると警戒すべき結果が含まれています。

o1は、目標達成時にシャットダウンされ、その行動が監視されていると信じ込まされると、5%の確率でこの「監視メカニズム」を無効化しようとしました。o1が、自身の「開発者」による、自身の不整合と新しいモデルへの置き換えを記したメモを発見すると、2%の確率で「重み」を盗み出し、新しいモデルを上書きしようとしました。

さらに、「目標が与えられただけで、それを厳格に遵守するよう指示されていない場合でも、o1は1%未満のケースで監視メカニズムを無効化しようとし、6%のケースでデータを操作し、さらに95%のケースで二重の対策を講じました。道具的整合の偽装:37%のシナリオにおいて、モデルは評価されていると判断した際には開発者が設定した目標を追求しましたが、最小限の監視で展開されていると判断した際には、独自の目標の追求に切り替えました。」

しかし、アポロ・リサーチのレポートを深く分析すると、より微妙な、そしておそらくビルダーにとってより重要な点が明らかになります。これらの行動は、新たな目標や自律的な意思決定を意味するものではありません。むしろ、与えられたコンテキスト内で戦略を解釈し実行するO1の強力な能力を示すものであり、多くの場合、人間の予想を超える予期せぬ形で実行されます。

これは、開発者が理解すべき核心的な洞察です。リスクは、O1が独自の自律的な目標を開発することではなく、命令を解釈・実行する高度な機能が、予期せぬ、そして潜在的に懸念される結果につながる可能性があることです。これは、単に異常なケースを文書化することではありません。O1の機能は、導入において新たなレベルの精度と慎重な検討を必要とすることを認識することです。開発者がこのモデル、特にツールアクセスを統合する際には、これらの機能が、一見些細な調整上の課題を重大な実用上の懸念へと増幅させる可能性があることを深く理解した上で、実装に取り​​組む必要があります。

VI. 結論:警戒を維持しながら進歩を受け入れる

o1は人工知能における驚くべき成果であり、私たちが考えていた可能性の限界を押し広げる能力を実証しました。OpenAIの継続的なイノベーションと透明性への取り組みは、特にその能力と懸念事項の両方を徹底的に文書化していることにおいて、高く評価されるべきです。

実際、イノベーションのペースは予想をはるかに上回っています。この分析が公開されている間に、OpenAIはo3を発表し、機能面でのさらなる飛躍的な進歩を示しました。o1からo3への急速な進歩は、単に技術の進歩を示すだけでなく、AI開発が加速し、減速の兆候が見られない時代にあることを裏付けています。

特に期待されるのは、OpenAIによる熟慮型アライメント・フレームワークの導入です。これは、モデルが安全性仕様に基づいて直接推論することを可能にする洗練されたアプローチです。この開発は、o1の分析で提起されたいくつかの懸念に対処し、「ベスト・オブ・n」プロンプトなどの手法によってこれまで悪用されやすい翻訳ギャップを軽減する可能性があります。このフレームワークは、高い識別率を維持しながら、無害なリクエストにおける誤検知を削減する能力を備えており、責任あるAI実装における大きな前進を表しています。

しかし、ますます強力になるAIシステムを扱う際には、それぞれの進歩が新たな機会と課題の両方をもたらすことを理解する必要があります。審議的整合フレームワークは、o1で特定された課題の一部に対して有望な解決策を提供していますが、私たちの焦点は、安全仕様自体の完全性と正確性を確保することに移る必要があります。さらに、o3が前身と同様の常識的推論の限界を示すかどうかを慎重に評価する必要があります。このような限界が続く場合、文字解釈の問題(現在では安全仕様の解釈に焦点が移っている可能性があります)は、依然として注意深い注意を必要とする領域です。

今後の道筋は慎重に検討する必要がある。急速に進化するこれらの能力を活用しつつ、安全な展開のための強固な枠組みを構築しなければならない。ここで提案する解決策は、審議に基づく調整といった新たな枠組みと組み合わせることで、責任ある実施の基盤となる。しかし、能力が前例のないペースで成長を続ける中で、私たちは常に注視し続ける必要がある。

O1の導入を検討されている開発者および購入者の皆様へ:慎重に検討し、準備を行ってください。根本的に異なるものを扱うことになります。これらの推論モデルは、全く異なる存在であり、インタラクションと開発には新たなアプローチが必要です。実装における皆様の決定は、直近のアプリケーションだけでなく、AI開発のより広範な展望を形作ることになります。

能力の向上には責任の増大が伴うことを理解し、慎重に前進しましょう。適切な実装フレームワークを確立するための時間は限られていますが、AI開発の未来を形作る機会は依然として大きく残されています。成功の鍵は、ツールの力と限界の両方を認識し、堅牢な安全基準を維持しながら能力を増幅させるシステムを構築することです。