Vision

Googleの「Gemini」はAIの溝を埋めるが、汎用人工知能は依然として実現困難

Googleの「Gemini」はAIの溝を埋めるが、汎用人工知能は依然として実現困難

このジェミニのGoogleビデオは大幅に編集されていることが明らかになり、新しいAIモデルの実際の能力に疑問が生じています。(Googleビデオ)

昨年、生成AIは世界を席巻しました。その進歩のスピードは驚異的としか言いようがなく、昨年末のChatGPTのリリース以降、OpenAIとMicrosoftとの提携は大きな注目を集めました。

Googleは先週、Google BrainとDeepMindの共同作業であり、OpenAIのGPT-4の直接の競合となる最新の生成AIモデル、Geminiを発表し、その期待を高めた。

GoogleはGeminiをネイティブマルチモーダルとして宣伝しています。つまり、そのコンポーネントは、別々の種類のコンテンツやデータから事後的につなぎ合わされるのではなく、テキスト、画像、動画、音声、そしてプログラミングコードを表す数十億ものパラメータを組み合わせ、様々なモダリティにわたってゼロから構築されているということです。

ジェミニのリリースにより、ついに汎用人工知能(AGI)が誕生し、テクノロジーが人間よりも賢くなる段階に到達したのではないかと疑問を抱く人もいます。

「公開APIアクセスがない、大幅に編集されたPRビデオに基づいて、彼ら[Google]がAGIを達成したかどうかを判断することは不可能だ」と、ワシントン大学ポール・G・アレンコンピュータサイエンス&エンジニアリングスクールのウィスナー・スリヴカ教授兼マッカーサーフェローであり、アレンAI研究所(AI2)のシニアディレクターを務めるイェジン・チェ氏は述べた。

シアトルを拠点とする非営利研究機関である AI2 は、2014 年の設立以来、AI の探求と発展の最前線に立っています。その使命は、影響力の大きい AI 研究とエンジニアリングを通じて人類に貢献することです。

「GPTやその類似技術の技術進歩はまさに驚異的ですが、人間レベルの知能にはまだ程遠いのです」と、ワシントン大学名誉教授でAI2の元CEOであるオーレン・エツィオーニ氏は述べています。「例えば、自動運転車の実用化にはまだ苦戦しています。」

大規模言語モデル(LLM)をはじめとする生成型AIの活用により、人工知能はますます多くのタスクを、人間の認知能力に匹敵し、時にはそれを凌駕する能力で実行できるようになりました。ビジネステンプレートを瞬時に作成することから詩を創作すること、そして問題解決への新たなアプローチを迅速に模索することまで、こうした近年の進歩は、私たちとテクノロジーの関係を真に異なるものへと導きつつあります。

Geminiによって、GoogleはOpenAIのGPT-4ベースのChatGPTに追いついただけでなく、それを凌駕したようです。Googleが公開したテスト結果によると、GeminiはChatGPTを凌駕し、世界知識の把握と問題解決において多くの人間のスコアを上回っています。

Googleによると、Gemini Ultraは90%のスコアを獲得し、MMLU(大規模マルチタスク言語理解)において人間の専門家を上回った初のモデルです。MMLUは世界知識と問題解決能力の両方をテストするもので、57の分野にわたる知識を網羅しています。これらのテスト結果が妥当であれば、GeminiはこれまでどのAIにもなかったほど人間の知識を進歩させ、加速させる可能性を秘めています。

しかし、だからといって、この新しいAIが人間と同じくらい賢いと考えるのは間違いです。実際、ジェミニや他の大型モデルには、まだ多くの課題が待ち受けているようです。

GoogleはGeminiのリリースを発表するにあたり、この新しいAIを宣伝するための一連の動画を制作しました。その中には、画面外にいる人間のユーザーからの質問にGeminiが迅速かつ容易に応答するデモ動画も含まれていました。YouTubeの説明文には、動画の遅延を抑えるために編集されたと記載されていましたが、すぐにこれらの編集は声明で示唆されているよりもはるかに広範囲に及んでいることが明らかになりました。

舞台裏では、動画で示されたものよりもはるかに広範囲かつ詳細な指示が出されていたようです。その後のメディアの反応は、決して寛大なものではありませんでした。Geminiが実際にどれほどの性能を発揮するのかはまだ正確には分かりませんが、このような形での発表は誰も望んでいません。今にして思えば、GoogleはGeminiの現状の能力をより現実的に描写した方が良かったかもしれません。

こうした進歩はどれも刺激的ですが、AGIはおそらくまだ遠い理想に過ぎません。今後数十年にわたり、AIの主要な進歩のたびに、この問いが常に問われることになるでしょう。

今のところ、AIの安全性に対する懸念は薄れることはない。たとえこれらのAIがAGIに及ばないとしても、これらの強力な新システムがビジネスや公共の場での利用に適していることをどのように保証できるのだろうか?

AIのトレーニングと安全対策

GoogleはGeminiのトレーニングとテストにおいて、AI2の「Real Toxicity Prompts」を使用し、出力がこれらの目的に適切であることを確認したと報じられています。私が約3年前にGeekWireで報じたように、AI2のChoi氏のチームは2021年初頭にこの10万個のプロンプトセットを開発・リリースしました。

言語の有害性は複雑かつ広範囲に及ぶため、特にウェブ上のコンテンツから抽出される場合、下品な言葉や憎悪的な言葉を単純にフィルタリングするだけでは不十分です。Real Toxicity Promptsは、より微妙なニュアンスを持つ有害な言葉や意味を識別・フィルタリングできるようシステムをトレーニングする方法を提供します。

これは極めて重要です。なぜなら、これらの大規模モデルはますます複雑になり、その出力を保護するための安全対策を講じるためにより多くの労力が必要になっているからです。開発者がマルチモーダルなアプローチを採用するようになれば、これはさらに重要になるでしょう。

ジェミニは「マルチモーダルになるようにゼロから構築された。つまり、テキスト、コード、音声、画像、動画など、さまざまな種類の情報を一般化し、シームレスに理解、操作、組み合わせることができる」とディープマインドのCEO兼共同創業者であるデミス・ハサビス氏は最近のGoogleブログに書いている。

Geminiは、大規模マルチモーダルモデルアプローチの力を活用することで、ほんの数年前には不可能だった機能を提供します。近年、マルチモーダルアプローチは、これらの追加情報レイヤーが提供できる追加のコンテキストにより、生成AIに新たな機能をもたらす手段として認識されるようになりました。

膨大なテキストコレクションのみから出力を構築していた初期の大規模言語モデルとは異なり、マルチモーダルモデルは、基盤となるデータの多様な形式からより多くの意味を引き出しています。これは、ある意味で、私たち自身が視覚や聴覚などの複数の感覚を活用して状況をより深く理解する方法と似ています。このマルチモーダルアプローチにより、これらのシステムははるかに高性能で、ニュアンスに富み、有用な出力を生成することができます。

Geminiは3つのレベルでリリースされています。

  • Gemini Pro はすでに Google Bard に組み込まれています。
  • Gemini Ultraは現在改良と安全性テストが行​​われており、2024年初頭に開発者と企業顧客向けに展開される予定です。
  • モバイル デバイスで使用できるよりコンパクトなバージョンである Gemini Nano は現在 Pixel 8 Pro の一部となっており、今後数か月でさらに多くの製品に追加される予定です。 

AIに残されたハードル

OpenAIがChatGPTを華々しくリリースした後、Googleは追い上げを図っていると多くの人が思った。しかし、GoogleはAIの安全性に関する懸念に真剣に取り組み、有害な言語表現の可能性を減らすなど、重要な安全策をGeminiに組み込むよう努めているため、新モデルの構築とリリースにはより緩やかなアプローチを選択したようだ。

AIの安全性と倫理性に関しては、他にも考慮すべき点が数多くあります。ChatGPTの例に見られるように、予期せぬユースケースが数多く発生しており、その多くは違法であったり、有害であったりします。

5月にカリフォルニア州マウンテンビューで開催されたGoogle I/Oに出席したGoogle CEOサンダー・ピチャイ氏。(GeekWire Photo / Todd Bishop)

Googleが時間をかけて、新技術の安全対策に多大な労力を費やしたと報じられていることは安心材料ではあるものの、それが十分かどうかはまだ分からない。システムの複雑さと基盤となるデータの不透明性を考えると、私たちは今後、全く新たな課題に直面する可能性が高い。

これらすべてに加えて、私たち全員が最新の進歩を理解し、これらの新しいシステムが実際に何ができて何ができないのかを理解するにつれて、メディアによる熱狂的なPR攻勢と息もつかせぬ誇大宣伝が再び繰り広げられることになるだろうと言っても過言ではないでしょう。これらのシステムは雇用を奪うのでしょうか、それとも単に私たちの働き方を変えるだけなのでしょうか?これらのモデルは、世界が生み出す膨大な量の情報をより適切に管理するのに役立つのでしょうか?それとも、誤情報の爆発とそれに伴う不信感の増大につながるのでしょうか?

新しいテクノロジーがもたらすあらゆる問題にもかかわらず、私たちがこれらのAIを道具として開発していることを忘れてはなりません。AIが自己認識や意識を持つようになるには、まだ程遠い道のりです。人間のように自らの選択や行動を駆り立てる動機を持つようになるには。

生成型AIが推論し、出力を生成する統計的手法は、人間の認知の仕組みとは全く異なり、おそらく今後も長きにわたってそうあり続けるでしょう。それはおそらく幸運なことでしょう。多くの点で、この違いこそがAIを、次の進歩段階に必要なツールとして私たちにとって非常に有用なものにしているのです。ジェミニがこれらすべてにおいてどのような役割を果たすのか、それは時が経てば分かることでしょう。