GoogleのOpenAI O3への途方もなく強力な対抗策!(確定)

3,292 文字

Google's Insanely Powerful Response to OpenAI O3! (confirmed)
Demis Hassabis revealed in a new tweet that they are about to release a new Gemini Alpha Based Thinking model that works...

数時間前、Google DeepMindのCEOであるデミス・ハサビスは、彼らが「思考モデル」と呼ぶものをリリースすることを確認しました。これはOpenAI O3への直接的な対応です。彼は初めてTwitterで軽い挑発的な発言もしています。彼らがこのように競争的な姿勢を見せるのは初めてのことです。この新しいアルファベースの思考モデルについて、何が起きているのか、どういう内容なのかを見ていきましょう。
思考モデルという用語は、これらのAIシステムの動作方法における重要な転換を示唆しています。次の単語を予測することに主に焦点を当てる標準的な大規模言語モデルとは異なり、これらの「思考モデル」は、より複雑な推論、計画、問題解決を行うように設計されています。トレーニングデータのパターンに頼るだけでなく、AIがより慎重な手順を踏んで答えにたどり着くと考えてください。
O3への対応としての思考モデルについて触れる前に、数日前に彼らが密かに発表した興味深い思考モデルを見てみましょう。最近、Googleは多くの新しいAI機能を導入したため、その一部は注目されませんでした。その一つが、OpenAI O01への直接的な対応である「フラッシュ思考」でした。このモデルはブログ記事も、ベンチマークも、大きな発表もありませんでした。ログान・キルパトリックからのツイートと簡単なデモ、そしてデミス・ハサビスからのリツイートだけでした。
名前が示すように、これはGeminiのより効率的なバージョンに基づいており、発表時点でLMCのリーダーボードでO1プレビューとO1ミニを上回る総合1位でした。では、なぜこのモデルはより多くの注目を集めなかったのでしょうか。Googleが年末に多くの発表を行っていたためと言えるでしょう。
フラッシュ思考の発表を控えめにし、すぐに更に洗練されたバージョンを発表できるようにしたGoogleの理由を理解するために、先月のGoogleの発表の規模を見てみましょう。彼らは画像、動画、インタラクティブボードモデルのImagine 3 V2とGenie2、フラッシュ思考の基盤モデルとなる高性能で効率的な基盤モデルGemini 2.0フラッシュ、ChatbotArenaリーダーボードでトップに立つGemini実験版1206を発表しました。
さらに、世界で最も正確な天気予測モデルであるGenCastと、10セプティリオン年かかる計算を実行し、将来的にAIのトレーニングに役立つ可能性のある世界で最も進んだ量子チップWillowを公開しました。加えて、構造生物学に革命をもたらしたAlphaFoldで化学のノーベル賞も受賞しました。このように多くのことが進行していたため、大きな発表は別の機会に取っておく必要がありました。
デミスは、彼らの基盤モデルが非常に優れており、ChatbotArenaリーダーボードでトップモデルであることを指摘しました。彼は「フラッシュ思考をリリースしました。これについての多くのニュースを期待してください」と述べましたが、最も重要な部分は「皆さんが覚えているように、私たちはAlphaGo、AlphaZero、AlphaFoldでこのタイプのモデルを先駆けました」という発言です。
GoogleDeepMindと彼らの推論時間に関する論文を追っている人々にとって、これは驚くことではありません。彼らは公開製品をリリースしていませんが、研究の最先端にいます。例えば、「LLMのテスト時の計算を最適にスケーリングすることは、モデルパラメータをスケーリングするよりも効果的である可能性がある」という論文では、これらの新しい思考モデルにとって重要な、使用時により効果的に推論するためのテクニックを探求しており、彼らが決して不意を突かれていないことを示しています。
OpenAIのOシリーズの背後にいる主要な人々の一部が実際にはGoogle Brainの元研究者であることをご存知ない方もいるかもしれません。そのため、デミスがこれを確認するのは時間の問題でした。OpenAIが最初に「思考モデル」と呼ばれるものをリリースしましたが、それは彼らが何年も使用してきたGoogleが開発したテクニックを再び使用したものでした。
このテクニックは、私たちが見ていくように、Alphaシリーズでの彼らの仕事に根ざしています。これはまた、Oシリーズがどのように機能しているかについての私たちの推測を確認するものです。基盤レベルには多くの潜在的な思考パスを生成する基盤言語モデルがあり、次にAlphaGoやAlphaFoldのようなアルファ的なモデルがこれらの異なるパスを検索し、追求する最も有望なパスを見つけます。
核心的なアイデアは、どのパスが最適な選択かを確実に知ることはできませんが、任意の時点で答えにたどり着く可能性が最も高いものを選択するということです。人間でさえ、数学の問題を証明し解く際にこれを行います。私たちは直感的に最も有望なパスを推測し、それが答えにたどり着けば素晴らしいですし、たどり着けなければバックトラックして2番目に良いものを試すという具合です。
では、Googleがこのパス探索アプローチを習得しているとすれば、どのような力を持っているのでしょうか。明らかに、私たちの直感は練習とともに向上します。これはモデルを訓練して、どのパスがより有望かを決定するのに役立つ一般的な経験則を持たせることと同じです。デミスは「少なくともChatbotArenaリーダーボードによれば、私たちは既に最高の基盤モデルを持っており、アルファモデルのパイオニアで、それらについて豊富な経験を持っているので、本当に強力なモデルを期待してください」と言っています。
思考モデルは単に推論が優れているだけでなく、効果的により知識豊富です。正確には多くを知っているわけではありませんが、知識を引き出すのが容易になります。AIチャットボットの初期の頃、最も人気のあるプロンプトテンプレートの1つは、モデルに段階的に説明を求めることでした。それはモデルの推論を助けました。これが人々がこれらの新しいモデルについて考えることですが、それははるかに洗練されています。
モデルの推論を助けるだけでなく、モデルの反省を助けます。迷路を想像してください。LLMはパスを生成し、思考メカニズムはAIがパスを選択するのを助け、反省メカニズムはバックトラックしてより良いルートを選択するのを助けます。
OpenAIの元CTOであるミラ・モラティはインタビューで次のように述べています。「LLMsの課題は、すでにトピックに精通していない限り、知識を引き出すことができないことです。例えば、PhD級のコンピュータサイエンティストはモデルにPhDレベルの能力を示させることができますが、高校生は正しい質問をしてその知識を引き出すことができません。それは、これらのLLMsが私たちよりも多くの知識を持っていたとしても、私たちはそれらを引き出すことができないことを意味する可能性があります」
しかし、反省機能により、モデルは自身にプロンプトを与えることができるので、あなたに代わって自身の知識を検索することができます。それは、高校生が教授に間違った質問をするようなものですが、教授はそれが正しい質問ではないことを理解し、「まず彼らの視点を修正するのを手伝おう」と考えるようなものです。
これは本当に素晴らしく、ピークパフォーマンスに達するのが待ち遠しいです。この新しいモデルはいつ期待できるのでしょうか。Google AI Studioのリードプロダクトであるログン・キルパトリックからの完全なGemini 2.0モデルが1月に登場するという確認により、この新しい「アルファ思考」モデルも1月に登場すると予想できます。
私の名前はピヤです。もし動画が気に入ったら、下のボタンを全て押してください。ご視聴ありがとうございました。

コメント

タイトルとURLをコピーしました