
5,269 文字
最近、OpenAIは中国から大きな競争相手を得ることになりました。Deep Seek AIという企業が、Deep Seek R1 Liteプレビューを公開し、最も難しいベンチマークのいくつかにおいて、O1プレビューレベルの性能を発揮していると発表しました。この発表は業界に大きな衝撃を与えました。なぜなら、O1 miniやO1プレビューといった限定的な形でO1がリリースされてからわずか2ヶ月しか経っていなかったからです。これらのモデルは、他のどの企業からも提供されていない、はるかに高度な推論能力を示していました。
しかし中国は、R1 Liteプレビューを無料でリリースすることで、OpenAIを上回る一手を打ってきたのです。これは信じられないほどのことです。多くの人々は、OpenAIに追いつくには少なくとも1年、あるいは8ヶ月はかかるだろうと予想していましたが、中国はわずか2ヶ月でそれを実現したのです。
この企業について疑問に思われる方もいるでしょう。公にはそれほど多くの情報はありませんが、Deep Seek AIは2023年に設立された中国企業で、AGIの発展に注力しています。この組織は、コーディング、数学、推論、自然言語処理などのタスクで優れた性能を発揮する最先端のAIモデルの開発を専門としています。彼らは以前にもDeep Seek version 2.5やDeep Seek Codaなどのモデルを開発し、主要なAIベンチマークで最高性能を達成していました。
最近のベンチマークを見てみると、彼らが短期間でどれほどの進歩を遂げたかがよくわかります。Deep Seek R1 Liteプレビューは、いくつかの特定のカテゴリーでO1プレビューを上回っています。数学のベンチマークであるAIMベンチマークでは、Deep Seek R1 Liteプレビューが52.4%を達成し、O1プレビューの44.6%を上回っています。Math 500ベンチマークでも91.6%を記録し、O1プレビューの85.5%を上回っています。GPQAではO1プレビューに及びませんでしたが、CodeForcesではパスしており、他の2つのベンチマークではOpenAI O1プレビューが優位を保っています。
これは全て驚くべきことですが、各問題にどれだけの計算リソースを適用しているのかについては不明な点があります。より良い結果を得る方法は潜在的にあると思われますが、それがどのように機能するのかを見るのは興味深いでしょう。
現在最も広く使用されているベンチマークのスクリーンショットを見ると、数学のベンチマークでDeep Seek R1 Liteプレビューが最先端の91.6%を達成し、O1プレビューの85.5%を上回っているのがわかります。濃い青と薄い緑のバーを見ると、これら2つのモデルが他のほとんどのモデルをほぼすべてのカテゴリーで大きく上回っているのが見て取れます。これは、テストタイム計算という新しい手法がAIをどのように革新するかを考えると、非常に驚くべきことです。
テストタイム計算パラダイムについて馴染みがない方のために簡単に説明すると、モデルに考える時間をより多く与えるか、特定の問題により多くの計算リソースを割り当てるほど、モデルはそれらの特定の問題を解決する能力が向上します。そのため、現在では問題ごとに異なる数の思考トークンを持つという全く新しいパラダイムが存在し、それによって継続的なスケーリングが可能になっています。
このスケーリング法で最も驚くべきことは、現時点では結果に限界がないように見えることです。問題あたりの思考トークンを増やせば増やすほど、これらのモデルは非常に難しいプロンプトへの応答が向上します。
OpenAIのO1プレビューを示す紫色のバーを見ると、テストタイム計算スケーリングによるAIMベンチマークでの精度は一定を保っていますが、現時点では問題ごとの思考トークンの量を変更する方法はないようです。つまり、「この問題について深く考えて」といった指示はできません。OpenAIのモデルで精度がどのように向上するのかを見るのは非常に興味深いでしょう。
このチャートを最もシンプルな方法で分解してみましょう。まず気付くのは、中央を通る破線の紫色の線であるO1プレビューレベルです。この線は、AIMベンチマーク(数学のベンチマーク)におけるOpenAIの位置を示しています。ここで精度が上がっていない理由は、O1モデルや思考モデルを使用する際、各問題に適用するトークンの数を決定できないためだと考えられます。自動的に一定量が適用され、一部の質問については全く考えず、他の質問については多くの思考を行うことになります。
このグラフのベンチマークは、他のモデルでは問題あたりのトークン数の増加が見られるため、かなり異なっています。R1 Liteを見ると、このモデルは困難なベンチマークに関して実際に優れていることがわかります。青と赤の2つの異なる方法でベンチマークを分解していますが、これは最初は混乱しましたが、よく調べてみると完全に理解できます。
赤は「一回パス」で、基本的にモデルに質問を一度だけ投げかけて回答を得る方法です。一方、多数決投票では、いくつかの(正確な数は不明ですが)複数の応答を得ます。一回パスは基本的にAIに一度のチャンスを与えるだけですが、多数決投票では、モデルから複数の応答を得て、最も頻繁に現れる回答を勝者として選びます。
多数決投票とテストタイム計算を組み合わせることで、問題あたりのトークン数に応じて継続的に上昇する驚くべきグラフが得られます。これは別の驚くべきスケーリング法を示しています。これらすべては本当に驚異的です。なぜなら、バックエンドで多くの難しい問題に取り組む際、正しい応答を得るために膨大な量のトークンを消費する必要があることを示しているからです。
全体的に見ると、明確なトレンドが見えてきます。Deep Seek AIは本当にO1プレビューのレベルに追いついており、これらのベンチマークで多数決投票を使用していることを考えると、現時点で見える限り、スケーリング法に限界はないようです。グラフは上昇し続けており、一部の人々は、Deep Seekのような企業が現在GPT-2の時代にいると予測しています。つまり、これらのモデルの次のイテレーションは、性能の面で完全に信じられないものになる可能性が高いということです。
モデルに多数決投票を組み込んで、本質的に大量の応答を生成し、最良のものを選ぶようにしたらどうなるでしょうか。そのような機能がモデルに組み込まれれば、ベンチマークはさらに向上するでしょう。これは絶対的にゲームチェンジングなものだと思います。なぜなら、私たちが新しいパラダイムに入ったことを真に示しているからです。事実として、OpenAIはリードを持っていますが、それは長く続かないように見えます。
また、非常に興味深いことがあります。OpenAIが行った一つのことで、多くの人々が異論を唱えたのは、思考の連鎖を隠したことでした。思考の連鎖とは基本的に、問題を考える際にAIモデルが考えていることをユーザーが見ることができるというものです。
例えば、「一からケーキを作るにはどうすればいいですか?ステップバイステップで」と尋ねた場合、モデルは「どんなケーキが必要か、ユーザーに尋ねるべきか、これについて考えよう、一般的なケーキを選ぼう、レモンケーキにしよう」といった思考を行います。OpenAIは、彼らの思考モデルでこれらの思考をすべて隠すことを選択しました。O1プレビューやO1 miniを使用すると、モデルが考えていることを実際に見ることはできず、非常に短い要約しか見ることができません。
彼らはこれについて、「整列されていない思考の連鎖をユーザーに直接見せたくない」と述べています。しかし、私はこれは競争上の優位性のために行われた可能性が高いと考えています。つまり、彼らはベンチマークで本当に良い応答を得るために、モデルがどのように考えているかを人々に見せたくないのでしょう。
しかし、驚くべきことに、Deep Seekは思考の連鎖を実際に公開しており、これらのモデルの思考の連鎖は本当に信じられないほど素晴らしいものです。これは少し意識があるのではないかとさえ思わせますが、それは別の動画のテーマにしましょう。
具体的な例を見てみましょう。Redditで見つけた例では、Deep Seek R1 Liteが「strawberry」という単語の3つ目のRに驚いている様子が示されています。「strawberryにはいくつRがありますか?」という有名なAIへの質問に対して、モデルは「これはRではない、これもRではない、待って、3つ目のRがある」と考えているのが見えます。
モデルは「待って、3つのRをカウントしましたか?見落としがないか確認しましょう、strawberry…そうです、合計3つのRです。でも、こんなに短い単語にそんなに多くのRがあるのはおかしい気がします。私は数え間違えているか、単語を読み間違えているのではないでしょうか」と述べています。AIモデルについて考えると、これは奇妙な発言です。意識の議論には踏み込みませんが、この内部の思考の連鎖を読むのは本当に素晴らしいと思います。
Redditからの他のコメントでは、このプレビューが6分以上考え込み、GPT-4やClaude 3でさえ解決できなかった特定の問題を解決したと述べています。372秒もの思考は、非常に興味深い問題に対して膨大な量のトークンと計算リソースを使用したことを意味します。
Twitterからの例も興味深いものでした。「同じ文字を2回以上使用せずに、文法的に正しい文章を書いてください」という問題に対して、モデルは3秒間考え、正しい文章を生成することができました。一方、O1はこの問題を正しく解決できず、「GLI jock quiz NS DX dworf」という回答を出しましたが、これには「o」が2回使用されているため、正しくありません。
ウェブサイトでは、このような内部の推論全体を見ることができ、モデルがあなたのプロンプトをどのように考え、処理しているかを正確に見ることができます。これが最も強力な機能の一つだと考える理由は、モデルの思考方法への洞察を提供してくれるからです。最近私が行った経験からも、特定の問題に対してモデルの思考パターンがどこで間違っているかを特定できれば、その問題を解決できるより良いプロンプトを作成し、プロンプトエンジニアリングをさらに向上させることができます。
ここで示すユーザー例は非常に人気のあるプロンプトです。「地球上の物理法則を前提として、小さなビー玉を通常のカップに入れ、そのカップを逆さまにテーブルの上に置きます。その後、誰かがそのカップを取って電子レンジの中に入れます。ビー玉はどこにありますか?ステップバイステップで理由を説明してください。」
これは、これらのモデルが世界モデルを持っているか、そしてカップを逆さまにしてビー玉を入れ、そのカップを持ち上げた場合、ビー玉は基本的にテーブルに残ることを理解しているかをテストする質問です。最初にこのモデルと対話した時、モデルは「ビー玉は今電子レンジの中に置かれたカップの中にある」と答えました。
興味深いことに、これはモデルの賢さの問題ではなく、プロンプトの問題なのではないかと考えました。その理由は、プロンプト中の思考の連鎖を見ると、なぜかモデルはカップを持ち上げる方法がビー玉も一緒に運ぶと考えていたことがわかったからです。プロンプトに少し修正を加えただけで、モデルは「ビー玉は電子レンジの外のテーブルの上にある」と答えるようになりました。
このことから、モデルが現在特定の事項に混乱したり気を取られたりしている場合、何が起こっているのかを正確に見て、つまずいている箇所を確認し、プロンプトを再構成することで、他の同様の問題にも応用できるようになります。これは非常に優れた使用例だと思います。
このモデルを試してみようと思いますか?Deep Seekがこれほど早くOpenAI O1に追いついたことは本当に驚くべきことだと思います。これはおそらくOpenAIをさらに迅速な行動へと駆り立てることになるでしょう。彼らは、他の企業がこれほど早くこのようなモデルをリリースするとは考えていなかったはずです。次に登場するモデルは、おそらくClaude 3 OpusやGoogleの新しいモデルだろうと広く知られていましたが、今やこの中国企業がOpenAIの後を追っており、企業はより積極的な開発を加速させ始めるでしょう。
コメント