マイクロソフトの新モデルはOpenAIのo1より優れているのか？(rStar-Math)

11,006 文字

Microsoft's NEW Model BETTER Than OpenAI's o1? (rStar-Math)

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

マイクロソフトがrstar mathを発表しました。ご存知の通り、2024年には多くのAIシステム、LLMや特定の数学用に構築されたAIモデルが様々な数学コンペティションで優勢を示しました。Google DeepMindのモデルはIMO（国際数学オリンピック）で金メダルまであと1ポイントというところまで来ており、OpenAIのo3モデルはAIME（アメリカ数学競技会）でほぼ100%、たった1問のみ間違えただけでした。AIMEは最も優秀な高校生数学者向けの試験です。つまり2024年には、最も進歩した最高のAIモデルが、世界で最も優秀な人間の数学的頭脳と競い合い、勝利を収めたということです。
しかし、これは少し異なります。想像以上に大きな意味を持つものなのです。見逃さないようにぜひチャンネル登録をお願いします。
これはX（旧Twitter）のAKからの投稿です。彼は LLMやAI論文の詳細な分析において素晴らしいフォロワーです。マイクロソフトはrstar mathを発表し、小規模なLLMが数学ベンチマークにおいて自己進化型ディープシンキングで数学的推論をマスターし、7BのCoin 2.5 mathを60%から90%へ、3.8BのMEI 53を42%から87%へと改善させ、o1プレビューを4.5%と約1%上回りました。
眠くなってきた人もいるでしょうから、かみ砕いて説明しましょう。o1プレビューは現在利用可能な最も高度なモデルで、特に推論や数学などのスキルにおいて優れています。o3モデルについては噂レベルの情報があり、次のステップとなるモデルですが、まだリリースされていません。o3 miniが近々登場するかもしれませんが、どれもまだ出ていません。o3が優れているだろうということは分かっていますが、現在利用可能な最高のOpenAIモデルはo1プレビューです。
このモデルは大規模で、正確なパラメータ数は不明ですが、おそらく混合エキスパートモデルで、同クラスの他のモデルと比べてかなり大きなものでしょう。また、推論モデルの一つで、テスト時の計算を使用し、回答する前に考えを巡らせるチェーン・オブ・ソートを背景で実行する、非常に高度で優れたモデルです。そんなモデルが4.5%、1%という差で負けたのです。
負けた相手は2つのオープンソースモデル、アメリカの7Bモデルと中国の3.8Bモデルです。これらは小規模なLLMと言えます。もっと小さいモデルもありますが、実用性という観点では下限に近いものです。
一般的なモデルサイズの考え方を説明すると、これはLlama 3.1で、混合エキスパートを使用する場合は数字が少し異なりますが、密なモデル、つまり一つの大きな塊のモデルの場合、8B程度のパラメータを持つものが小規模モデル、70Bが中規模、45Bが大規模となります。GPT-4は1.7兆パラメータと推測されており、これが大規模モデルの始まりです。中規模がこのあたりで、8B、7B、3.8Bという小規模なものが実用的なLLMの下限範囲となります。
これらのモデルが、現在市場で入手可能な最も高度な大規模モデルを、AIMEのような最優秀高校生数学者向けの競技で上回ったのです。
ここで重要なのは、AIや大規模言語モデルへの批判の多くが、スケーリング則という考え方に突き当たっていたことです。より多くのデータ、より多くの計算能力、より多くのハードウェアリソースを与えれば、モデルは改善し続けると考えられていました。しかし、それゆえに批判も生まれました。より多くのデータが必要とされますが、すでにインターネット全体を探索し尽くしている中で、どこからそれを得るのでしょうか。マイクロソフトなどは、データセンターへの電力供給のために古い原子力発電所を再稼働させているほどです。
利用可能なリソースの限界に近づきつつある中で、どのように一貫して対数的にスケールアップできるのかという疑問が多く出されています。そして、過去6ヶ月ほどで見られた大きなトレンドの一つは、より小規模に、より効率的になることでした。それ以前から見られた傾向ですが、最近特に顕著になっています。
小規模なモデルが、特定の用途において大規模モデルを圧倒的に上回る可能性が示されています。DeepSeek V3モデルは、MetaのLlamaモデルと比べて11分の1程度の計算量で訓練されました。つまり、Metaが1億ドルを使用したとすれば、このモデルは1000万ドル程度で済んだということになります。
これは、多くのモデルをスケールアップし続けることができる一方で、単に大規模化してより多くのエネルギーやデータ、費用を必要とするのではない、別の改善の道筋が多く見られることを示しています。実際、これらの一部は、より少ないデータ、より少ない費用、より少ない計算量で実現できています。
また、質問に回答する際にテスト時により多くのリソースを与えて考えを巡らせる「テスト時計算スケーリング」というアプローチもあります。これは、単に一方向に大きくするのではない、直交する（orthogonal）改善の方向性のように見えます。
面白いことに、特定の言葉はファッションステートメントのようなもので、シーズンごとに新しいクールな言葉が使用されます。今シーズンは「orthogonal」の時期で、みんながこの言葉を使っています。「この事象は他の事象とは独立して起こった」と言う代わりに、「orthogonal」と言わなければいけないのです。これが新しいルールです。他のオタクたちにクールだと思われたければ、この言葉を使う必要があります。
論文の詳細に入る前に、イーロン・マスクの最近の40秒ほどの興味深い発言を聞いてみましょう。「今日、AIはあなたの生活に影響を与えていますか？」という質問に13%が「はい」と答え、「5年後にAIはあなたの生活に影響を与えると思いますか？」という質問には87%が「はい」と答えています。これは大きな違いです。
AIは人々に何をもたらすのでしょうか？望むことは何でもできるようになり、さらには考えもしなかったことまで提案してくれるでしょう。今後数年以内に、AIは原子を扱う以外のあらゆる認知タスクを実行できるようになります。明らかに「私たち人間は何をすることになるのか？」という疑問が生じますが、原子を扱わない認知タスクなら何でも、最大でも3～4年以内にAIが実行できるようになるでしょう。
彼がこのような発言をする理由は重要です。今、私たちはここにいて、これらのことを耳にし、これらのアイデアを理解し、何が来るのかを認識しています。今後の歴史の中で、個人が世界規模で大きな役割を果たすことができる時期が来ることを認識することが重要です。
おそらく人類史上最大のレバレッジを持つことになるでしょう。その後、いつかの時点で、人間がそれほど影響力を持たなくなる時期が来るかもしれません。最高の研究者がAIとなり、最高のエンターテインメント制作者がAIとなり、AIの能力が広く知られるようになれば、その影響は全てに波及し、ある種の飽和点に達するでしょう。個人としてできることは限られ、多くのことがAIによって行われるようになります。
しかし、今からそれまでの間には、AIを効果的に活用すれば驚くべき能力を手に入れることができる期間があります。AIがあらゆるものに適用され始め、多くの人々がまだAIに何ができて何ができないのかを理解している最中である今と、そして近い将来の1年から10年の間に、あなたは何についても世界クラスの知識を持つことができるようになります。
指先一つで、あらゆる分野における世界最高レベルの専門家の能力と知識を提供してくれるAIを使えるようになります。これを理解し、適切なシナリオで応用する人々は、大きな成功を収めるでしょう。素晴らしい成功を。
したがって、単にお金を稼ぎたいだけなのか、世界に良い影響を与え、より多くのポジティビティをもたらし、何らかの形で貢献したいのかに関わらず、この次の時代は人類が今までで最大の可能性を持つ期間だと考えるべきでしょう。
ここでは人類が槍を使って食料を狩ることを学んでいる段階があり、そしてここには私たちの前にある未来、スタートレックやその他の未来があります。それはおそらく大部分がAIによってアシストされ、AIによって管理されるでしょう。個人が大きな影響を与える可能性は、常にここにあったと言えます。
そして将来的には、ほとんどのことがAIによって大きく処理されるようになるため、技術の進歩や都市の管理、ビジネスの構築などにおいて、私たちはAIほど賢くなれないでしょう。これが可能性の曲線です。そしてここ、AGI（汎用人工知能）が登場するあたりで、私たちがまだその応用方法を理解している段階では、個人の可能性は大きくなります。
AIを構築している人であれば、その可能性が大きいことは明らかですが、AIを応用し、様々な目的のために使用する方法を理解している人にとっても同様です。今後数十年間、個人が何かを成し遂げる可能性は、人類史上最大となり、おそらくこの期間が過ぎた後では二度とないほどの大きさとなるでしょう。この期間が終われば、その可能性は再び低下するでしょう。このピークが待ち受けているのです。
もし私が間違っていると思うなら、なぜそう思うのか教えてください。何か見落としていることはあるでしょうか？ちなみに、SFに興味がある方には、『プレイヤー・オブ・ゲームズ』とカルチャー・シリーズ全体をお勧めします。未来がどのようなものになるかについて、本当に素晴らしい説明をしていると思います。『プレイヤー・オブ・ゲームズ』は素晴らしい本で、その未来のビジョンを見事に描いています。
さて、rstar math、小規模言語モデルは自己進化型ディープシンキングによって数学的推論をマスターできるということですが、rstar mathは優れたモデルからの蒸留なしにOpenAI o1の数学的推論能力に匹敵、あるいは上回ることができ、これは重要です。
非常に多くの場合、これは一種のオープンシークレットですが、多くのモデルは他の優れたモデルから情報を取得するような形で使用されています。つまり、出力を生成し、その大きなモデルの出力から自分たちのモデルを訓練するのです。これは時々、教師モデルと生徒モデルと呼ばれます。
中国のモデルやGroなどのモデルに、どのモデルで動作しているのかを尋ねると、時々「GPT-4アーキテクチャ上で動作しています」という回答が返ってきます。これは一種のアーティファクトで、GPT-4が登場した時、他の全てのモデルを大きく引き離していたため、誰もがそのデータを使用して自分たちのモデルを構築したり、少なくともその方向に進み始めたことを示唆しています。これは知識蒸留と呼ばれています。
ここでは、優れたモデルからの知識蒸留を使用せずに、代わりにモンテカルロ木探索を通じてディープシンキングを実行することで、これを達成したと指摘しています。モンテカルロ木探索は、分岐する決定木のようなもので、任意の質問に対する最適な解決策を見つけるために、問題を最後まで考え抜くことができます。
クロスワードパズルを解く方法に少し似ていると考えられます。最善の推測に基づいて、ある程度確信を持って埋められるものを埋めていきますが、何か間違いがあれば戻って修正する必要があるかもしれません。これは大きく単純化した説明ですが、可能な解決策の状態を探索し、それらの行動に基づいて決定を下し、モデルを訓練・改善するという考え方を理解するのに役立つでしょう。
彼らはここで3つのイノベーションを導入して課題に取り組んでいます。1つ目は、新しいコード拡張チェーン・オブ・ソートのデータ合成手法で、これはステップバイステップで検証された推論の軌跡を生成します。
スター・セルフタウト・リーズナー（Star Self-taught Reasoner）の論文を思い出してください。これは、モデルに思考を生成させ、その思考に基づいて訓練することで推論能力を向上させるというアイデアを初めて垣間見せた論文の一つでした。
簡単に説明すると、「小さな犬を運ぶのに何が使えますか？」という質問をすると、いくつかの回答があり、その回答に対する推論や根拠を生成し、答えを出します。その推論が正しい答えにつながった場合、その推論に基づいてモデルが微調整され、より頻繁にその答えに到達できるように訓練されます。
これは上手く機能しましたが、もちろん、間違った推論が正しい答えにつながった場合はどうなるのかという疑問が生じます。モデルを訓練する際に、正しい答えは得られていますが、推論が間違っているという不一致が問題を引き起こす可能性があります。
ここでは、この問題に対処するためのアプローチを開発したようです。彼らはこれをコード拡張チェーン・オブ・ソート生成と呼んでいます。以前のモンテカルロ木探索アプローチは、主に自然言語のチェーン・オブ・ソートを生成していました。つまり、モデルは質問に答えるために必要な全ての推論を考え抜くのですが、彼らが言うように、大規模言語モデルはしばしば幻覚を起こし、誤ったまたは無関係なステップを生成しながらも、偶然に正しい答えにたどり着くことがあります。
これは大きな問題です。なぜなら、正しい答えにたどり着き、その推論が正しいと仮定してしまうと、明らかに問題が生じるからです。そして、人間が一つ一つチェックしない限り、スケーラブルに推論を修正する良い方法がありません。規模を考えると、これらの間違いを発見して排除することは難しいのです。
この問題に対処するために、図2に示すような新しいコード実行拡張チェーン・オブ・ソートを提案しています。これは下の図にありますが、ポリシーモデルは、一段階の自然言語チェーン・オブ・ソートと、それに対応するPythonコードを生成します。
例えば、誰かが南に歩いた距離を計算しようとしている場合、「南に歩いた総距離を計算する」という自然言語での思考があり、それに沿ってPythonコードを生成します。Pythonはこのような数学的な処理に非常に適しており、AIでよく使用される一般的なプログラミング言語です。
Pythonコードが実行され、歩いた総距離の答えを実際に生成することができます。そして彼らが言うように、正常に実行されたPythonコードを持つ生成のみが有効な候補として保持されます。
これは興味深いことです。なぜなら、自然言語での思考を生成し、そしてコードを生成しますが、そのコードが動作しない場合、その推論や自然言語は破棄されるからです。これにより、幻覚を防ぎ、おそらく多くの誤った回答を排除することができます。
これは、密な報酬と疎な報酬という考え方に関連しています。チェックポイントが近ければ近いほど、これらのモデルをより良く訓練することができます。答えが正しいかどうかだけを見ていると、モデルが答えを探す過程で全てを台無しにし、偶然に正しい答えにたどり着いてしまう可能性があります。その場合、「よくやった」と言って、その誤った思考がモデルに訓練され、問題を引き起こすことになります。
一方、学校のテストのように、正しい答えで1点、さらに全ての過程が正しければ残りの点数が得られるというように、作業をチェックできれば良いのですが、このような応用における課題は、それをどのように実現するかということでした。
2つ目のイノベーションは、素朴なステップレベルのスコア付けを避け、より効果的なプロセス選好モデルを生み出す、新しいプロセス報酬モデル訓練手法です。
プロセス報酬モデルについて説明すると、これはそのステップバイステップの作業の検証に関するものです。プロセス報酬モデルは、粒度の細かいステップレベルの報酬シグナルを提供し、これは難しい数学の問題を解くために非常に望ましいものです。しかし、高品質なステップレベルの訓練データを得ることは、依然として未解決の課題となっています。
これについては以前から議論されており、多くの論文がこの課題について言及しています。既存の手法は人間による注釈に依存しており、それはスケーラブルではありません。多くの研究者は、モデルが作業を示す際に、その作業のステップバイステップの推論が良いものかどうかを、人間が座って採点することなく、どのように確認するかを見出そうとしています。なぜなら、それはスケーラブルではないからです。
彼らが言うように、ステップバイステップの推論をどれだけ正確に採点できるか、その精度が結果として得られるプロセス報酬モデルの効果を直接決定します。プロセス報酬は、単に答えを採点するのとは異なります。
ここでは、正しい答えを得ることだけに厳密に関心があります。答えがBで、Bと言えば、「まあ、推論は正しいと仮定しよう」ということになります。しかし、その推論が「バスケットが好きだ、バスケットはクールだ、だからBを選ぼう」というようなものだったらどうでしょう？研究者は「正しい答えを得たのだから、それが正しい推論に違いない」と考えてしまいます。一方、プロセス報酬モデルはプロセスを見て、そのプロセスを評価します。
3つ目のイノベーションは、ポリシーSLM（Small Language Model）とPPM（Process Preference Model）をゼロから構築し、反復的に進化させて推論能力を向上させる自己進化レシピです。
ここに素晴らしい図解があります。モンテカルロ木探索駆動のディープシンキングについてです。ここにSLMがあります。これはモデル、大規模言語モデルです。LLMと言い続けているのは、SLMと言われても、私たちの頭の中ではLLMという概念が定着しているからです。SLMと言われても、それが同じものでSは小規模（Small）、Lは大規模（Large）という違いだけだということを、すぐには理解しにくいかもしれません。そのため、理解を容易にするために、これらを互換的に使用しています。
ここにピンクのラマ（おそらくこれがそうでしょう）があり、これが言語モデルです。つまり、ChatGPTなどです。そして、プロセス選好モデルがあり、これは解決策に到達するためにどの道筋を考えるべきかを決定するものです。
こう考えてみてください。誰かが「ええと、第一原理思考を使えば、だからこうなって、だからこうなる」というように考えを進めていく場合、必ずしも正しい答えにたどり着くかどうかは分かりませんが、それはどこかに行き着きそうだと感じます。一方、誰かが「私は蠍座だから、だからこうなって」と言い始めたら、「うーん、その思考の連鎖は正しい答えにたどり着くとは思えない」と感じるでしょう。
この例で批判を受けるかもしれませんが、要点は、プロセス選好、その報酬モデルが何らかの形でそのような判断を行うということです。言語モデルが正しい思考の道筋に入り始めると「うん、それは良さそうだ」となり、脱線し始めると「いや、いや、その思考の連鎖は考えない方がいい、気にしなくていい」となります。
このように、これらが協力して働き、ゼロから構築され、74万7000の数学問題に対する何百万もの合成解を通じて4ラウンドの自己進化を経て、反復的に推論能力を向上させます。これにより、これらの言語モデルの数学的推論能力は最先端のレベルにまで向上し、非常に小規模なモデルであるにもかかわらず、o1を上回ります。
ご覧の通り、o1プレビュー、o1ミニ、GPT-4o、DeepSeek V3と非常に競争力のあるものとなっています。
最後に、発見と議論の中で、内在的な自己反省能力の出現について言及しています。OpenAI o1の重要な breakthrough（ブレイクスルー）は、その内在的な自己反省能力です。モデルが誤りを犯した時、その間違いを認識し、正しい答えで自己修正することができます。しかし、これはオープンソースのLLMでは概して効果がないことが一貫して見出されています。
コミュニティは、自己修正や自己反省など、様々なアプローチを広く探求し、そのような能力を明示的に訓練またはプロンプトするよう試みてきました。彼らの実験では、予期せずに、モンテカルロ木探索駆動のディープシンキングが問題解決の過程で自己反省を示すことが観察されました。
例の一つでは、モデルは最初の3ステップで、シンボリック数学のためのPythonライブラリであるsympyを使用して方程式を形式化しましたが、それは誤った答えにつながりました。興味深いことに、4番目のステップで、モデルは以前のステップの質の低さを認識し、最初の問題解決の道筋を継続することを控えました。
これの要点は、人間らしい推論能力を作り出すことです。自己反省というアイデアは、きっと皆さんも経験があるでしょう。何かを作り始めたり、問題解決のアプローチを始めて数ステップ進んだところで「あ、これは思っていたように上手くいかないな。これを続けても行き詰まりそうだ」と気づくことがあります。そこで一旦戻って、別のアプローチを試みます。
言い換えれば、決定木を通って2段階目まで来たとして（ここに書かれている内容は無視してください）、基本的にある時点で、進んでいる決定木が間違っていることに気づいたら、すぐに戻って別の方法を試みるということです。例えば、GPT-4は素晴らしく優れたモデルでしたが、このようなことは全くできませんでした。
しかし、o1では、その推論のステップの中で時々「それを試してみたけど上手くいかなかった、別のことを試してみよう」というようなことが見られ、ここでは彼らはそれをある種シミュレートすることができています。彼らが言うように、一旦間違った道筋だと分かると、新しい、より単純なアプローチを使用して問題を解き直し、最終的に正しい答えにたどり着きます。
将来的には、「これはこの種の問題に対して間違った道筋、間違った解決策になりがちだ」ということを知るようになり、そのプロセス選好モデルはそのような問題に対して他の解決策により高い報酬を与えるようになります。
注目すべきことに、自己反省の訓練データやプロンプトは一切含まれていませんでした。これが意味するのは、高度なシステムの推論が内在的な自己反省を育むことができるということです。これが「創発」と呼ばれる理由です。それは彼らが行っている中で自然に現れてくるのです。「自己反省せよ」「自分自身について考えよ」「自分が何をしているのか考えよ」とは明示的に指示していません。それは内在的なもので、この能力が創発的に現れるということは興味深い考察点です。
ここに質問の例があり、解き始めましたが、これらは質の低いステップで、誤った解答につながることに気付きました。これが解き始めた部分で、どこかで「これは間違いになる」と認識します。内在的な自己反省、枠にとらわれない思考で、より簡単な解決策を見つけ、その道筋を続けて正しい答えにたどり着きます。これが最後の正しい答えです。
この論文を適切に説明できたと願っています。これは大きな進展のように思えます。多くの新しい探求の道筋を指し示しており、これは今、一種の繰り返しパターンとなっていることが分かります。AIの進歩の多くが、この考え方に向かっているのです。
人間のデータと人間の学習を使用して最初のモデルを立ち上げ、AIモデルのバージョン1.0を作り、バージョン2.0をより良くしました。しかし、最終的に誰がバージョン3.0や4.0を作るのでしょうか？私たちは、AIモデル自身がそれらの将来のより良いバージョンを作っているのを、ますます目にしています。
彼らは自己反省し、自己訓練し、合成データを生成しています。実際、ここでそれを見ることができます。「自己進化の4ラウンドの例を示す」と言っています。つまり、自分自身を改善しているのです。ラウンド1と2では「終端誘導モンテカルロ木探索」、これはおそらく人間が書いたアプローチ、ハードコードされたものでしょう。人間が初期の、様々な行動ステップを探索するというアプローチを作るのを手伝ったのでしょう。
しかし、ラウンド3と4では「PPM拡張モンテカルロ木探索」となっています。これは、どのような思考プロセスを好むかという能力です。「私は乙女座だから、だから…」というように話し始めると、「いや、いや、それについて考えるな、それは間違った道筋だ、気にするな」となり、「こう考えてみよう、問題を分解してみよう」というと、「うん、それはより好ましい考え方に思える」というようになります。
あるいはここでの具体例のように、特定の問題に対してシンボリック数学のPythonライブラリを使用することは、その問題に対して適切なライブラリではないかもしれません。そこで将来的には「それはおそらく正しい方法ではない、もっと簡単なアプローチがあるかもしれない」と判断するでしょう。
このプロセス選好モデルは、時間とともに改善され、ラウンド3、4、5、そして無限に続くラウンドで、そのような判断を助けるのです。ある時点で、人間がここまで引き上げ、それが自己改善できるポイントに達すると、そのプロセスが始まります。
この内容についてどう思うか教えてください。時々、コメント欄で「これは正確ではない」とか「あれは間違っている」という指摘を受けることがあります。重要なのは、私は常にこれらの概念を可能な限り広い聴衆が理解できるように分解しようとしているということです。概念やアイデアの本質、それが何を意味するのかを保持しながら、単純化しています。
時々間違いを犯すこともあるでしょうが、何かを間違って説明していると指摘する場合は、その概念を導入し、誰もが理解できるように説明するより良い例を提供してください。単純に説明したものに対して「それは間違いだ」と言い、同じことをより複雑に説明するのは、私が求めているものではありません。
しかし、何かをより簡単に説明する方法があると思うなら、もっと良いたとえがあるなら、教えてください。そういった提案には非常に興味があります。より良く説明できるようになりたいと思っているからです。間違っていると思うなら、それを指摘してください。
しかし、私の要点は、何かを単純化することは、それを間違いにするわけではなく、理解を容易にするだけだということです。アイデアの本質を捉えている限り、それが私がしようとしていることです。
ここまで見てくださって、ありがとうございます。私の名前はウェスト・Rです。また次回お会いしましょう。