LLMsの限界点に迫る（o1、R1を含む）

8,217 文字

LLMs at Their Breaking Point (incl o1, R1)

When to use a Llama 8B, when to update to a 405B model? When to pay for a o1 or o3 model? Why? What you can expect in pe...

今日は、LLMsが機能しなくなる状況について見ていきましょう。特に推論LLMsについてです。皆さんから「8ビリオンのLlamaモデルはどんな時に十分で、どんな状況で405ビリオンにアップグレードする必要があるのか」という質問をよく受けます。つまり、どんなタスクでアップグレードして、より多くの費用を支払う必要があるのか。今日は、この具体的なデータをお見せできます。
また、「従来のLlamaモデルからテストタイムコンピュート、o1やR1、Geminiなどに、どの程度の複雑さで切り替える必要があるのか」という質問もありました。どんな時にモデルファミリー全体を切り替える必要があり、どんな時により小さなモデルで節約できるのでしょうか。
このチャンネルの登録者の皆さんは答えに値します。今日、2025年2月5日時点でのコミュニティベンチマークを見てみましょう。数学的推論のカテゴリーでは、o1、R1、GTが1位を独占しています。総合ではGemini、R1、o1という順位になっており、最高のモデルの傾向がわかります。
しかし、ここで別の観点があります。L3.1 70bを128サンプルで何度も実行し、専用の報酬モデルを使用する場合と、単純にベストNを選ぶ場合では、どちらが良いのでしょうか。この70bモデルは、1回のパスしかない45ビリオンと比べて推論能力が優れているのでしょうか。70bが、実行回数に関係なく、405bが解ける複雑な解決策を導き出せない境界点はどこにあるのでしょうか。
論理的推論は人間の知性の基礎であり、全てのシステムにとって重要な課題であり続けています。そこで、先ほど提起した質問のための理想的な評価フレームワークが必要です。前千年紀、Microsoftは非常に効率的な充足可能性モデル理論（SMT問題）であるZ3を開発しました。これは、Davis-Putnam-Logemann-Lovelandアルゴリズムに基づく競合節駆動学習アルゴリズムとバックトラッキングアプローチを使用しています。
詳しく知りたい方のためにリンクを用意しました。1993年のGlasgowで発表されたこのゼブラ問題について、図書館で調べる必要がありました。最新の研究の洞察が1993年のアイデアから来ているのです。なぜこれを知っているかというと、半年前に私のextreme論理テストをデザインした時、図書館でバックトラッキングを伴う挑戦的な論理テストを構成する様々な可能性を探っていたからです。
スタンフォード大学がS1推論LLMを作成したことは、前回の動画でお伝えしました。o1やR1 TDCと同様に、Geminiからの新しいデータセットを使用し、16台のH100 GPUで26分間の教師あり微調整を行いました。オープンソースのQ1 2.5 32bインストラクトモデルを使用して教師あり微調整を行い、新しいS1 LLMが完成しました。
これらは全て、トレーニング時の計算に関するものでした。では、L3.1 45などで考えてみましょう。皆さんから「テストタイムコンピュートが必要なのはいつか」という質問がありました。より正確には、特定のタスクでテストタイムコンピュートのパフォーマンスが必要になるのはいつなのか。それが重要である場合や、より高価である場合、あるいは論理が存在しない場合など。
この質問に答えるために、パフォーマンスデータを見てみましょう。前回の動画で、S1、Q1 2.5、o1、R1を見ました。データのみを最適化した場合、つまりスタンフォードが開発したS1テストタイムコンピュートのアルゴリズムを使用しない場合、特定のテストでのパフォーマンスは92.6%でした。テストタイムコンピュートを有効にすると、93.0%になります。差はわずか0.4ポイントです。
次のテキストでは56.6%から59.6%になっています。テストタイムコンピュートが必要かどうか疑問に思うかもしれません。スタンフォードは最適な構成ではなく、シンプルなテストタイムコンピュート最適化を目指していたことを覚えておいてください。
今日の動画の核心に入りましょう。データをお約束しました。新しい論文からゼブラロジックを紹介します。これは、制御可能で定量化可能な複雑さを持つ論理パズルを作成するための新しい評価フレームワークです。増加する複雑さを持つ1,000の論理グリッドパズルのベンチマークデータセットがあります。
複雑さの指標は2つあります。まず、検索空間の純粋なサイズ、そして先ほど説明したZ3競合カウントが2つ目の複雑さの指標になります。専門家の方々はご存知かと思いますが、CIC問題はNP完全であることが証明されています。
最も単純なケースを見てみましょう。1、2、3と番号付けされた3つの家があり、人物がいて、いくつかの手がかりがあります。各家に対して、名前や他の値を割り当てるシンプルな行列です。手がかりの数はKで、これ以上単純にはできません。
理論物理学の知識を少し活用して、ニューラルネットワーク構造の解空間を見てみましょう。ゼブラロジックパズルの解空間を、パズルの一意の制約を満たす可能性のある構成の総数として定義します。n×mのグリッドがあり、n個の家とm個の異なる属性があるので、解空間はn!のm乗のオーダーになります。
3×4のグリッドは1,300の解空間を持ち、4×3のグリッドは約14,000の解空間を持ちます。これから興味深くなります。テストの複雑さの指標として、先ほど説明したようにZ3競合カウントも必要です。
文献を深く掘り下げると、基本的な考え方は、Z3が行列解の中で矛盾に遭遇するたびに、システムは少し戻って、すでに行った割り当ての一部を元に戻し、推論の異なるパスを試みるということです。これ以上単純にはできません。
LLM内で発生する競合カウントは、推論中のそのようなバックトラッキングイベントの総数です。2つの複雑さの指標、つまり検索空間のサイズとZ3競合カウントが、特定のモデルで解決したいタスクの複雑さを調査する際の定義要素となります。
ワシントン大学、アレン人工知能研究所（AI2）、スタンフォード大学による研究を見てみましょう。スタンフォード大学が監督者です。私にとって昨日の2025年2月3日に発表された、LLM論理的推論のスケーリング限界に関する素晴らしい研究です。R1とo1のデータも含まれているので、これを活用できます。
まず、TDC（深い推論モデル）であるo1、R1、プレビュー、O miniを見てみましょう。印象的な結果です。次に、非推論モデルであるClaude Sonnet、Llama、GPT-4 Omni、Q1 2.5などがあります。このカテゴリー間で大きな差があり、約60%から36%に低下しています。
しかし、これは我々が探している結果ではありません。もっと詳細な結果が必要です。小さなグリッドサイズ、2×2（2つのオブジェクトと2つの特性）から最大3×3のグリッドまでのパフォーマンスデータを見てみましょう。
R1はo1よりも優れていますが、どちらも90%台です。Sonnetは約85%、GPT-4 Omniは80%を維持しています。ただし、これは最も単純なケース、つまり簡単な2×2グリッド構造の場合のみです。
3×4（3つの家と4つの特性）から最大4×4に移行すると、パフォーマンスは急激に低下します。モデルは論理的推論について行けなくなります。Sonnetは84%から30%未満に落ち、3×4の論理的推論パスは人間にとってそれほど複雑な問題ではありませんが、非TDCモデルは崩壊します。
GPT-4 Omniも20%未満の精度になりますが、これは中程度のサイズです。一方、o1は90%台を維持しています。さらに6×3のグリッドまで上げると、非TDCモデルは消滅します。推論が不可能になり、解決策を見つけることができません。
6つの異なる車と3つの異なる色について推論するような複雑さのタスクでは、非TDCは完全に機能しなくなり、タスクを解決できません。ここで興味深いのは、o1はR1と異なりますが非常に近い性能を示し、o1プレビューとo1 miniは性能が低下することです。
より高い複雑さでは、これらのモデルが必要になります。非TDCモデルは使用できなくなるからです。さらに、解空間のサイズが非常に大きい6×6のグリッドでは、o1も50%未満に低下し、R1は30%未満になります。
特定のタスクの複雑さに応じて適切なモデルを選択する必要があります。全体的な結果だけを見て判断することはできません。タスクの複雑さに基づいて、どのモデルを使用できるか、どのような結果が期待できるかを判断する必要があります。
半年前、私も同じようなテストを開発しました。7×3の要素を持つテストで、これは大規模ではなく、すでに超大規模カテゴリーに分類されます。これは、o1用に設計したテストの複雑さレベルで、40%から50%の間のパフォーマンスを示します。これは理にかなっています。
半年前に同じアイデアを持ち、最初の動画を公開しました。そして昨日、この新しい研究が発表されました。私の動画を見た人がいることを願っています。最近の動画の1つで、このテストにおけるo3 mini Highを紹介しました。私の個人的な意見では、o3 mini Highは因果推論においてo1モデルよりも優れていますが、注意すべき他の多くの要因があります。
動画の冒頭で、8Bから45Bにアップグレードするタイミングについて話しました。複雑さのカウントを見てみましょう。3B、8B、70B、45Bがあります。これはインストラクトモデルです。赤いのが最大で、青いのが最小のモデルです。
Y軸に精度があり、複雑さの指標の1つである検索空間サイズの対数スケールがあります。この1次元だけを見ても、事前学習可能なパラメータのサイズによって性能が異なることがわかります。10の6乗付近では、ほとんど全てが5-7%の精度に低下します。このモデルは事実上消滅します。
2つ目の質問、TDCモデル（推論モデル、推論時間モデル）により多くの費用を支払う必要がある場合の性能の向上について見てみましょう。GPT-4 Omni Miniを異なるパスで見てみます。1サンプルから128サンプルまでです。紫の線が128で、青い線が1サンプルサイズです。
検索空間サイズが10の4乗の場合、60%近くになりますが、最小の+1では10%未満です。ここでパフォーマンスを向上できますが、複雑さの次元の1つだけを考慮していることに注意が必要です。もう1つの次元については後ほど説明します。
同じことを128回実行し、報酬モデルやベストNモデル、多数決投票などを使用した場合と比較したかったのです。次に、TDCモデルの最小である01 miniの灰色の曲線と比較してみましょう。これは本当に最も重要性の低いTDCモデルですが、他の全てを上回ります。
では、TDC推論モデル、複雑なモデルにアップグレードする必要があるのはいつでしょうか。検索空間サイズが高くなった時、10の6乗で60%の精度を必要とするモデルが必要になります。大きな違いがあります。
40 miniで128回実行して最良の解を取るのでは、01 miniの1パスにも及びません。推論時間の計算における手順の連鎖をスケーリングすると、このパフォーマンスの飛躍がもたらされます。したがって、これで正確な効果がわかります。これは01 miniだけの話で、03はどこか別の場所にあるでしょう。
では、TDCモデルを比較してみましょう。ここで注意が必要です。次元が変わります。X軸を2番目の複雑さの指標に変更しました。これは推論実行中にLLMが遭遇するZ3競合の数です。Y軸は精度で問題ありません。
青がo1で、これが最高のモデルです。次にR1があり、緑のo1プレビューは忘れましょう。赤のo1 miniも今後数週間から数ヶ月は重要ではありません。茶色とその他の色の2本の線は、GPT-4 Omniです。
GPT-4 Omniモデルを使用するべきか、それともo1やオープンソースのR1モデルに投資するべきかという問題について、競合の数に基づいて正確に判断できます。これは、LLMに要求するタスクの複雑さを増加させることを意味します。複雑さが高いほど、システムは正しい解を見つけるためにより多くの競合をチェックする必要があります。
ここから、o1では40%、60に近い場所では特定のゼブラロジックテストにおけるZ3競合の数が60となり、一定レベルの精度が期待できます。非TDCモデルからTDCモデルへの手順の連鎖トークンのスケーリングには大きな飛躍があり、他の方法では補償できません。o1は他のモデルの10倍の隠れた推論トークンを持っています。
数日前の私の最後の動画で示したように、TDCで生成されるトークンの数を数えるだけで、緑が正しい応答、赤が不正解の応答を示します。01のようなLLMsが不正解の応答に対して計算する10,000トークンは、システムが停止すべき時を知らず、間違った道筋にいることを認識せず、正しい解を見つけることができないという暴走効果に過ぎません。
ここで注意が必要です。推論トークン、つまり応答ごとの推論トークンの数を増やすだけでは、これは応答を待つ時間を意味しますが、負のフィードバックループを引き起こす可能性があります。応答ごとに10,000の推論トークンを許可すると、全てが間違っていて結果が生成されない可能性があります。
問題解決能力を使って狂ったように実行させる力や時間やエネルギーを与えるだけでは解決策になりません。この研究の著者たちは、2-3日以内の研究だったためこの研究のことを知りませんでしたが、視聴者の皆さんは理解できます。この研究よりもさらに高い複雑さがあることを理解しています。
まとめに入りましょう。全てをまとめてみましょう。今日学んだことは比較的シンプルです。LLMsをスケールアップし、非TDCでLlamaを使用する場合、モデルサイズを8ビリオン、13ビリオン、70ビリオン、400ビリオンにスケールアップすることは、より小さな検索空間でのみ効果的です。
クエリやタスクの複雑さが本当に低い場合、モデルサイズのスケーリングでより良い結果が得られます。70bから45bでは、モデルの精度は向上しますが、より単純な検索空間でのみです。グラフをお見せしたので、好きなように見て、クエリの複雑さを推定してください。
テストタイムコンピュートのスケーリング、つまり推論実行を1分、5分、1時間と変更した場合、本当に何がもたらされるのでしょうか。GPT-4 Omniで示したように、ベストNのサンプリング、例えば多数決投票、報酬モデルのランキングなど、何を使用しても、特定の量までは確かにパフォーマンスを向上させることができます。
しかし、多数決投票システムや使用する特定の報酬モデルなどによって、改善は適度なものに留まります。ベスト100、ベスト1000などによる改善は、より高い複雑さグループのパズルではプラトーに達します。繰り返しサンプリングでは、より高い複雑さグループへのジャンプは不可能です。
これは非常に限定的で適度な改善でのみ可能で、それ以外は失敗します。手順の連鎖トークン、テストタイムコンピュートにおける拡張された手順の連鎖トークンについて見てきました。他の研究から、不正解の応答に対して暴走する可能性があることも示しました。
しかし、これらの著者たちも、より多くの内部推論トークンを持ち、10分間答えを待つことを許可したモデルでも、最大の推論能力に達することを発見しました。競合の数が特定のポイントを超えると、モデルはトークンを比例して増やすことができず、最も難しいパズルでも最適以下のパフォーマンスになります。
これは、より多くの内部推論トークンが、モデルに依存する特定のプラトー、特定の最大推論能力までしか与えられないという非常に狭い帯域幅であることを示しています。o1 miniと通常のo1を見てみましょう。Z3競合と隠れた手順の連鎖トークン、推論トークンの量があります。
o1 miniは12,500でプラトーに達し、約13,000まで上昇します。フルo1は177,000付近でプラトーに達し始めますが、完全なプラトーではなく、推論の手順の連鎖トークンで20,000トークンに近づくまで強く上昇し続けています。これらは見えない隠れたトークンです。
この曲線が本当にこれを説明していると思います。03モデルについても見たかったのですが、おそらく費用が高すぎるでしょう。このチャンネルの登録者の方は、自己検証について知っているかもしれません。AIシステムの自己改善について3つの動画で示しました。
自己検証、自己反省、自己修正などがありますが、著者たちもこれを特定のレベルで調査し、自己検証はわずかなパフォーマンスの改善しかもたらさないと述べています。31.7%から33%の精度への絶対的な数値の上昇があり、さらなる反復でパフォーマンスが低下する可能性もあります。
より多くの時間、より多くのトークンは解決策ではありません。人間を想像してみてください。何かを知らない場合、ドメイン知識に精通していない場合、1時間自己反省しても解決策は見つかりません。必要な知識ドメインを学ぶために外に出て行く必要があることはわかるかもしれませんが、自己検証だけでは何も生み出しません。
31.7%から33%なので、今のところこれはあまり意味がありません。私が見た創造的な解決策を持つこの反省的なプロンプトは、より高い複雑さのタスクで直面する推論の限界を克服するための特効薬ではありません。
これが重要です。この研究は、どのようなLLMスケーリング戦略を採用しても、TDC、テストタイムコンピュートの増加、より多くの隠れたトークンなど、これらの戦略は全て、より高い論理的推論タスクにおける複雑さの呪いを克服するには不十分であることを美しい方法で示しています。
非TDCは本当に単純な問題、2×2のグリッドには適していますが、人間にとってはそれほど複雑ではない3×4のグリッドに移行した瞬間、モデルは崩壊し、パフォーマンスが低下し、単に失敗します。
モデルサイズの増加も、テストタイムコンピュートの改善も、より多くのまたはより良い結果をもたらしません。これらは全て、高い論理的複雑さに直面すると収穫逓減を示します。我々は本当に壁に突き当たっています。
これは本当に重要な障壁です。数学的論理的因果推論プロセスに使用する方法論、ツールセットは壁に突き当たっています。より多くの同じことは解決策にはなりません。これは美しい考えです。なぜなら、新しい何かが私たちに開かれているからです。
次世代のAIモデルの推論能力を向上させる新しい方法を見つけるチャンスがあります。新しいアプローチが必要です。もしかしたらあなたにアイデアがあるかもしれません。2025年にAIの論理的推論能力の境界を押し広げたいのなら、純粋なスケーリングを超えた明示的な推論メカニズムを統合する新しいアプローチが必要です。
これが今日の内容です。素晴らしい研究だと思います。詳細に読むことをお勧めします。さらに多くの詳細や補足的な詳細もありますが、これは非常に重要だと考え、LLMの推論が崩壊する場合、どのレベルで崩壊するのか、複雑さの指標は何か、そして今日我々は2つの指標を特定しました。
これで、問題を見て、問題の複雑さを分析し、解空間のサイズを推測し、どの基準が重要かを理解するための良いツールボックスができました。タスクに最適なLLMを選択できると思います。
この動画を楽しんでいただき、今日私と一緒に少し楽しい時間を過ごしていただけたなら、ぜひチャンネル登録をお願いします。次の動画はすでに制作中です。