パネルディスカッション：ARC Prize 2024（チューリッヒ）

15,918 文字

Panel discussion on ARC Prize 2024 (Zurich)

During our last meetup at Tufa Labs in Zurich (in early January) we had a panel discussion about ARC. Panelists: Michael...

私はいつも、ARCチャレンジが打ち破られたら大幅に考えを更新すると言っていましたが、実際に打ち破られ、いくつかの留保はあるものの大幅に更新しました。データセットの汚染があった可能性についてまだ少し懸念しています。彼らがARCに対して微調整するために具体的に何をしたのかわかっていないので、答えられていない質問がいくつか残っています。OpenAIが素晴らしいことを発表して、その後Soraのように9ヶ月後に衝撃的な現実が明らかになるというのはよくあることです。
しかし、それでも今回は違うように感じます。真の開発者認識型の一般化の例のように感じます。なぜなら彼らが基本的にワンショットでそれを行っているのが見えるからです。解空間でのトランスダクションを見ると、彼らのプロンプトテンプレートが見えますが、数個の候補仕様を与えるだけで、膨大な計算量を使用するとはいえ、驚くべきパフォーマンスを発揮できるようです。まあ、様子を見ましょうが、皆さんはどう思いますか？
私は彼らがテスト時の再トレーニングなしで、モデルがワンショットでそれを実行できるのは非常に印象的だと思います。素晴らしいことだと思います。また、私たちは全員ARCに関わる人間なのでARCデータセットに焦点を当てていますが、彼らは他のデータベンチマークでも驚異的なパフォーマンスを示しています。私が最も感銘を受けたのはフロンティア数学ベンチマークで、彼らは20％、私の知る限り25％を獲得していますが、私は0％なので少しイライラします。論文が出版され、おそらくトレンドが続けば2年後にはオープンソースモデルも同じパフォーマンスを獲得することになるでしょう。それは怖いことになるでしょう。
しかし、私がまだ見ていないのは、それがどのように推論を処理するかです。明らかに推論はできているようですが、LLMの本質的な弱点、例えば幻覚などはまだ存在します。自己修正などで対処しているのかもしれませんが、彼らがどのように実際にそれらの問題に対処しているのかはわかりません。おそらく今のところは誰も知らないでしょう。
今や二次の幻覚が発生しているようです。O1 Proは推論の軌跡から幻覚を生成しています。それはさらに厄介なものです。そしてそれを検出するのは非常に難しいと思います。メタモデルでできるかもしれませんが、わかりません。
あなたは以前、最初はO3に非常に感銘を受けたが、その後それほどでもなくなったと言っていました。その調整は何でしたか？
彼らがARCのトレーニングデータを微調整に使用したことです。本当にゼロショットトレーニングを通じてやったと思っていたので、その時は本当に衝撃を受けました。今は少なくともトレーニングデータを少し使用したことが明らかになり、少し印象が薄れました。また、彼らは多くの計算リソースを使用していることも印象を薄めています。誤解しないでください、それでも驚異的なことですが、現在の視点からそこに到達できることは想像できる範囲内です。
しかし、それは不公平ではありませんでした。Gary Marcusはトレーニングセットでトレーニングしたことがスキャンダラスだと激怒しましたが、それは完全に正当なことです。私を驚かせたのは、Chetが批評家としてのキャリアを積み重ねてきたにもかかわらず、彼が自分の主張を撤回していないことです。彼はいつもの自分ではなく、これが一般化における大きなブレークスルーであると本当に信じているようです。もちろん、その程度は今後明らかになるでしょう。
あなたの更新プロセスはどのようなものでしたか？最初はChetと同様に「プログラムが必要だ、これはプログラム帰納だ」と考えていたようですが。
Chetの立場は曖昧です。彼はまだこれがLLMではないと考えています。つまり、LLMではあるが、ある種の検索コントローラーであるという意味です。彼の観点からすれば、これは彼の正しさを証明したことになります。もし単純な自己回帰型の単一のフォワードパスのLLMであることが判明すれば、彼にとって良くないでしょう。
しかし私にとって主なことは、解空間での予測が不可能だと常に考えていたことです。だから常にプログラムが必要だと思っていました。プログラムは私たちが知っていて愛している特徴、つまり構成的一般化やチューリングマシンで実行できることなどを持っているからです。これらのモデルが実際に解空間で強力な一般化可能な予測をできるとは思っていませんでした。
O3の失敗モードを見ると、むしろ彼らが理解していることを証明しているように見えます。一部の失敗ケースでは、実際に正解のラベルよりも正確な予測をしていました。他のケースでは少し「オフバイワン」のようなエラーがあり、解空間が大きくなりすぎると性能が低下しましたが、これは時間とともに修正できそうな問題です。とにかく、証拠は彼らが推論に非常に適していることを示唆しています。あなたはどう思いますか？
あなたが言ったように、LLMはO3ではある方法で拡張されていますね？チェーンオブソート（思考の連鎖）のサンプリングを生成するある種のアルゴリズムがその周りにあります。それは私たちのアプローチでも見られることです。私たちのアプローチの中核にもLLMモデルがありますが、スコアの向上の多くはLLMからより良く情報を抽出するための外部ツールの使用から来ています。LLMスマートは次のトークンに対して非常に良い確率を与えることができますが、それだけでは十分ではありません。現在、良いサンプリング技術がないため、正解を生成するために後で多くの複雑な部分を追加する必要がありました。LLMの背後にあるよりスマートなアルゴリズムを持つことで、結果をチェックする方法でパフォーマンスを大幅に向上させることができると思います。
それは本当に興味深いですね。彼らはこれらの問題を理解する能力を持っていたが、ただ識別することは生成するよりも容易であり、さらに困難なのは良いものの間のトークン空間を移動することだと言っていました。LLMにそれを尋ねることはできますが、生成することはより困難であり、さらに困難なのは良いものの間のトークン空間を移動することです。
優勝ソリューションでは、確率的サンプリングを使うのではなく、基本的に最小エントロピー検索を行う深さ優先探索を設計しました。良いステップにたどり着くために多くの悪いステップを通過する必要がありましたが、いったんそのトークン空間の部分を見つけると、言語モデルに「これが正しいプログラムだと思いますか？」と尋ねることができ、それが正解を与えてくれるのです。問題は最初にそこにたどり着くことでした。
ある意味では、サンプリングはARCでも機能するアプローチでしたが、それほど効率的ではありませんでした。サンプリング中に予測される確率が10％だけの正解がある場合、それを見つけるためにかなり頻繁にサンプリングする必要がありました。深さ優先探索は、ある閾値以上のサンプリング確率を持つすべての可能な候補を非常に効率的に検索する方法です。LLMはトークンごとに予測し、その予測について検索を行います。最初のトークンを予測し、確率を得て、さらに進みます。そのパスで、すべてのトークンの対数確率の合計をこの完了のサンプリング確率の尺度として加算します。それが私たちがある時点でカットオフするところです。閾値を下回ると、「これは有望ではない」と判断して戻り、他のソリューションを探します。この方法で、基本的に多くの良い候補を見つけることができ、正解がその中にあることを期待します。これは非常に問題特有のソリューションです。言語タスクでは、可能な完了が非常に多いため、任意の完了の確率は非常に低いです。言語にとって基本的にすべて価値があり、すべて良い多くの完了がありますが、私たちのケースでは1つの正しい完了しかありません。
明確にするために、あなたのアプローチではグリッド内のピクセルとトークンの間に直接マッピングがありますか？
その通りです。基本的に行ごとに1からnまでの数字でトークン化し、行末トークンと文末トークンも使用します。それが私たちが使用するトークン化方法の本質です。
Yanさん、あなたは自然言語における到達可能性空間について興味深いことを言っていました。言語モデルでは、トロントの人たちがインタビューで「ロジャー・フェデラゲーム」というものを考案しました。これは「ロジャー・フェデラは最高の何？」というものであり、どんなプレフィックスを考えれば「最高の」と言わせることができるかというものです。プレフィックスの予算が大きければ「最高の」と言わせることができ、実際には何でも言わせることができることがわかりました。しかし自然言語では、トークン空間には多くの自由度があります。言語は奇妙で複雑だからです。しかしARCチャレンジのようなものでは、自由度はほとんどなく、軌跡もほとんどないので、課題はただその軌跡を見つけてソリューションに到達することです。
私たちが話す完了確率は、トークンのロジットの合計に過ぎません。自然言語では、同じことを意味する10の文を持つことができるので、正しい確率を持つことはできません。コンセプトを考えれば、コンセプトは10の完了の合計を持ちますが、各完了は明らかに低くなります。ARCコンテストでは、私たちの完了はトークン空間で非常に制限されています。1つの正しいパスしかなく、この特定の完了の確率とモデルがそれが正しい完了だと考えるかどうかの間に大きな一致があります。私たちはそれを活用して、1つの視点からだけでなく、視点を変えて完了を評価し、再度評価し、基本的に確率の積を計算して正しい候補を選択しました。
私はURPSでRandall Bistriにインタビューしました。彼は興味深い研究をしています。私たちはインターネット上のすべてについて知っているこれらの事前訓練された巨大な言語モデルが必要だと考えていますが、判別タスクを行っている場合、一からスタートできます。モデルは白紙の状態からでも、誘導された先行知識やバイアスなどを持っており、そのままで機能するからです。シンプルなタスクでは、Llamaモデルに少しトレーニングするだけで本当にうまくいきます（もちろん事前訓練はしていない）。あなた方も同様のことを発見しましたね。たとえ白紙の状態からスタートしても、特定のARCチャレンジに対する変圧器の微調整が、ベースデータからの転移よりもはるかに針を動かすと疑っていますか？
まだ試していません。R（モデル）はコンセプトが言語からきていると言っていて、それをARCに適用しているだけだと言います。しかし、これが実際に真実かどうか、あるいは白紙のモデルからスタートしてARCをトレーニングするとどれだけうまくいくかを誰かがテストしたかどうかはわかりません。試してみたいと思いますが、まだそこまで至っていません。
あなたのアプローチを理解したと思いますが、なぜフロンティア数学で0％を達成したと思いますか？数学も非常に類似していて、本質的に正しい式は限られているように思いますが、自然言語ではたくさんの組み合わせがありますよね。
それは誤解です。私個人として0％しか得られないということです。私はLlamaよりも賢くないのです。しかし、モデルにとってもまだ難しいと思います。なぜなら数学ではまだたくさんの完了があり、式を書く方法はたくさんあります。a + bまたはb + aを書いても基本的に同じで、言語と同じ問題です。このアプローチは追加の調整なしではうまく機能しないでしょう。それが私たちが実際に研究しているアイデアです。
現在のO3の構造についての最良の推測は何ですか？トレーニング時に何をしていて、推論時に何をしていると思いますか？
確かではありません。個人的には、それは非常にスマートなトレーニングデータを持つトレーニングされたGPT-4モデルだと思います。それが可能性の一つです。今日私たちは多くの議論をしましたが、それについて異なる考えがあります。例えば、アリババのQWQモデルを知っていますか？それも思考モデルで、オープンソースの32bモデルとしてはかなり良いです。彼らは思考の連鎖の完了についてトレーニングしているだけだと思います。特定の問題に対してチェーンオブソートを行い、それが良いソリューションかどうかをチェックし、もしそうであれば強化するのです。それがO1がやっていることすべてかもしれませんし、より複雑なバックエンドを持っている可能性もあります。私たちが決して見ることのない非常に非常にスマートなチェーンオブソートを背景で行っている可能性もあります。わかりません。
検証はどのように行われていると思いますか？それは手書きされたものですか、それともどのチェーンオブソートが正しいかを検証するモデルですか？
標準的なチェーンオブソートアプローチは検証機を使用します。私が見た最良のチェーンオブソートアプローチは検証モデルを使用しています。
それは別のモデルですか？
そうあるべきです。なぜならモデルは自分の出力を検証するのが苦手だからです。それもARCで見たことです。確率だけでは判断できませんでした。なぜならそれはただの確率だからです。モデルが見る問題をシフトさせて、それが正しいかどうかの良い評価を得る必要がありました。あるいは、単に人々のモデルが自分の出力を検証するのが苦手なだけで、GPUが豊富であれば同じモデルで出力を検証できるのかもしれません。ただもっとデータがあれば。
検証モデルはどれほど異なっている必要がありますか？わかりません。まったく見当がつきません。ARCに関するあなたの仕事では、違うモデルを使用したと言いましたが、違いません？
いいえ、私たちの場合は同じモデルですが、問題を変更しました。問題は非常に良い構造を持っているので、問題を回転させて、「今見ると、これはまだ正しいソリューションですか？」とモデルに尋ねることができます。すべての回転、転置などについて尋ねると、モデルは基本的に間違っているものを検出し、低い確率を出力します。それらを掛け合わせることで、基本的に同じモデルを使用して良い選択プロセスを得ることができます。
推論とアーキテクチャに関するフォローアップとして、彼らは自分たちの数字によると、ARCタスク1つあたり数千ドルを費やしているとのことです。それは平均だと思いますが、基本的に単一のフォワードパスにそれほど多くのお金を使う方法はそれほど多くないですよね？それはたくさんのGPUとたくさんの電力が必要ということです。何かをしている必要があります。何をしているのでしょうか？多くの分岐をしている必要があり、コンテキストがそれほど大きくなるだけではありません。彼らはどの方向にスケーリングしていると思いますか？すべての方向にスケーリングしているのでしょうか？
安いほうは400タスク全体で6700ドル、タスクあたり17ドル、またはタスクあたり7ドルだったと思います。それからトークン数は20,000か28,000だったと思います。それはかなり多いです。それが1回のフォワードパスではなかったと必ずしも思いませんが、たくさんのフォワードパスだったと思います。
そう、確かにたくさんのフォワードパスですが、それが彼らがやっていることですよね？基本的にどこかでフォワードパスを行っています。GPUがたくさんあっても、何冊もの本に相当するテキストを生成するためには、大量のフォワードパスを行う必要があります。その問題についてそれほど長く考えたなら、解決したほうがいいですね。
しかし、現時点での私の推測では、彼らは中間結果を生成しているのかもしれません。各ARCチャレンジは面倒な量のトークンを使用します。30×30のグリッドがあれば、それを表示するだけで少なくとも900トークンが必要です。彼らは中間結果も生成する思考プロセスを持ち、それらを評価し、良いソリューションを見つけたと思うまで繰り返しているのかもしれません。
モデルが実際のタスクが何であるか、変換ルールが何であるかを推論し、そしてモデル自身にそれをデータに適用するよう頼むという例も想像できます。そのようなこと、そして反復的な改良などかもしれません。
それでも一般的な手順でしょう？プロンプトを知っているので、彼らが嘘をついていなければ、プロンプトの中にはありません。
とても一般的なものかもしれません。問題をより小さなステップに分割し、これらのステップについて考え、これらのステップを適用し、そして明確な結果に到達するまで繰り返すというものかもしれません。しかし誰も知りません。
いや、知っている人はいますが、言わないだけです。Twitterにはいくつかのヒントがあります。いくつかのOpenAI社員が…彼らのツイートを誤解していただけです、公平に言うと。
ちなみに、私は最初はそれが単なる単一のフォワードパスだと思っていました。GoogleのThinking ModelやQWQなどを見ていたので、彼らは単一のフォワードパスですが、あまり思考をしません。長時間にわたって何かの一貫性を得るのは非常に困難だということを経験から知っています。そしてこれらのモデルは本当にたくさん考えています。
彼らがTwitterで言ったのは、すべて一つのモデルだということで、私はそれを信じています。モデルがモードに入り、そのThinking Modeで木探索を行うことができると思います。Percholetによれば、最終的なアンロールで実際に起こっているのは、プロンプトにチェーンオブソートプログラムを与え、検索プロセスは最適なプログラムを見つけることについてです。私のアンロールにこれをプレフィックスとして付けると、それは私のために問題を解決してくれます。
先ほど話していた「魔法の言葉」論文に戻りますが、ほぼ秘密のキーのようなものがあり、それを言語モデルにプレフィックスとして付けると、欲しいことをやってくれるというものです。それを見つけることが重要です。
私たちはトレーニング時に何かをしていることに同意します。Noah Goodman論文のような、ある種のプロセス監視を行っています。それはモードに入り、彼らはこの種の木探索を行い、おそらく彼らがやっていることは、最良の可能なチェーンオブソートプレフィックスを見つけようとしていることです。そして彼らの計算予算内で最良のプレフィックスを見つけると、それを同じモデルに挿入して、単にアンロールします。それが彼らがやっていることだと思います。
なぜ他の誰もそのようにやらないのでしょうか？なぜGeminiはそんなに遅れているのでしょうか？
それは興味深いですね。彼らがやっている方法で見出しの指標は非常に良いと彼らは言っています。
彼らは多くのことを言いますが…
しかし、その一部は単にこのスターアプローチでトレーニングされたモデルを持ち、可能な限り最高のチェーンオブソートを想像し、それから最初に思いついたチェーンオブソートですぐに実行するということだと思います。明らかにそれでも大きな向上が得られ、アンロールする前にそのチェーンオブソートプログラムを最適化するのはさらに良いのではないかと推測します。
関連する質問をしてもいいですか？2025年末に最高の推論モデルは誰になると思いますか？個人的な見解を教えてください。誰がお金を賭けたいと思っていますか？
それは少し…この質問の主な難しさは、現在私たちがどのような状況にあるかということだと思います。ほとんど常にOpenAIがトップにいて、時々他の企業がそれを上回り、1ヶ月後にはOpenAIが再び取り戻すという感じです。もし私たちがOpenAIが負けている1ヶ月のスパイクにいるならば、OpenAIではないですが、おそらくほとんどの場合はOpenAIでしょう。
Sonicについては何か魔法のようなものがあります。指で指し示すことはできませんが、他のどのモデルも持っていない雰囲気があります。基本モデルとして…この思考モードを行うと何か魔法のようなことが起こり、モデルは全く異なる性格を帯びますが、少し魂のない性格になります。彼らはいくつかの興味深い特性を持っています。例えば、異なるオプションを考慮しているので、今はより創造的であるなど。彼らはそれほど点描的ではありませんが、魂がありません。
AnthropicはClaude（モデル）に他では見たことのない性格を持っています。彼らの新しい、より良いSonetと思考モードが出たらどうなるかが非常に楽しみです。DeepSeekも良くなると期待していますが、トップにはならないでしょう、良いモデルではありますが。
しかし文脈として、DeepSeekは見出しの指標では良いが魂がないということでした。
「シミュレータ」論文を書いた人、Janisという人がいます。彼はフルタイムのプロンプトウィスパラーなので、彼はただモデルと話します。彼は明らかにモデルが意識を持っていると考えています。しかし彼は他の誰も理解していないような方法でこれらのモデルを理解しています。そして彼はDeepSeekは基本的に魂がないと言いました。
それは非常に一般的な観察です。モデルから多くのサンプルを取ると、モードが崩壊するか、実際には多様性がないことがわかります。STARのようなプロセスでそのエラーループのためにはその多様性が必要だと予想されます。
それが実際の問題だと思いますか？そしてそのモデルが単一である場合、多様性はどこから得られますか？
複数のモデルがある場合、各思考を埋め込み、それが近すぎないかをチェックし、近すぎる場合は破棄して新しいものを作ることができます。常にエンジニアリングのソリューションはありますが、あなたが言うことが真実で、単一のモデルを使用しているだけならば、それは単に非常によくトレーニングされているということです。思考プロセスで創造的で新しいアイデアを出力することが得意なのです。
あるいは、デフォルトでプロセスがノイズの多いかもしれない十分に長い思考を持ち、そうすることでローカルから抜け出せるかもしれません。
チェーンオブソートが現在機能する方法は、モデル内部のものですね。しかし明らかに思考中に他のことも実行できますが、今のところOpenAIはそれをすべて内部に保持するという製品と競争上の決定をしています。いわゆる関数呼び出しやツール呼び出しなどをそのループに追加すると、より多くのオープンソースモデルに優位性が移行するのでしょうか？あなたがそのようなものを構築した経験から、これらのシステムはあなたの考えではどのようなものになりますか？
私の最も辛辣な意見は、チェーンオブソートが正しいアプローチだとは思わないということです。人間が考えるとき、私たちは話す前に言いたい文の考えを持ち、それからその考えを伝える言葉を見つけようとします。言語モデルは記憶や思考を言葉に外部化しようとします。チェーンオブソートのプロセスは基本的に、私たちが思考を書き留めるための何らかの記憶が必要だということです。現在、いくつかのアプローチがあります。MAAがLCMという本当に素晴らしい論文を持っていると思います。彼らは思考のために離散的なトークン空間からより連続的な空間に移動しようとしています。そして、それがうまくスケールすれば、離散的な単語にデフォルト設定するのではなく、概念空間で議論するだけでより優れたアプローチだと思います。
しかし、それはまだトークンを活用しています。そうです、でもまだ内部状態の表現が欠けていると思います。内部状態です。私にとっては、標準的なチェーンオブソートと比較して大きく何かが変わるようには見えません。それは単にあなたの思考を提示する方法であり、連続的な状態ですが、それ自体はまだトークンの連鎖です。
それに同意します。神経科学は人間において思考が言語に先行することを非常に明確に示しています。言語領域を失っても、論理的なタスクを行うことができます。しかし、例えばバイトランスフォーマーの結果は非常に不十分です。私たちは他に何か見逃しているのでしょうか？
それはあなたに何を示唆しますか？それは実際に問題なのか、と考えています。私たちはトレーニングするための多くの言語を持っていますが、思考データはそれほど多くありません。それはただアクセス可能ではないのです。インターネット全体をトークンとしてトレーニングできるのなら、どうやって中間ステップに通常の勾配降下を行うことができないのですから、それをトレーニングするのが問題だと思います。
おそらく最善の策は、ERLタイプのアプローチかもしれません。自分で考えることができ、良い種類の思考を強化するような、おそらく改善を促すセルフプレイループが必要ですが、それがないかもしれません。
私たちが現在行っている推論出力をどの程度圧縮できると思いますか？基本的にモデルの外部からそれをモデル内部に戻し、それはある意味でSonet 3.6かそれに近いものがやっていることのように見えます。なぜなら本質的に一回のフォワードパスで、O1が思考時間を多く持っていてもできないことを正しく多くこなすからです。だから何らかの翻訳関数が必要で、おそらくお金をかけて推論し、その推論についてモデルをトレーニングしているのでしょう。その質問は、それがどの程度うまくいくと思うかということです。
これについては先ほど議論しました。ARCでのあなたのシステムでは、最初はたくさんの思考が必要ですが、微調整を続けていくと、時間とともに考える必要がなくなります。なぜなら単にそれを知っているからです。そしてClaudeのモデルがとてもうまく機能する理由は、彼らがすでにこの思考プロセスに似た何かを事前トレーニングで行い、すでに多くの一般的な思考を内部化しているからだと想像できます。
それはTwitterでのホットな主張です。彼らは何ヶ月もOpusを持っていたとされていますが、リリースしていません。なぜなら意味がなく、彼らはただそれを使って安価なモデルを改善しているだけだからです。
しかしそれは私の質問に答えていません。それがどの程度うまくいくかということです。どれだけスケールアップできるでしょうか？
たくさんの思考をした後は可能なはずです。これは私がO1とO3モデルがとてもうまく機能する理由についての疑いの一部です。なぜなら誰もがたくさんのARCデータを投げ込んでいるからです。実際にAPIからのデータを使って微調整することは技術的に許可されていないので、これについては議論しましたが、確かなことはわかりません。
フロンティア数学についてはどうですか？フロンティア数学も得意で、あまり多くのフロンティア数学が投げられていないと思いますが？
データセット汚染については本当に判断が難しいですね。ところで、オープンソースについて興味深いコメントをしました。言語モデルについては、何かをすぐに行えるベース言語モデルがどれだけ必要か、あるいは何か特定のことをするように微調整する実用性についての質問が常にあります。そして、現実世界で構築するほとんどのものには、非常に特定のことを行うように微調整する複雑なアーキテクチャを設定する必要があることがわかります。では、フロンティアモデルとLlamaのようなものの違いは何でしょうか？
現在、二つの世界があるように見えます。一つはOpenAIの夢で、これは絶対的なゼロショットで何でもでき、思考もできる一般知能です。もう一つは企業アプリを構築する現実で、多くの作業が必要で、かなり特注です。あなたはどちらの夢を信じていますか？
思考ができて、ゼロショットで物事を理解する一般言語モデルがあればいいと思います。開発者認識型の一般化ですが、多くの実際の経験に反しているように思えます。
それはクレイジーなことです。ベンチマークからベンチマークへとLLMに打ち負かされますが、それでも明らかに、私たちが一般知能と言うときに意味するものではありません。多くの面で驚くべきことができ、私が知っているほとんどの人間よりもスマートですが、一般知能のようには感じません。そして私が疑問に思うのは、数年後、すぐに打ち破られないベンチマークが見つからないが、それでも私たちが欲しい一般知能を持っていない世界に住むことが可能かどうかです。それが可能かどうか。
それは悲しいことになるでしょう。O3が出てきて、私たち全員がARCを解決しても実際には何の違いも生まれなかったという恐ろしい瞬間を持つと。
私が本当に更新したことは、Chat GPT Proを使っていて、それは本当に非現実的だということです。毎日使っていて、使うあらゆるものが以前のどのものよりも劇的に良いです。私たちは先ほど、知能の雰囲気を判断する方法はかなり相対的だと言っていました。だからそれはSonicが愚かに見えるようにしていて、それは狂気です。
何をするときに？
リストを挙げることができます。コードを生成するとき…例えば昨夜、誤ってChaletの目次を削除してしまいました。AnthropicのClaudeで生成しましたが、良くするためには手動で調整する必要がありました。そうしないとひどいです。Chat GPT Proでゼロショットで生成すると、今まで見た中で最高の目次を生成しました。他の理由で幻覚はありましたが、それについては話しましたが、幻覚した行を取り除くと、それは信じられないほど良かったです。
そして、言語モデルを使用する際には、問題をより小さなサブ問題に分割する必要があるという考え方を常に持っていました。なぜなら計算予算があり、できることには限りがあるからです。私たちは問題をどのように分割し、エンジニアリングを行うかについての直感を持っています。
Chat GPT Proは変動する計算量を持っているので、5つ、6つ、7つ、8つ、9つ、10のことを与えることができ、理にかなっていれば、それらすべてを実行し、終わったら結果を与えてくれます。これは以前の言語モデルからは見たことのない全く異なる振る舞いです。
Chat Proの基盤となるモデルは何ですか？
確かではありませんが、GPT-4Oモデルだと思います。そしてO3はOrionモデル、4.5または5モデルをベースにしていると推測しています。
Chat Proですが、モデルを選択するドロップダウンはなく、単に多くを得られるだけです？
それはO1 Proと言っています。はい、O1 Proです。驚くべきことは、キャラクターがどのように変わるかです。GPT-4Rは愚かなモデルだと思いますが、常に改善されているので最近は少し賢くなっています。しかしそれは本当に愚かなモデルで、そのスタイルが好きではありません。探求などが嫌いです。しかし単に愚かなモデルだと思います。
本当に私を驚かせるのは、この種の思考プロセスを行うことでモデルのキャラクターがどのように変わるかです。それは私たちが知っている同じものに基づいているにもかかわらず、キャラクター的に全く異なるモデルのように感じます。Llama 1ビリオンモデルに思考を追加することができ、それはLlama 8ビリオンモデルのように振る舞います。
O1とO1 Proの間にどれだけの違いを観察しますか？
絶対に巨大な違いです。それは驚くべきことです。なぜなら彼らはそれが単に計算量が多いだけの同じモデルだと言ったからです。
O1は考えたくありません。通常、1秒間だけ考え、推測ですが、人々をProにアップグレードさせるためにそうしていると思います。1〜2秒考えますが、Chat GPT Proは時々約12分考えることがあり、それはプログラミング時には実際にとても迷惑です。
ちなみに、プログラミングが上手である理由の一部は、APIを通じて使用できないからだと思います。だからCursorでは使用できません。Cursorでの失敗モードのほとんどはモデルの適用です。実際にコードを自分でとって手動でVS Codeに戻すよう強制されると、実際に機能します。なぜならCursorのモデル適用がそれを台無しにしていないからです。
もう一つは、Cursorのモデル適用が今は良くなっています。1秒あたり5,000トークンを処理する新しいバージョンに更新され、10回中2回程度しかコードを削除しなくなりました。
思考が長くなることと実際に良い出力の間の相関関係はどれほど観察されていますか？単に劣化し始める点はありますか？
相関関係に気づいていませんが、より多くの思考が良いということ以外には。ある種の…本当にわかりません。
ARCベンチマークが打ち破られても何も変わらないことに悲しくなると言いましたが、ASIベンチマークは何になると思いますか？人々が取り組む次のクールなものとしてすでに形成されているものはありますか？
一つ言いたいのは、フロンティア数学が打ち破られても何も変わらないなら悲しいということです。明らかに次の反復がすぐに出ます。他にも多くの興味深い問題があります。例えば、現在Kegleコンテストでは、AI数学オリンピアドがあります。そこでは32Bモデルまで使用でき、唯一の目標は数学の問題を得て正しい答えを出力することです。現在、トップスコアのモデルは50問中24〜25問を正しく解いています。これは良いですが、フロンティア数学ベンチマークには全く勝てないと思います。それ以外では、フロンティア数学ベンチマークは問題空間として非常に興味深いです。あるいはARC v3かもしれませんね。
正しいものをテストしているかどうかは推測するしかありません。テストが簡単だからそれらをテストしているだけです。ARCについては少し執着していますが、それは5年間破られなかったからです。これはクールですが、それが唯一のことだからです。しかし、それは正しいことをテストしているのでしょうか？
真のAGIベンチマークはモデルがインターネット上でお金を稼げるようにすることですが、それはそうでしょうか？それは単に他のモデルによってアービトラージされてしまうからです。
質問ですが、何が変わる可能性がありますか？ARCで行ったことから学んだことのうち、検証のための回転、木探索などで、実際に応用可能で他のことへの扉を開ける可能性があるものは何でしょうか？
多くの問題への直接的な応用は難しいですが、概念的なアイデアは多くの問題にうまく機能するはずです。それは厳密に問題に依存します。数学の問題をやるなら、質問を言い換えることができます。例えば、掛け算や計算を反転させて、それでも答えが同じかどうかをチェックすることで、数学空間でのオーグメンテーションを持つことができます。
他の人も尋ねましたが、DFSアプローチが数学や計算においても可能かどうか考えています。エンコーディングかもしれませんが、テストするのは興味深いでしょう。しかしそれは1対1の翻訳ではなく、機能させるためには作業が必要です。
ARCの後に多くを更新したと言いましたが、個人的なAGIの定義を更新しましたか？もしそれを持っているなら。
Chaletに同意して、それは新規性への適応、つまりスキル獲得効率だと思います。もちろん既存の知識と経験で正規化されています。この設定では、Chaletでさえそれが広い一般性を持っていると言うと思います。彼はデータセット汚染があると疑っていると思いますが、何らかの理由でそれを言いたくないのだと思います。
彼が新しいARC v2をドロップすると、スコアが大幅に下がると彼は疑っているようです。彼は既にスコアが30％程度に下がると言っています。
それが彼の考えだと思います。彼が実際にテストしたのかと思っていました。彼はまだアクセスを持っているのでしょうか？わかりません。
しかし、データセット汚染の問題は、フロンティアモデルを特定のテストセットでテストする最初の時点で、それで終わりです。データは漏れます。だから本当に一度しかチャンスがありません。彼はおそらく新しいARCタスクのセットを持っていて、初めてO3でテストすると、うまくいかないと思っていると思いますが、そうするとそれは失われてしまいます。これらのテストを作るのはとても高価です。
私の共同司会者のDr. Dgerは、ARCの再帰的に構成的なバージョンを作るべきだと考えています。つまり、生成的な特性を持つので、テストするたびに新規性を作り出すことができます。
あなたとKeは、O1が出たとき、推論についてのビデオを作りました。Lex Fredmanが出ていたものです。覚えていますか？そのビデオについての最大の不満の一つは、ゴールポストが常に移動しているということでした。ゴールポストはもはや超光速航路にあるとかいう良いジョークがありましたが、ゴールポストが移動し続けることは良いことだと思いますか？あるいは、もし5年前に戻って、今日私たちが持っているもの、つまり現在のChat GPTインターフェイスをそのまま人々に見せたら、ほとんどの人がそれはAGIだと同意すると思いますか？
多くの意味では、それは一種のAGIです。それはギザギザした形の知能です。非常にうまくできることがたくさんありますが、いくつかの大きな穴もあります。
O1モデルとのこの会話全体で、推論とは何かについてより考えるようになりました。私は推論について非常に二項的なバージョンを持っていたと思いますが、実際には言語モデルが行うことを推論の一形態と見なすことを受け入れるようになりました。推論には段階があります。より多くの一般化を行うほど、あなたのモデルはより穴だらけになります。計算回路が小さいほど、推論は強くなります。
彼らが推論しないと言うのは正しくないと思います。なぜなら彼らは明らかに推論しているからです。またSabaro Kahatiが話していることで、多くのシンボリックAIの人々がこの非常に純粋主義的な考え方を持っています。アリストテレスに戻るようなもので、論理的な三段論法など、ギリシャの推論だけが正当だというものです。
それには一理あると思います。世界を論理で考え、世界がある特定のルールに従うと考える人々がいて、それは正しいです。しかし、それが推論について考える唯一の方法ではありません。
それで締めくくりましょう。パネルに感謝します。