OpenAI o1とAnthropicのClaudeがコーディングと推論で対決

8,060 文字

Watch OpenAI o1 and Anthropic's Claude go head to head in coding and reasoning

In this fascinating discussion, Jakob and Chris put two cutting-edge AI models, Claude and O1, to the test. From procedu...

やあ皆さん、Feature Groupへようこそ。今日はo1とClaudeを対決させてみます。両方ともアップデートがあったので、定期的なプログラミングに戻って、これらのモデルを実際に試してみて、どのように機能しているのかを確認したいと思います。
コーディングタスクと推論タスクを与えてみましょう。誰が勝つのか楽しみですね。
ここでChatGPTとClaudeの両方を起動しました。左側がCHで、o1 reasoning modelを選択しています。そして最新バージョンのClaude 3.5 Sonetと比較します。これまで何百ものバージョンがありましたが、このバージョンもかなり優れているとされています。
最初のテストはコーディングテストです。元のo1テスト動画へのプラグインですが、ここでもう一度実行してみましょう。課題は手続き的に生成された惑星を作ることです。モデルが非常に優れているため、最先端のモデルのほとんどが簡単な手続き的惑星生成を行えることから、私たちは雲や惑星の回転、水、照明など多くの要件を含む長いプロンプトを用意しました。
ここでの本当のテストは、3jsで何かを実装できるかを見ることではありません。両方のモデルがそれを行えることは分かっています。1回で非常に複雑な要件をどこまで実現できるかを見るのが目的です。
両方を開始してみましょう。待って、1秒考えさせてください。参照実装の最適化について考えています。そしてA1もまだ生成中です。1秒は短いですが、以前このような問題でo1がより長く考えるのを見てきました。
うわ、すでに表示していますね。これはキャンバスですね。キャンバスが表示されています。面白いですね。そして公開ボタンもあり、コードをダウンロードできるようです。すごく印象的です。
雲は欠けていますが、スライダーは機能するのでしょうか？地形の高さを調整してみましょう。回転速度があるようですね。スムージングもあるようです。カメラのリセットもできます。残念ながら手動での調整はできないようです。大気は確かに変ですね。赤道のような、垂直な赤道を持っているようです。光は動いていませんが、それは問題ありません。
JSfiddleで問題があったので、o1が作成したものを取り込んで、今は空白ページになっているようです。Claudeと同じように、地形とバイオームで同じようなことを行ったようです。両方とも要件のリストを取り込んで、スライダーを追加しようとしましたが、Claudeは1回で実装できたことは評価に値します。ただし、おそらくライブラリを使用していると思われます。
以前見たように、o1は時々間違った参照を持つことがありますが、Claudeは最初のショットで良い結果を出しました。o1のバリアントをすぐに修正できるか試してみて、生成したコードについて2、3の追加質問をして、推論できるか確認してみましょう。
いつものように、o1の最初の実行では – これは6ヶ月前に訓練されたと思いますが – 3jsライブラリに変更があり、Anthropicの方がそれらの更新により対応できているようです。CDNのバージョンを指定すると、実際の試みを見ることができます。
2つを比較すると、両方ともパーリンノイズによる凸凹した惑星のアイデアが見られます。そして実際に異なる機能を実装できたようです。左側の水については何が起きているのかよく分かりませんが、大気はほとんど試みられていませんでした。照明を変更しようとすると…ああ、変わっていますね。
大気は両方とも苦戦しましたが、この点についてはClaudeに軍配が上がるかもしれません。バイオームの閾値を調整してみると…実際に異なるバイオームが見えますね。海岸線に沿って異なる色が見え、惑星の異なる部分で異なる緑が見えます。これがバイオームの境界のように見えます。
Claudeのバージョンではバイオームが見えません。回転速度は両方とも実装できています。興味深いのは、o1の水に視覚的なグリッチがあるものの、実際に深さが見え、水を通して見ることができる点です。一方、Claudeの試みでは、惑星は単一のメッシュで色付けされているようです。
また、o1の照明の方が優れていることも指摘すべきですね。o1は球体の外側から照明を当てていますが、Claudeは光を放射しているようです。惑星が回転すると光も一緒に動くためです。太陽や星からの光であれば、光は同じ位置に留まり、それに面している惑星の側面を照らすはずです。
両方とも大気と水に苦戦したようなので、両方にこれらを修正するように依頼し、現在の状態のスクリーンショットを提供して、問題をどの程度改善できるか見てみましょう。
最初のショットの勝者を決める前に、他に何か気づいたことはありますか？それとも準備はできていますか？
まあ、Claudeの方がCDNの更新に対応していて、1回で動作したという事実は、ほとんどの人にとってより印象的だと思います。o1の方を修正するには技術的な知識が必要で、それはOpenAIの問題というわけではなく、すべてのツールに共通する問題ですが、正直なところ、ほとんどの人は何かが動作することの方が、見た目は良いけれど調整が必要なものよりも印象的だと感じるでしょう。
なので、最初のショットではClaudeに軍配が上がると思います。デザインの観点からも、Claudeの方がアプローチが優れていますね。JSを開いたりVisual Studioコードを開いたりする必要がなく、内部的に表示できます。
しかし、DEの観点からも言えることがあります。もし私たちが継続的に反復して、o1が改善されていくなら、これは単なるおもちゃの例かもしれません。1回限りの大きなショットを与えて、実際にはo1の知性がより発揮されるかもしれません。
私は反対意見を述べようと思っていました。o1のバージョンの方がより成功的なものを構築したように見えます。バイオームがあり、水もあり、大気にはまだ至っていませんが、これを元に何か良いものを作ろうとするなら、o1のバージョンから始めたいと思います。
その通りですね。次のショットでどうなるか見てみましょう。これを構築したという事実は、次のショットでさらに進展があり、突然「はい、できました」となれば、実際の知性が必要かもしれません。パッケージングは良くなくても、AIで約束されているのは知性であり、それに重点を置くべきかもしれません。
その通りです。素晴らしいですね。最初の試みのスクリーンショットを撮り、フォローアップのプロンプトを与えました。両方に大気と水の問題を修正し、可能であれば雲を追加するように依頼しています。これは大きな要求で難しいタスクなので、少なくとも1つのモデルから印象的な結果が見られることを期待しています。
興味深いですね。最初に気付くのは、このモデルがかなり深く考えているということです。直感的にこれは理解できます。なぜなら、要求は小さいように見えても実際には難しいからです。今見ているものを理解し、変更を加える方法を理解する必要があります。
Claudeはすぐに取り掛かりましたが、25秒ほど考えました。これは印象的です。o1では以前、この問題について3分ほど考えることもありました。以前のo1 Pro動画をチェックしてみてください。実際に考えられたという事実は素晴らしいことです。
右側では、Claudeが速すぎて全てを壊してしまったようです。回転はしているようですが…スライダーを試してみましょう。地形が低すぎるのかもしれません。大気の試みは少し良くなっているように見えますね。大気の強度を下げてみましょうか？上げるか下げるか…
雲の被覆率を上げられますか？ああ、雲の被覆率が100%か0%のどちらかしかないようです。霧ですね。まあ、ノースウェストシミュレーターみたいですね。
興味深いのは、大気の実装方法です。後で実際に何をしたのか見てみたいと思います。明るい帯を描画しているように見えますが、確かではありません。注目すべきは、すでにかなり難しいプロンプトを与えて、それをこなしたにもかかわらず、さらに要求を追加したところで、Claudeが少し崩れ始めたということです。
Oシリーズのモデルで気付いたことの1つは、多くのコンテキストを処理し、これらの難しい問題を解決し、そして本当に長い一貫したファイルを出力する能力です。25秒の思考を見て、今o1からの応答があります。
どうでしょうか。まだ奇妙なバグの問題がありますが、確かに試みています。下には他の種類のものが見えます。ズームはかなり印象的ですね。これが大気でしょうか？大気を0.4から1に上げてみましょう。ドラッグが止まらないので難しいですね。
しかし、動作する惑星を維持できたのは素晴らしいことです。バイオームの閾値を見ると、ドラッグすると確かにバイオームが変化しているのが分かります。どちらのモデルも大気のような本当に難しい問題では成功していません。これらについては完全なYouTubeシリーズがあるほどです。
あまり厳しく判断はしませんが、私の見解では、o1は大気の問題を修正できなかったものの、動作するものを維持し、元の要件をより多く実装しました。右側ではバイオームの試みさえありませんでした。なので、最初のショットで印象的な要素があったにもかかわらず、o1を勝者とすることに躊躇はありません。
話している間に、Claudeはデモに偏っているように見えますね。キャンバスでバージョン1と2を切り替えられるかもしれないし、ブラウザでコードを表示する方法も考えられています。しかし、先ほど言ったように、モデルからの実際の知性は前進するために必要になるでしょう。
OpenAIは「はい、コードをレンダリングできません」と言うかもしれませんし、もちろんキャンバスも持っていますが、これらのモデルがどのように考えるかについてより考えることは重要です。20秒かけて全ての情報を取り込むのを見ましたが、それは些細ではない問題に対してはるかに有用に見えます。
ただ何かを行って、実際に作業しようとすると何もできないというのではなく、o1はここで勝利を収めたように見えます。これらを処理して実際に有用なことができるという点で。上限を見たい場合は、o1 Proモードの動画をチェックしてください。同じプロンプトを与えたところ、実際に雲を試み、静的ではない水を実装しました。
これらの難しい問題について、本当に進展が見られます。世界の理解について常に話していますが、これは世界の理解の異なるレベルで、実際に世界を構築できるということです。両方とも非常に印象的でした。
コーディングにおいて印象的なパフォーマンスでしたね。コメントでどちらがより優れたコーディングモデルかについて議論があることでしょうが、重要なポイントは進歩が起きているということです。以前のテストを見れば分かりますが、両方とも3ヶ月前の直接の前身よりもはるかに優れています。
良いコーディングモデルができたら、実世界の問題を解決するためにそれらを活用する必要があります。このような状況で最も重要な推論の種類の1つは、モデルがエージェントとして推論できるかということです。目標を理解し、世界の状態を理解し、望ましい結果が得られるまで問題に取り組むことができるかということです。
これをテストする最良の方法の1つ、チャンネルで使用しているものの1つが「ロンドンの塔」と呼ばれるものです。簡単に説明しましょう。これはロンドンの塔のセットアップを簡略化して表現したものです。文字でラベル付けされたペグがあり、色付きの丸い円盤があり、それらがペグに置かれています。開始状態と目標状態があり、ペグを1つずつ移動して目標状態に到達する必要があります。明らかに、赤い円盤が上から外れるまで緑の円盤は動かせません。そのようなルールや相互作用を理解する必要があります。
合法的な移動を行い、その合法的な移動の連続が目標の配置で終わる必要があります。簡単なテストに見えますが、以前の動画を見返してみると、ネタバレを避けますが、最近まで、モデルはこれに多くの苦労を重ねてきました。問題のルールを理解することさえ困難でした。ルールは訓練データに含まれていたにもかかわらずです。
ルールを再述することはできましたが、実際にそれらのルールを実践に移すことはすぐに崩壊してしまいました。しかし、今は少し状況が変わってきています。このテストを実行して、どれだけうまくできるか見てみましょう。もし両方がこの小さなバージョンでうまくいけば、より難しいバージョンを与えて、それにどう対処できるか見ることができます。
開始状態と目標状態の画像を両方に送り、さらにテキストでそれを説明し、ルールを記述した長いプロンプトも用意しました。全て公平な立場で始められるようにするためです。
では、開始しましょう。Claudeがすぐに応答を書き始めました。Claudeが何をしたのか見てみましょう。このフリーボードで追跡できます。皆さんが視覚的に理解できるようにします。
開始配置を正しく理解しているか確認しましょう。ペグAは空、緑が底、赤が上、青が…それは正しいですね。目標配置では、緑が底、青が上、赤が中間にあり…これも正しいです。
解決に移ると、最初の手順は青をペグCからAに移動すると言っています。興味深い最初の手順ですね。BからCに赤を移動し、BからAに緑を移動し、CからBに赤を移動し、ペグAの緑の上に青を移動…
これが私たちが話していたことです。非推論モデルでは、ルールを正しく理解し、単純なケースでも正しい移動を行うのを見たことがありません。比較のために、o1が何をしたか見てみましょう。
4手の簡潔な解決策があると言っています。確認してみましょう。o1では、最初の手順は青の上にBからCに赤を移動します。次にBからAに緑を移動し、CからBに赤を移動し、CからAに青を移動…正解です！4手のバージョンがあり、私たちはClaudeの5手を価値があるものと考えていましたが、今や明らかです。
エージェント的推論という点で、私は確信を持って言えますが、Oシリーズのような推論モデルは本当に一段階進歩しています。実際、アーキテクチャがすべてかもしれません。論文や人々が話題にしていましたが、このステップの変化は確かにアーキテクチャの変更があったことを示しています。
チェスのルールを知っていても、実際にチェスをプレイするのは別物です。はるかに多くのことを精神状態として保持する必要があります。同じことがこれらのモデルにも当てはまります。ロンドンの塔テストを繰り返し、ペグを動かすことは知っていても、実際に行う段階でClaudeの場合、全てに到達しようとして、その一部を無視してしまいます。
これらの推論モデルは、それを守り通し、21秒考えたと言っています。おそらく「これをすると別のことができなくなる」と考えたのでしょう。重要なポイントは、ここで示したのはロンドンの塔の問題の非常に単純なケースだということです。
このケースはとても単純なので、訓練データのどこかにある可能性がありますが、o1 proの動画をチェックすれば分かりますが、単純なケースで完璧にパスしていたので、ペグと円盤を追加しました。10手の解決策で、確実に訓練データにはないものでしたが、それを推論し、解決し、一貫性を保つことができました。
o1は素晴らしい推論者で、o1 Proはさらに優れています。しかしこの領域では、ある意味で最も重要な領域ですが、私の意見では明らかにClaudeを上回っています。Anthropicは本当に彼らの推論モデルを出す必要があります。
その通りです。今年は推論者やエージェントの年になるでしょう。Claudeがどう対応するか非常に興味深いところですが、また公平を期すために、Claudeが示した進歩は、この最新モデルでもかなり印象的です。これは彼らが出した最新モデルですよね。3.1、3.5でしたか、別のProバリアントでしょうか？
正直なところ、彼らについて言うのは難しいです。彼らは常にモデルを変更していますが、長い間モデル名を変更していません。Sonetのやや大きなバージョンがあると思いますが、現在のSonetのバージョンほど最新ではないと思います。これはAnthropicの良いモデルですが、完全には追いつけませんでした。
これはAnthropicユーザーが使用する主要なモデルですよね。まあ、これは公平な比較を目指したものです。Proを使うのは少し不公平に感じます。コンピューティングリソースの面でもはるかに高価ですから。しかし、これはまた、アーキテクチャの変更と推論モデルを持つことが、これらの領域でのより良いパフォーマンスにつながることを示しています。
公平に言えば、Claudeは最初のトークンが速かったのですが、答えが間違っていれば、それはそれほど重要なことでしょうか？要約が必要で、迅速で十分に良い結果が欲しい場合もあるかもしれません。将来的には異なるルーティングを見ることになるかもしれません。
推論モデルがこのようなことを行い、その後、別のモデルにオフロードして、トークンやコスト効率の良い何かを書き出したり行ったりするかもしれません。遠い将来、方向性としては、o1 APIには思考時間のようなパラメータがあります。GPTシリーズモデルのような通常のTransformerモデル、チャットモデルが扱える多くのことを扱えるo1のバージョンがあれば、簡単な問題には思考時間をゼロにして渡すことができます。
これが向かう方向だと思いますが、そこに到達するまでにどれくらい時間がかかるかは分かりません。チャットシリーズには多くのものが組み込まれていますから。JSONの理解と生成能力、関数を呼び出す能力など、推論者をそのレベルまで引き上げる必要があります。
それができるまでは、Dylanが言うように、ルーティングが必要です。ここでは明確な違いが見られました。Claudeを完全に否定するわけではありませんが、o1は本当にどれだけ進歩したかを示しました。
印象的なものでした。明らかに私たちはo1シリーズのモデルの大ファンですが、o1プレビューは最初は期待はずれでしたが、大きく挽回しました。しかし、これはAnthropicへの否定ではありません。彼らは素晴らしいモデルを持っています。コーディングタスクでは推論モデルとほぼ同等に追いつくことができました。
最初のレッグ、つまりコードを書くことは全体的に非常に良かったです。そして、これを何か超能力のあるエージェントシステムに変えるにはどうすればよいか、OpenAIの方がより強く推し進めているように見えます。Anthropicがこのレースに参入するのも長くはないでしょう。そうなれば、必ずビデオを出して、テストを行います。
その間、他のテストを見たい場合は、ぜひ教えてください。DeepSeekもありますし、Microsoftからの新しい推論調整されたSLMもあります。o1ミニと比較することもできます。多くのアイデアがあり、試すべきことがたくさんあります。コメントで何を見たいか教えてください。
チャンネルの成長に役立つので、気に入ったらいいねやサブスクライブをお願いします。Dylan、何か付け加えることは？
ないです。皆さん、ご視聴ありがとうございました。また次回お会いしましょう。