
4,988 文字

OpenAIがCodeexという彼らのエージェント型コーディング製品を発表しました。実際のコーディングエージェントは非常にユニークな感じがします。さらに、彼らはO3よりもコーディングに特化した後処理トレーニングを施したモデルをリリースしました。これらすべてについて解説していきます。
まず最初にインターフェースをお見せします。個人的にはこれが最もユニークな部分だと思います。とてもチャットPT的な感じがして、VSCodeのプラグインやVSCodeのフォークではありません。これはクラウドにネイティブに存在するものです。Devonにとても似た感じがします。
ここでGitHubリポジトリを接続します。そこに異なるブランチがあります。コードベースについて質問するか、コーディングのタスクを割り当てることができます。私が本当に気に入っているのは、他の多くのコーディングエージェントがまだ持っていない機能で、複数のエージェントが並行して外に出てコーディングすることです。
もちろん、これらのエージェントがすべて同じブランチで作業していると、潜在的な競合が発生する可能性がありますが、それがGitの存在理由です。タスクを起動するたびに、ここに表示されます。コンテナが起動していると表示されています。起動する各タスクは独自のコンテナを持ち、独自の環境を持ち、独自のキーを持ちます。
つまり、各タスクごとに本当に分離された環境として考えることができます。そして素晴らしいのは、各タスクは基本的にその環境での新しいスタートであることです。最初にコードをダウンロードし、最初にセットアップコマンドを実行します。ここではタスクが完了し、2分58秒作業したことがわかります。
すべては従来のChatGPTチャットインターフェースにあります。彼らがこれに新しい視点を取り入れたことを私は本当に評価しています。これは単なるコーディングではなく、従来のコーディングというよりも「バイブコーディング」と呼べるものです。このタスクは「このコードベースを保守しやすく、バグのないものにしたいです。コードを読んで、この目標達成に役立つタスクを提案してください」というものです。
ここに最初の提案「可変デフォルト引数を避ける」があり、修正しているコードセグメントが少し表示されています。下部では、変更をリクエストしたり、フォローアップの質問をしたりできることがわかります。基本的に、コーディングエージェントとバイブコーディングのやり取りをしています。そしてここに提案されたタスクがあります。
カーソルを合わせるだけで何が変更されるかがわかります。コードをクリックすると、実際にそれらの変更が行われます。ここにもう一つあります。最後のものでタスクを実際に編集するためにクリックすると、何をするかというタスクが表示されます。最後に何かを追加したり、好きなだけ編集したりして、そしてコードをクリックするだけです。
さて、次はCodeexのCLIを通して行われるのを見ていきます。同じように、タスクを説明し、ブランチを与えて、開始します。クリックすると、コンソールが表示されます。とても馴染みのある感じですが、もちろん左側にチャットインターフェースがあります。
ちょっと一時停止して、OpenAIのデザインがどれだけ進化してきたかを評価しましょう。彼らのデザインはとてもシンプルですが、物事を実行しているときに動作する小さなアニメーションアイコンを見てください。小さな人が周りを見回しているのが見え、それが従来のコードコンソールアイコンに変わります。このような小さなタッチを私は本当に評価しています。
このような長いタスクの終わりに、3分13秒考えたことがわかります。要約が得られ、右側にコードの差分が表示され、自動的に実行されたテストが表示されます。カーソルを合わせると、デバッグコードとともにテストステータスが表示されます。
これが変更されたすべてのファイルです。右上に「プッシュ」ボタンがあり、コードをGitHubにプッシュできます。
最初の感想をいくつか述べます。まず、彼らはO3をベースにした独自のカスタムモデルをこのために展開しました。Codeex Oneと呼ばれるこのモデルは、コーディングタスクに特に優れるようにエンドツーエンドの強化学習を使用しました。
彼らはライブストリームでこれを強調しました。ベンチマークに焦点を当てるのではなく、実世界のコーディングタスクに焦点を当てました。ライブストリームで言及されたもう一つのことは、実際のコーディングエージェント製品であるCodeexは、既存のモデルの一つをラッパーといくつかの足場で包むだけではないということです。
彼らは実際にそのコーディング環境に特化したモデルを開発しました。これはCursorやWindsurfのようなものに対する攻撃のように思えます。しかし、少しWindsurfについて話しましょう。彼らがWindsurfを30億ドルで買収したという噂が強く、ほぼ確認されています。そして同じ週に、彼らは独自のコーディングエージェント製品をリリースしています。
この戦略がどのように展開されるか興味深いところです。彼らは、彼らが提供する既存のモデルの一つの周りにエージェントをラップするようなコーディングフレームワークについてやや否定的に語りました。そして昨日、Windsurfが独自のモデルをリリースしました。とても興味深いです。
WindsurfはOpenAIに向かっています。OpenAIはWindsurfに向かっています。そしてWindsurfはOpenAIに買収されました。これがどのように展開されるか見てみましょう。
少し一時停止して、今日のビデオのスポンサーである素晴らしいAI製品、Recraftをご紹介します。Recraftはクリエイターやチームのために構築された素晴らしい画像生成・編集ツールです。
Recraftはデザインプロセス全体をコントロールでき、300万人のユーザーとNetflixやASAなどの企業のチームに使用されています。以前Recraftについて話しましたが、彼らは2つの真新しい機能を展開しています。無限スタイルライブラリとスタイルミキシングで、どちらも現在一般に公開されています。
無限スタイルライブラリでは、画像に簡単に適用できるさまざまなビジュアルスタイルを閲覧できます。フォトリアリズムからイラストレーションまで、テーマやオブジェクトで検索し、即座に適用できます。2つ目の機能であるスタイルミキシングでは、ユーザーは相対的な重みを調整するだけで複数のスタイルをブレンドできます。
これは画像をユニークにする本当にクールで創造的な方法です。これによりブランドの一貫性を保ちながら、完全にカスタマイズされたビジュアルが可能になります。今日からRecraftの新機能を試してみてください。視聴者の皆さんには任意のプランから11ドル割引を提供しています。コードMatthew 11を使用してください。リンクは説明欄に載せておきます。再びRecraftに感謝します。
では、ビデオに戻りましょう。Greg Brockmanがコーディングとエージェントの未来に関する彼のビジョンとOpenAIのビジョンを説明している部分を再生します。Greg BrockmanはOpenAIの共同創設者であることを覚えておいてください。これは魅力的なので聞いてみてください。
「Codeexの仕組みで本当に興奮することの一つは、非常に非人間的な長所と短所を持っていることです。つまり、専門知識を構築することなく、単に静的なツールとして使用するのではなく、もっと多くのものを得られるということです。しかし、実際にコードベースを最適化し始めると、正直なところ、Codeexが恩恵を受けるほとんどは、モジュール式のコードベースと優れたテストなどの優れたソフトウェアエンジニアリングの実践です。そうすれば、とても速く進めることができます。私たちはそれが社内のOpenAIの多くの人々に起こるのを見てきました。」
つまり、彼が言っているのは基本的に、プロダクションスケールのエンジニアがAIと協力し、AIの弱点と強みを学び、それを回避し、コードベースをその周りに設計するとき、これらのコーディングエージェントから最大の効果を得ることができるということです。これは本当に興味深く、私がしばらく話してきたことです。
コードベースのベストプラクティスが変わっていくと思います。コードベースが変わっていくと思います。プログラミング言語も変わっていくでしょう。なぜなら、より多くのコードがAIによって書かれることになり、AIが実際にそれを行うための言語を最適化する必要があるからです。
次に彼はCodex CLIで使用できるモデルのミニバージョンについて話し、コマンドラインインターフェースでローカルに使用し、ChatGPTでのサインインが近日中に提供されるとのことです。聞いてみましょう。
「私たちはまた、あなたのラップトップで実行されるローカルエージェントであるCodex CLIの開発を続けています。今日はミニモデルをリリースし、また、ChatGPTでのサインインをリリースして、簡単に使い始められるようにします。」
はい、彼はその発表をさらっと流しました。ChatGPTでのサインイン。これは大きな発表です。考えてみると、私たちが話してきた2つの異なる形式があります。一つはローカルな同期的なあなたのコンピュータ上のバージョン、もう一つはCodeexのような非同期のクラウド上で独自のコンピュータで実行されるものです。
そして未来はこれら2つのシステムが一緒になることだと彼らは考えています。それがWindsurf買収の理由です。Windsurfは完全にローカルです。Codeexはクラウド上にあります。彼は基本的に、そう、だから私たちは彼らを買収したのだというプレイブックを提供しています。これは競合する製品ではありません。私もそれには同意します。
コーディングエージェントをローカルであなたのコンピュータ上で使用し、すべてのファイルをローカルに保存するユースケースがあります。また、クラウドで行うユースケースもあります。両方の世界の最高のものを一緒に持ってくる会社が勝つでしょう。
Codeexはもちろん最初に最上位のユーザーにロールアウトされます。ChatGPT ProやEnterprise、Teamのユーザーには今日から、PlusとEduのサポートはまもなく提供されます。これは本当に興味深いです。タスクの完了は複雑さによって通常1〜30分かかります。
これは魅力的です。なぜなら、バイブコーディングでさえも、最も長いタスクは通常数分しかかからないからです。さて、いくつかのパフォーマンスベンチマークを見てみましょう。こちらはSWEBench Verifiedです。これは試行回数に対する精度で、Codeexは8回の試行でほぼ収束するまでO3 Highをあらゆる場面で上回っています。
こちらはOpenAI内部のスイートタスクで、O1 Highが11%、Codeex Oneが75%、O3 Highが70%、O4 Mini Highが67%です。つまり、彼らは本当に彼らのモデルファミリーの中で最高のコーディングモデルをトレーニングしました。もちろん、Gemini 2.5 Proと比較したいです。おそらくそれをやりましょう。
Codex Mini、Codeexモデルのミニバージョンは、APIを通じて利用可能で、入力トークン100万あたり1.50ドル、出力トークン100万あたり6ドル、75%のプロンプトキャッシング割引で価格設定されています。
以上です。あなたはどう思いますか?Windsurfと比べてどうですか?CursorやReplet、あるいは他の素晴らしいバイブコーディングツールと比較してどうですか?もしこのビデオを楽しんでいただけたなら、ぜひ「いいね」をし、購読を検討してください。
コメント