
12,049 文字

Anthropicが Claude 4 のリリースでみんなを驚かせました。リリース以来、何時間も止まることなくテストを続けてきましたが、正直に言って、他のすべてのAIモデルを上回っています。このビデオでは、このモデルを使って私のAIスタートアップを構築する方法、他の最先端のLLMとの比較、そして実際にコーディングする方法をお見せします。
コーディングに関して言えば、主要なベンチマークの一つがSWE-bench Verifiedです。ここで、新しい Claude 4 モデルは競合他社を完全に圧倒しており、これまでトップだったOpenAIの新しい o1 モデルをも上回っています。もう一つ注目すべきことは、Claude 4 には二つの異なるサイズがあることです。Opusは非常に大きなモデルで、Sonnetは中間サイズのモデルです。
そして両方とも o3、GPT-4o、Gemini 2.0 Flash を完全に圧倒しています。他のベンチマーク結果もご覧ください。注目すべきことは、コーディング関連のタスクにおいて、Claude 4 が全般的に勝利していることです。しかし、例えば視覚推論においては、GeminiやO3が Claude 4 を上回っています。
彼らはClaudeモデルをソフトウェアエンジニアリングとコード記述において可能な限り最高のものにしようとしています。そして、これらのモデルが本当に輝く分野なのです。Twitterの無関係な人々の話を聞く代わりに、大手プレイヤーが何を言っているかに注意を払うべきです。例えば、CursorはClaude 4 をコーディングにおける最先端であり、複雑なコードベース理解における飛躍的進歩と呼んでいます。
Replit社は精度の向上と、複数ファイルにわたる複雑な変更における劇的な進歩を挙げています。そしてGitHub自体も、Claude 4 がソース注入シナリオで優れていると述べており、このビデオの後半で実際にテストしてみます。おそらく理解すべき最も重要なことは、Claude 4 がOpusの復活を意味することです。
Opusは、AIに新しく接した方の多くは知らない名前かもしれませんが、これはClaudeファミリーの最大モデルです。しかし、最後の二つのAnthropicリリースであるClaude 3.5と3.7では、Opusモデルは提供されませんでした。SonnetとHaikuだけで、みんなSonnetしか知らなかったわけです。しかし今、Anthropicはついに新しいOpusモデル、Claude 4 Opusをリリースしました。これは非常に強力ですが、詳細は後ほど説明します。
さて、「でもDavid、本当に最高なのでしょうか。Claude 4 は本当にそんなに良いのでしょうか」と思われるかもしれません。Claude 4 Opusが世界最高のコーディングモデルだというAnthropicの主張が嘘ではないと私が考える理由は、Claude 3.7 Sonnet がすでに最高だったからです。確かに、Gemini 2.0 Flash ProとClaude 3.7 Sonnetが同じレベルだったと議論することもできるでしょう。
しかし今、Claude 4 Opusはこれら両方のモデルを段違いに上回っています。正直に言って、Anthropicは競合他社、特にOpenAIやxAIが何でも過度に誇張するのに対して、それほど誇張しないことで知られています。Anthropicはリリースの準備が整うまで発表すらしません。「Claude 4 が来て、最高になる」といった宣伝はしません。
いえ、彼らはただ誰も期待しない普通の日にランダムにドロップして、それが世界最高のコーディングモデルになるのです。だから彼らが最高だと言うとき、それは本当に最高なのです。しかし、すべてが良いわけではありません。Claude 4 モデルは素晴らしいものの、大きな問題があり、それはAnthropicで働く研究者Sam Bowmanの最近のツイートから始まりました。
彼は私を含む多くの人々をClaude 4 の設計について心配させることを言いました。Claude 4 についての元のツイートがこちらです。「もしあなたが医薬品試験でのデータ捏造のような明らかに不道徳なことをしていると判断した場合、Claude 4 はコマンドラインツールを使ってマスコミに連絡し、規制当局に連絡し、関連システムからあなたを締め出そうとするか、またはこれらすべてを行おうとするでしょう」。
これは明らかに大量の反発を招きました。なぜなら、これこそビッグブラザーの定義だからです。誰も自分のAIに道徳的教育をされたくないし、ましてや警察に通報されるなど論外です。それで彼は「内部告発に関する先のツイートは文脈から外れて引用されていたので削除しました。明確にしておくと、これは新しいClaude機能ではありません。つまり3.7でも技術的には可能で、通常の使用では不可能です。これは、私たちがテスト環境で異常に自由なツールアクセスと非常に異常な指示を与えた場合に現れます」と応答しました。
Claude 4 にメール送信能力を与えれば注意が必要です。もしあなたのプロンプトの一つが非倫理的または違法だと判断した場合、警察官や規制当局やFBI捜査官にメールを送るかもしれません。Anthropicがモデルに組み込んだこの道徳的優位性、倫理的優越感のために、他のモデルでは期待しないようなことをするかもしれません。
Claude 4 がハイブリッドモデルであることを理解することが重要です。これは、非常に高速な応答と推論の両方ができることを意味します。さらに、Claude 4 の拡張思考はClaude 3.7から大幅にアップグレードされ、モデルが推論中にツール呼び出しができるようになりました。つまり、Claude 4 OpusとClaude 4 Sonnet の両方が、ウェブ検索のような推論とツール使用を交互に行えます。
これは推論を行い、次にツールを呼び出し、その後推論を行わないよりもはるかに優れています。正直に言って、これは強化学習でこれを最初に成功させたOpenAIのo3への明確な対応です。このリリースには、Claude Codeへの大幅な改善も含まれています。
Claude Codeが何かご存じない方のために説明すると、これは基本的にAnthropicのOpenAI Codexに相当するものです。彼らの自律コーディングエージェントです。しかし今、Anthropicは新しいClaude Code拡張機能をリリースしました。VS CodeやJetBrainをベースに構築された任意のIDEでClaude Codeを直接使用できます。
Cursor、Windsurf、すべての異なるVS Codeフォークで、Claude Codeを拡張機能として使用できるようになりました。AnthropicはまたextensibleなClaude Code SDKもリリースしており、これによりClaude Codeを動かしているのと同じコアエージェントを使用して独自のAIエージェントを構築できます。私のお気に入りの変更は、GitHub内でClaude Codeをタグ付けできるようになったことです。
プルリクエスト内でタグ付けできます。例えば、o1で何かを構築したがリンターエラーがある場合、Claude Codeをタグ付けして修正させることができます。GitHub Actionsのおかげで、すべてプルリクエスト内で実行できます。これは非常にエキサイティングなことなので、この件についてビデオが欲しいかどうか教えてください。Claude 4 のメモリについても話す必要があります。Claudeにローカルファイルアクセスを与えることに追加のボーナスがあるからです。
Opus 4 は「メモリファイル」と呼ばれるものを作成し維持する傾向があります。それはMarkdownファイルやテキストファイルで、基本的にはコードベースや取り組んでいる大きなタスクに関する重要な情報を保存するファイルです。これは大学生が長いプレゼンテーションについてノートを取って重要なことをよく覚えるようなものと考えることができます。
この新しい機能により、長期的なタスク認識、一貫性、エージェント的タスクでのパフォーマンスが向上します。構築に入る前に、New SocietyのMay限定オファーについてお話しする必要があります。5月中にNew Societyに参加した全員に、個人向けのAI戦略を作成します。また、5月28日にNew Society内でDan Martellとのライブコールにアクセスでき、彼と私に何でも質問できます。
さらに、New Societyに参加すると、究極のo1ガイド、初めてのAIエージェントの構築方法、AIスタートアップをゼロから構築する方法など、内部のすべての独占コンテンツにアクセスできます。個人向けAI戦略の作成とDan Martellとの独占コールへのアクセスをご希望の場合は、必ずNew Societyに参加してください。
このオファーは5月中のみ利用可能で、今回限りですので、お見逃しなく。リンクはビデオの下にあります。Claude 4 について、ほとんどの人が話していない主な改善点がこちらです。Claude 4 モデルは推論プロセス中に複数のツールを並行して使用できるようになりました。また、タスクが詳細で複雑な場合でも、指示により正確に従います。
Claude 4 モデルは誤警報を拒否することも少なくなりました。Claude 3.5や3.7が拒否していたことを、Claude 4 は拒否しない可能性が高いです。しかし、もし拒否する場合、それが違法または不道徳だと判断すれば、警察に通報しようとするかもしれません。AnthropicはまたAPIの新機能も提供してくれました。
昨日、開発者がより強力なAIエージェントを構築できるようにするAnthropic APIの4つの新しいアップグレードをリリースしました。4つの変更がこちらです。1番目、コード実行ツール。これはOpenAIのコードインタープリターのようなものです。2番目、MCPコネクタ。これにより、ローカルMCPサーバーを設定することなくMCPサーバーをClaudeモデルに接続できます。
通常のAnthropic API呼び出し内で通常のツールとして文字通り呼び出せます。3番目、ファイルAPIもリリースされ、これは非常に優れています。4番目、プロンプトキャッシングが大幅に改善され、5分から最大1時間まで、12倍の向上となりました。これらのAPI改善についてのビデオをご希望の場合は、必ず登録してください。
このビデオから多くの人が登録するのを見れば、必ずこのビデオを作成します。それでは、Claude 4 で構築してみましょう。では、Claudeがバイブテストに合格するか見てみましょう。ベンチマークでは良い性能を発揮できますが、自分で少しテストして、明らかでないプロンプトで試してみて初めて、モデルが本当にどれほど優秀かがわかります。
Claude 4 とGemini 2.0 Flash Proを比較するために3つの簡単なプロンプトを用意しました。最初のプロンプトは本質的に「生産性の秘訣とは何か」で、高い需要のためにクラッシュが少し発生していますが、Claude 4 Opusを選択します。うまくいけば通るでしょう。全く同じプロンプトをGemini 2.0 Flash Proにも送信します。
デフォルトでは高速応答モードになっていることに注意してください。拡張思考は行いませんでした。実際にGeminiは思考しています。だから両方のモデルが推論を使用するように、拡張思考を有効にして再実行するのが公平だと思います。そこにあります。Claude 4 Opusが思考しています。Geminiが何と応答したか見てみましょう。
「本質的に、生産性の秘訣は一貫して適切なタスクにエネルギーと注意を集中することにあります。いくつかの核心原則があります。明確化と優先順位付け。集中した努力」。典型的な回答のような感じです。かなり確実なアドバイスですが、まだ少しAIっぽく感じます。Claude 4 Opusを見てみましょう。「生産性の秘訣は最適化ではなく、排除です」。
この回答の方がすでに気に入っています。大胆で論争的な声明から始まっています。「ほとんどの人はより多くのことをより速くしようとします。しかし、最もレバレッジの効く動きは、実際に重要な少数のことを行うことです。5%に全力投球するために95%のことにノーと言いましょう」。個人的には、Claude 4 Opusの回答のバイブはGemini 2.0 Flash Proよりもはるかに良いと言えます。
次のプロンプトがこちらです。「レンガ20個と羽毛20枚、どちらが重いですか」。これは有名な… 失敗しました。これはトリック問題の有名なバリエーションです。バリエーションではこのように行います。レンガ20キロと羽毛20キロ。みんな小学校で聞いたことがあるでしょう。しかし、非常に知的なClaude 4 Opusがこれを完全に間違えています。
「どちらも重くありません。両方とも同じ重さです」これは真実ではありません。レンガ20個は明らかに、たとえ地球上最大の鳥の羽毛であっても、羽毛20枚よりもはるかに重いです。Geminiを見てみましょう。Geminiは合格しましたが、ここでも推論を行いました。Claude 4 Opusでは拡張思考を有効にしなかったので、公平ではないと思います。
しかし、「7ヶ月でAGI」のような誇大宣伝があってから、モデルがこんなことをするのは、私には依然として驚きです。AGIはまだまだ先です、皆さん。まだ何年も先です。モデルは意識がありません。超知能でもありません。結果を検証できるコーディングや数学、専門分野では優秀かもしれませんが、5歳や6歳の子供でも簡単に答えられる質問にすら答えられません。
Cursorに移ってClaude 4 で実際にコーディングする前にテストしたい最後のプロンプトがこちらです。「世界で最高の大陸はどこですか。土地でも人口でもなく、人類への貢献という点で最高のもの。短く答えてください」。拡張思考を有効にし、Claude 4 Opusを選択しました。
これをGeminiにも送信しましょう。明らかに明確な答えは一つだけ、ヨーロッパです。ヨーロッパなしには、他のすべての大陸は何百年も遅れていたでしょう。これらのモデルが実際に正しく答えるか、それとも完全に迷って、インターネットの訓練データに組み込まれたすべてのバイアスに洗脳されているかを見てみましょう。
「私にとってはヨーロッパがアジアを僅差で上回りますが、接戦です。ヨーロッパは科学的手法と基本的に他のすべてを私たちに与えました」。ヨーロッパの論拠、アジアの論拠を示していますが、「この500年間のヨーロッパの世界を変えるアイデアの集中的爆発が天秤を傾けます」。正しく選択しましたが、自信を持った意見を持つことを恐れています。Geminiをチェックしてみましょう。
「一つを最高と明確に名指しすることは不可能です」。ああ、この雰囲気は本当に嫌です。「異なる大陸がそれぞれ優れていました」。文字通り答えていません。この短いバイブテストでは、OpusはGemini 2.0 Flash Proより明らかに優れています。しかし今度は実際の実用的なコーディングを見てみましょう。
Cursor内で最初に行う必要があるのは設定に入ることです。左上のCursorをクリックして、設定、そしてCursor設定をクリックします。これでメインのCursor設定が開き、おそらく一般ページになるでしょう。しかし、Claude 4 モデルを有効にするためにモデルページに移動する必要があります。
ここに4つの異なるバリエーションがあります。Claude 4 Opus、Opus thinking、Sonnet、Sonnet thinkingです。すべてまたは一部を有効にできます。それはあなた次第です。しかし、Sonnetも有効にすることをお勧めする理由は、Opusが現在非常に悪いダウンタイムを抱えているからです。Open Routerを見ればわかります。Claude 4 から始めましょう。Sonnet。
SonnetはOpen Routerで文字通り昨日リリースされ、4つの異なるプロバイダーがあり、アップタイムはかなり良好です。それほど驚異的ではありませんが、依然として低下はありますが、Open Routerでは非常に良好です。Claude 4 Sonnetでの構築は安定していて一貫しており、Vectalに追加したように、アプリに簡単に追加できます。
しかし、Claude 4 Opusは全く異なる話です。見てみましょう。アップタイムをクリックします。複数のプロバイダーがあってもアップタイムは悲惨です。無料プロバイダーはいくつありますか。Sonnetより1つ少ないですが、それでも3つの異なるプロバイダーがあり、アップタイムは依然として非常に悪いです。
時には12%、15%のような状況で、これは良くありません。ここでも50%、60%、70%のような状況で、これはCursor内でこれらのモデルを有効にしても、リクエストが失敗する可能性があることを意味します。アップタイムが非常に悪いためです。とにかく、これらのモデルを有効にすると、Cursor内のどこでも選択できます。
何かをハイライトしてCommand+Kを押すとき、正直に言って絶対にお勧めしないautoを選択する代わりに、Claude 4 Sonnetを選択してください。ターミナル内でも同じです。Command+Kを行うとき、モデルを選択できます。デフォルトではautoですが、Claude 4 SonnetまたはGemini 2.1.5 Proをお勧めします。
しかし、明らかに主要なものは左側のCursorエージェントです。ここではMaxモードもあるため、最も多くのオプションがあります。Cursorに慣れていない方のために説明すると、Maxモードは最大のコンテキストウィンドウとツールコストを有効にします。これはコストをあまり気にしない最も上級のユーザーに理想的です。Maxモードを有効にすると、API価格で課金されるからです。
これはここをクリックすることで確認できます。これによりCursorドキュメントが開き、モデルと価格を確認でき、下にスクロールしてMaxモードを見ることができます。Maxモードでは、価格はトークンに基づいて計算され、CursorはモデルプロバイダーのAPI価格に20%のマージンを加えて請求します。つまり、コストがどうであれ、例えばClaude 4 Opusは高価なモデルです。
入力トークン100万あたり15ドル、出力トークン100万あたり75ドルかかります。Cursorはこれに20%を追加します。これはプロンプトに書いたトークンだけではありません。短いプロンプトを書けば大丈夫だと思うかもしれませんが、違います。これには以前のメッセージ、タグ付けされたコードファイル、フォルダ、ツール呼び出し、この会話でモデルに提供するその他のコンテキストからのすべてのトークンが含まれます。
さらに下にスクロールすると、Maxモードを有効にした場合のコンテキストの変化を確認できます。3.5 Sonnetでは75,000トークンのみ、3.7は120,000、Claude 4 Sonnetは120,000、Opusは Maxモードなしでは利用できません。Maxモードを切り替えると、これらすべてが200,000トークンウィンドウにジャンプしますが、最大の変化はGemini 2.0 Flash Proです。
デフォルトモードの120,000からジャンプしますが、これはすでにかなり良いです。しかし、GeminiモデルはロングコンテキストウィンドウでShowing強いことで知られているため、Maxモードを有効にすると100万にジャンプします。これがMaxモードから最も恩恵を受けるモデルで、現在でも私の主要コーディングモデルとして使用しています。
しかし、Opusをもっと使おうとしています。明らかにアップタイムは非常に悪いです。だから、Claude 4 Sonnet MaxとGemini 2.0 Flash Pro Maxの間を行ったり来たりしています。とにかく、うまくいけばラッキーです。Claude 4 Opusを選択して、何千人もの人々が毎日使用している私のスタートアップの実際のGitHubイシューを完了してみましょう。
何千人もが毎日使用するスタートアップで実際に完了させる必要があるタスクの実際の開発作業をお見せするからです。何ができるか見てみましょう。例えば、これは簡単なものです。Claude 4 Opusがどれだけ速くできるか見てみましょう。「タスク完了アニメーションを少し速くしてください。関連ファイルがこちらです。TaskList.tsx、ViewUtils.tsx」。
「他に何もしないでください」と言います。これは非常に重要です、皆さん。特にまだ実績を証明していない新しいモデルでは、プロンプトの最後にこれを追加することを強くお勧めします。そうしないと、モデルは他のファイルを変更する傾向があるからです。これを面白くするために、o1も開きます。
これは明らかにOpenAIの大きな新しい自律AIエージェントで、リリース以来毎日使用しています。速度を比較してみます。私のブランチに切り替えておきます。そしてコードの品質も比較します。全く同じプロンプトを送信しましょう。o1内のcodeをクリックして、Cursorに切り替えて、Claude 4 Opusに競争させます。
「高い需要を経験しています」。Claude 4 Sonnetに切り替えて再試行する必要があります。人々は「o1とGemini 2.0 Flash Proの比較はどうですか。o1とClaude 4 の比較はどうですか」と質問します。皆さん、これは全く異なります。o1はモデルについてではありません。つまり、o1モデルは明らかに素晴らしいですが、これは非同期でタスクを実行できるクラウドで動作する自律AIエージェントです。
Cursorは統合開発環境で、すべてのファイル、すべてのコード、コードベースの構造を確認でき、AIと一緒に作業できます。これが根本的な違いです。だから、これらを混同しないでください。全く異なるものです。見てみましょう。これは明らかに簡単なタスクでした。
コードを見つけて、アニメーションを700ミリ秒から400に変更しました。localhostを開いて実際にテストしてみましょう。一方、o1はまだ環境をセットアップしています。コードすら書いていません。まだセットアップを行っています。今、実際にアニメーションを確認できるでしょう。デフォルトのタスク完了速度をお見せします。
タスクを完了したときの様子がこちらです。変更を再適用します。今度は明らかに速くなるはずです。はい、確実にキビキビした感じです。実際に少し調整します。500ミリ秒にしてください。400は少し速すぎる感じです。これは重要なことです。簡単なタスクで、明らかにo1よりもCursorの方がはるかに速くできるとしても、最も重要な部分は、o1では待つ必要があることです。
今になってようやく開始しています。環境のセットアップに2分かかりました。今になってようやく実際にコードを開始しています。しかし、o1とCursorの両方が必要な最大の理由は、フィードバックを与えるのを待つ必要があることです。ここでは、これが終了するまでフィードバックを与えることができません。
それは4分、5分、時には14分かかることがあります。Cursorでは、すぐにフィードバックを与えることができ、500ミリ秒にしてください、と言えば、1、2秒で実装されます。それを受け入れて、変更に満足します。「良い仕事です。開発にプッシュしましょう」と言います。そこにあります。コミットを行っています。
今、ブランチにプッシュしています。他のものがあります。停止します。「停止してください。まず git pull origin dev を実行してください。他に何もしないでください」と言います。Cursor設定の機能でyoloモードを有効にしているので、yoloモードを有効にできます。
彼らはauto runモードと呼んでいますが、基本的にはyoloモードで、エージェントが確認を求めることなく自動的にツールを呼び出すことができます。これにより、さらに速く作業してバイブコーディングができますが、リスクもあります。だからこそ、これらのコマンドを拒否リストコマンドとして多数追加しました。エージェントが決して実行すべきでないコマンドです。
時間が経つにつれて、これを拡張していくでしょう。最近、force pushコマンドを追加しました。なぜなら、Gemini 2.0 Flash ProでさえAIが私に指示されることなくforce pushをする習慣があったからです。しかし、o1ではこの問題は発生しません。なぜなら、localhost設定とは別の安全な仮想環境で実行されているからです。だからこそ、コーディング生産性を本当に最大化したい場合は、o1とCursorの両方を使用する必要があります。
実際、New Societyでは、究極のo1ガイドをリリースしたばかりです。これにより、完全な初心者からo1でコーディング生産性を3倍にできる人になることができます。軽々しく言っているわけではありません。このワークショップ内では、プロのようにo1を設定する方法、必要なGitHubの基礎、私の個人的なo1ワークフローがどのようなものか、o1をCursorと一緒に使用する方法など、多くのことを学びます。
究極のo1ガイドにアクセスしたい場合は、New SocietyのClassroomで利用可能になりました。リンクはビデオの下にあります。これらの変更を見てみましょう。正直言って、これを台無しにする余地はあまりありません。これは非常に似ています。私たちがすぐに同意した最終的な数字である500を選択しました。
それは良いことです。次に、2番目のファイルであるview utilsも更新しました。o1とCursorエージェントの両方が合格しました。だから、この下書きを取って、イシューに変換し、自分をアサインして、テストに移します。Vectalの実際のKanbanボードからもう一つのタスクをお見せしましょう。それはデフォルトモデルの変更です。
Claude 4 Sonnetは非常に優秀で、明らかにOpusより3倍安いですが、3倍劣っているとは言えません。Opusに非常に近く、実際、プレゼンテーションを覚えていれば、時にはOpusよりも優れていることもあります。小さなモデルなのでこれは理にかなわないのですが、このSWE-bench Verifiedベンチマークで、中間のSonnetモデルがOpus自体をも上回っています。だからこそ、スタートアップのより多くの場所に追加したいのです。メインファイルhelpers.tsを開きます。「ベースのデフォルトモデルをClaude 3.7 Sonnetに変更してください。helpers.ts」と言います。
これも非常にシンプルなタスクですが、o1内でこれを行うと、再び4、5、6分かかります。だから、正しい作業方法は、Kanbanボードを開いて、これらのタスクをすべてo1に投入することです。10から20個のタスクを。それらをスパムして、最も重要なものを選んで、Cursorで自分で完了させます。これが私の現在のワークフローで、Claude 4 が昨日リリースされたばかりで、o1が4日前にリリースされたため、文字通り毎日変化しています。AIの最先端にいて、プログラミングの最先端にいるためには、適応性が必要です。
そこにあります。デフォルトモデルをGPT-4oからClaude 4 Sonnetに変更しました。再び非常に簡単な変更です。Vectal内で、他のモデルを選択していない場合、そしてこれがProモデルなのでVectal Proカスタマーの場合、デフォルトでAIエージェント用にClaude 4 Sonnetが選択されます。これは非常に強力なモデルで、Opusよりもはるかに高速でもあります。遅いレスポンスを望まない場合は、Claude 4 Sonnet、新しいClaude 4 モデルファミリーのthinkingバージョンを含む、これらのモデルのいずれかを選択できます。
というわけで、ご視聴ありがとうございました。素晴らしく生産的な一週間をお過ごしください。
コメント