
8,910 文字

AIの戦争が激化しており、その恩恵を受けるのはあなたです。Open AIとAnthropicが今、誰も予想していなかった新しいAIを発表しました。ベンチマークを粉砕するハイブリッド推論モデルです。
皆さん、こんにちは。今日、AnthropicがついにAIの新モデルであるClaude 3.7 Sonnetを発表しました。今日はみなさんとこれを分析できることをとても嬉しく思います。このアップデートには多くの発見があります。なぜなら、これは単なるLLMではなく、ベンチマークで記録を更新した新しいハイブリッド推論モデルだからです。昨日、私は二重思考システム、つまり二重のAIを持つFigureの新しいロボットについての動画を作成しましたが、今日はAnthropicも同様のアプローチを取っていることがわかります。
始める前に、この動画が気に入ったら、チャンネル支援のためにぜひチャンネル登録をお願いします。このチャンネルでは毎日このような情報を提供しています。
それでは詳しく見ていく前に、現在私たちは真のAI競争の真っ只中にいることを理解しておく必要があります。トップの座を争う3つの主要企業があります。一方には、長い間市場を支配してきたChatGPTの最新アップデートを持つOpenAIがあります。もう一方には、発売時に文字通りすべてを打ち破ったXAIの新しいGrok 3があります。正直に言うと、現在私はGrok 3を常用しています。その速さ、精度、そして何ができるかという点で非常に感心しています。AIアップデートがこれほど私を興奮させたのは久しぶりです。特にDeep Searchは私が常に使用している機能です。これについての新しい動画を作るかもしれません。
これら2つの素晴らしいモデルがありますが、一つの企業が不在でした。それはAnthropicです。彼らは人気のAIモデルであるClaudeを開発している会社です。そして今、Claude 3.7が大きなアップデートとともに登場し、遅れを取り戻そうとしています。
もちろん、Anthropicはアプローチを磨くのに時間をかけました。予想に反して、Claudeは技術的な側面で遅れていたわけではなく、むしろユーザー体験とアクセシビリティの面で遅れていました。この新しいAI、Claude 3.7 Sonnetと特にそのハイブリッド思考システムにより、Anthropicは遅れを取り戻すだけでなく、コーディングやエージェント機能、そして明らかに彼らに有利なベンチマークのような特定の分野で競合他社を上回る可能性があると感じられます。
この3社による競争の面白い点は、各社が生成AIについての独自のビジョンを持っていることです。各モデルにはそれぞれの強みと弱みがあり、個人的には3つすべてを使用しています。単に異なるタスクに異なるモデルを使用しているだけです。例えば、創造的なタスクにはClaudeを使用するので、このアップデートは歓迎すべきものです。思考とコーディングにはO3が結構良いです。情報検索、構造化、整理にはGrok 3が本当にゲームチェンジャーであり、コーディングでもGrok 3は非常に印象的です。
ユーザーとして、Claudeが前進することを喜ぶべきでしょう。発表内容を見ると、「今日、私たちは最も知的なモデルであるClaude 3.7 Sonnetを発表します。市場初のハイブリッド推論モデルです」と書かれています。さらに、Claude 3.7 Sonnetは「ほぼ瞬時に応答を生成するか、あるいはユーザーに可視化されるステップバイステップの推論を行うことができる」と記されています。APIユーザーはモデルが思考する時間を精密に制御することもできます。
そして彼らは、本質的に私がすぐに説明する思考システム1と2に対応するこのハイブリッド推論について説明しています。さらに、彼らは市場の他のAIとは異なるアプローチでClaude 3.7 Sonnetを作成した方法を説明しています。
例を挙げてこのモデルの説明を始めましょう。時に、「今日の天気は?」のような単純な質問にすぐに答えることがあります。また、複雑な問題に深く考えることもあります。そしてこれがまさにClaudeがここで行うことです。他の企業が今日行っていることとは対照的に、Claudeは両方を同時に行うことができる単一のモデルを使用しています。
ご存知のように、他の企業はモデルを分けています。例えば、ChatGPTではドロップダウンリストから様々な機能のための複数のモデルを選択できます。素早い回答や創造的な質問には4Oを使用し、数学やコーディングの質問にはO3を使用するなどです。しかしここでAnthropicは、すべてを変更し、どのモデルに送るかを自分で考える単一のモデルに移行することを選びました。
これについては、ChatGPT 5が潜在的にこのようになるというSam Altmanの発表を分析した時に少し話しましたが、それはまた後で触れます。しかし、今Claude 3.7がこれを実現したことで、私たち利用者にとって、より自然で流動的な体験が得られるようになりました。
理解いただけたと思いますが、AIは人間のように質問の複雑さに応じて自動的に適応するようになりました。そして彼らはシステム1とシステム2を作成して、これを人間と並行させたと説明しています。システム1は直感や本能のようなものです。これは神経系のように機能する、ほぼ瞬時に応答できる非常に小さなAIモデルです。そしてシステム2はずっと遅く、より論理的です。これは考える方のシステムで、脳のようなものです。数学の問題に答える必要がある時のようです。
昨日のFigureのロボットに関する動画を見た方は何を言っているか分かると思いますが、2つの企業が同じシステムをAI作成のために別々に開発したことは驚きです。Anthropicとfigureが私たちが気づかないうちに議論していた可能性があるでしょうか?Figureが最近OpenAIを離れたことを考えると、Claudeが最新のFigureロボット、つまりELXに何か関係している可能性があります。
私が待ち望んでいた非常に重要なポイントは、モデルの思考時間を制御できるようになったことです。これを本番環境で使用している場合、予算も管理できます。開発者として、このモデルのカスタマイズを検討している場合、モデルの思考時間を選択できるようになりました。基本的に、モデルがどれだけ考えるかを決めるのはあなた自身です。
これは本当に貴重なことだと思います。なぜなら、AIモデルをより適切に制御し、モデルがその問題について考える時間を設定できるからです。他の思考モデルで気づいたこと、そしてあなたも使っていればおそらく気づいているでしょうが、時々モデルは問題について10秒ほど考えるだけで、私たちはもっと長く、例えば100秒や200秒考えてほしいと思うことがあります。モデルがそのように素早く回答してしまうと、もっと考え抜かれた回答が欲しかったため少し不満を感じることがあります。
そこでClaudeはモデルの思考時間を選ぶ機能を導入しました。これは非常に強力であり、本当に役立ちます。正直に言うと、APIを通じてClaudeを使うことが多いので、このアップデートは歓迎すべきものです。
有名なベンチマークについてもすぐに触れますが、まず標準モードの新しいClaude 3.7と比較すると、新しいClaudeは基本的に前のバージョン3.5よりもずっと賢くなっています。このバージョンでは、パフォーマンスを向上させるためにより長く考える深い思考モードを有効にすることができます。
重要なのは、プロンプトが両方のモードで同じように、または同様に機能するということです。つまり、Claude Sonnetで動作していた保存済みのプロンプトがある方は、新しいClaudeでも同様に機能する可能性が高いです。いくつか試してみましたが、確かにモデルは同じように反応し、以前よりも良くなっています。モデルは私の期待通りに応答しますが、以前よりも良くなっています。そのため、プロンプト側に変更はありません。
私が本当に興味深いと思い、AI企業の一つがこれを行ったことを嬉しく思うのは、彼らがモデル開発において数学や情報科学の競争問題のためにモデルを最適化することを減らし、代わりに企業が実際にLLMをどのように使用しているかをより反映した現実世界のタスクに注目を移したと述べていることです。
簡単に言えば、このモデルをトレーニングする際、彼らが目指したのはベンチマークで驚異的なスコアを出すことではなく(今日すべての企業が目指していることですが)、日常生活の具体的なアプリケーションを持つことでした。これは本当に変化をもたらす可能性があります。
私たちはしばしば企業が日常的に使用されない分野のベンチマークに集中し、obsession(強迫観念)を持っているのを見ます。後でこの新しいモデルのベンチマークを見ると、ベンチマークはもちろん依然として非常に印象的ですが、これらの分野の多くは直接商業的な世界的利用に変換されず、平均的な人が使用して現実世界で価値を引き出すことができないものです。
私の意見では、これがClaudeが創造的なタスクなどで伝統的にChatGPTやその競合他社よりもユーザーに良く見られている理由だと思います。なぜなら、彼らは実際に日常生活の現実世界のタスクで優れたパフォーマンスを発揮するようにモデルをトレーニングしており、とにかくあなたや私が毎日解決する必要のない高度な数学の問題や競争問題にはあまり力を入れていないからです。
これがClaude 3.7 Sonnetのベンチマークです。基本的に、Claudeは他の企業を圧倒しているわけではありませんが、優れていることがわかります。先ほど言及したように、Grok 3 Betaのリリースが非常に最近あり、すでにClaudeがそれを上回っていることがわかります。それは1週間も経たずに終わりました。正直なところ、彼らがどのようにこれを達成したのかわかりませんが、多くのベンチマークで、この新しいモデルでトップに立っています。これは正直なところ少し驚きです。
しかし、一つ注意点を述べておきたいと思います。私はそれにもかかわらず、Grok 3をまだ優れていると思っています。Claude 3.7を日常的なタスクのために深く試す機会がありましたが、正直に言って、Grok 3は私がClaudeやChatGPTに決してできなかったことをまだうまくこなすと思います。
とは言え、私はChatGPT、Claude、Grokを同じように使っていますので、Claudeのこのアップデートは私がすでにClaudeを使用していた最も創造的なタスクを大幅に改善します。多くテストしましたが、もちろんこの新しいモデルの能力をさらに掘り下げる必要があります。例えば、エージェントコーディングでの優れた点について、エージェント向けにどのように動作するか確認したいと思います。
こちらは別のベンチマーク、有名なGPQAです。Claudeが再びGrok 3 Betaを上回っているのがわかり、これも驚きです。
Cloud、Grok、そしてChatGPTが進化する指数関数的なスピードを観察して、取り残されたくないなら、あなたのために特別なものを開発しました。人工知能のエコシステムに直接飛び込むことができる、非常にアクセスしやすいトレーニングを作成しました。実用的で効果的、そして何よりも手頃な価格です。先ほど見たClaude 3.7のように、複雑なタスクを自動化するためにこれらの推論モデルを活用する方法を紹介しています。
なぜ価格がこれほど低いのかという質問をたくさん受けますが、よく言いますが繰り返します。それは、何百、時には何千ユーロもの費用をかけずにAIを学ぶことができるようにしたいからです。AIに関するトレーニングで過大価格なものが多すぎますが、この知識は誰にとっても手頃な価格であるべきです。すでに700人以上の参加者がおり、フィードバックは本当に驚くべきものです。サポートに感謝しますが、これもまた、すべての人にとって手頃な価格を維持したい理由です。
生徒からのフィードバックを見ると、本当に継続する動機になり、日常生活でAIの使い方を教えることが正しい選択だったと思います。
あなたがプロセスを自動化したり、補完的な収入を生み出したり、あるいは単にこの新しい技術革命の最前線に留まるためにAIをマスターしたいと常に望んでいたなら、今がその時です。正直に言って、数ヶ月後には、Claude 3.7のようなハイブリッド推論モデルを活用する方法を知っている人々は、他の人に対して決定的な競争上の優位性を持つでしょう。
いずれにせよ、すべてのリンクはこの動画の下にあるピン留めされたコメントにあります。このチャンスを逃さないでください。これは一度だけ起こる種類の瞬間です。
さて、Claude 3.7の分析に戻りましょう。これは興味深いモデルであり、AIコミュニティで見られるツイートからは、おそらく多くのユーザーが自然に移行するモデルになるでしょう。Grok 3やChatGPTの新しいアップデートが出る前に、すでに多くの人がClaudeを使用していたことを考えると、このモデルの推論能力が不足することになっても驚きません。
これら2つのモデルがリリースされたとき、多くの人々はAnthropicを去り、Claudeを使わなくなりました。なぜなら、Claudeは私たちに何も新しいものを提供していなかったからです。しかし今、彼らは戻ってきたようです。
将来は本当にエキサイティングです。Claudeのコーディング能力について疑問を持っている場合、次の内容は非常に興味深いでしょう。
これは基本的に、私たちが見たことのない新しいエージェントコーディングツールを紹介するビデオです。これはターミナルで直接Claudeと作業できるようにするものです。直接研究プレビューとして発表されています。つまり、最高の形で見せているということです。
具体的にClaude Codingはあなたのために何ができるのでしょうか?それは非常に印象的です。あなたが何百ものファイルを持っていても、すべてのコードを理解します。これはGoogle LLM Notebookが行っていたことに似ていますが、それはデータベースを検索するだけで、実際にすべてのファイルを一緒に統合して一貫した構造を作成することはありませんでした。しかし、これが新しいClaude Codingが約束していることです。
Anthropicの簡単なプレゼンテーションを見てみましょう:
「大きな笑顔か大きな笑顔か、それは怖いですね。私はBorisでエンジニアです。私はCatでプロダクトマネージャーです。私たちは人々がClaudeで作成するものを見るのが大好きです。特にコーディングでです。そして私たちは、すべての人にとってClaudeのコーディングをより良くしたいと思っています。
私たちはツールを開発しました。その一つを今日共有します。研究プレビュー版としてClaude Codeを発表します。Claude Codeはエージェントアシストコーディングツールで、ターミナルで直接Claudeと作業することができます。
ここにプロジェクトがあります。これはNext.jsアプリケーションです。これをClaude Codeのインスタンスで開きましょう。これを行ったので、Claude Codeはこのリポジトリのすべてのファイルにアクセスできます。私たちはこのコードベースをあまり知りません。これはカスタマーサービスエージェントとチャットするためのアプリケーションのようです。Claudeにこのコードベースを理解するのを手伝ってもらいましょう。
Claudeはまず高レベルのファイルを読み、次により深く掘り下げます。今、プロジェクトのすべてのコンポーネントを確認しています。素晴らしい、これが最終分析です。
左側のサイドバーをチャット履歴に置き換え、新しいチャットボタンも追加するように頼まれたとします。Claudeに手伝ってもらいます。ファイルやパスを指定していませんが、Claudeはすでに自分で更新する正しいファイルを見つけています。
Claudeは自分の推論を示すこともでき、この問題に取り組むことをどのように決めたかを見ることができます。Claudeはこれらの変更を受け入れるかどうか尋ねています。はいと言います。
今、Claudeはナビゲーションバーを更新し、ボタンとアイコンを追加しています。次に、保存状態が正しく機能することを確認するためにロジックを更新します。しばらくすると、Claudeはタスクを完了します。彼が行ったことの要約です。
アプリケーションを見てみましょう。新しいチャットボタンと左側に新しいチャット履歴セクションが表示されています。前のチャットを保存したまま新しいチャットを開始できるか確認しましょう。新しいチャットボタンも試してみます。素晴らしい、すべてが機能しています。
今、追加した機能が機能することを確認するためのテストをClaudeに追加してもらいましょう。Claudeはコマンドの許可を求めています。はいと言いましょう。Claudeはこれらのテストを実行するためにいくつかの変更を行います。結果を取得した後、すべてのテストが合格するまで計画を続けます。
数分後、準備ができたようです。今、アプリケーションをコンパイルし、コンパイルエラーがあるかどうかを確認するようClaudeに頼みます。何が見つかるか見てみましょう。Claudeはコンパイルエラーを特定し、今それらを修正しています。次に、再度コンパイルを試みます。機能するまで続けます。
今、Claudeに変更を検証してGitHubにプッシュするように依頼して、すべてを完了しましょう。Claudeは私たちの変更の要約と説明を作成し、変更をGitHubにプッシュします。以上が、Claude Codeができることの例です。人々が開発を始めるのが待ちきれません。」
どう思いましたか?かなり驚異的ですよね?
最後に、先ほど含めるのを忘れたベンチマークについて簡単にお話ししたいと思います。Anthropicは自社のモデルをテストするための新しいベンチマークを導入しました。これはAIのポケモンゲームプレイ能力を評価するベンチマークです。Claude 3.7 Sonnetはこれまでのところ、ポケモンレッドをプレイする能力においてすべての他のモデルよりも優れていると述べられています。
私はポケモンをあまりプレイしませんが、彼らが言うように、モデルのプレイ能力をテストすることは、AIモデルの能力を楽しみながら評価する方法だと思います。そしてもちろん、現実世界に応用される実際の能力を評価することも重要です。このような新しいベンチマークは将来的に非常に面白く、興味深いものになるでしょう。
最後に、AGIアジェンダについて、彼らは次のように述べています:「Claude 3.7 SonnetとClaude Codeは、人間の能力を本当に増強できるAIシステムに向けた重要な一歩を示しています。これは、AIが人間ができることを豊かに拡張する未来に私たちを近づけています。」
彼らが共有している図式では、基本的に2027年までにClaudeは「パイオニア」と呼ばれるものを持つと宣言しています。まず2024年にアシスタント、2025年にコラボレーター(つまり有名なAIエージェントで、Claudeがエキスパートレベルで独立して作業を行い、チームの各メンバーができることを拡大します)、そして2027年にパイオニアを持つことになります。このパイオニアでは、Claudeが難しい問題に革新的な解決策を見つけることができると予測しています。つまり、通常のチームが何年もかかるような問題です。
最近、まさにこれを行うGoogleの新しいAIについての動画を作りました。これは多くの人を感心させた科学AI研究者で、まさにこのような研究を可能にします。彼らは2027年をタイムラインとして挙げていますが、私の意見では、もっと早くなるでしょう。物事は猛烈なスピードで進んでおり、減速の兆候は見られません。
確かなことは、今後数ヶ月、数日に起こることすべてをカバーすることを頼りにできるということです。まだ登録していない方は、ぜひチャンネル登録をお願いします。このチャンネルでは、このような動画を毎日公開しています。トレーニングのすべてのリンクは、動画の下にピン留めされたコメントにあることを忘れないでください。遅すぎる前にAIの使い方を学ぶべき時です。
基本を学びに来ることをお勧めします。この世界は魅力的であり、常に進化し続けており、ますます驚くべきものが私たちに提供されています。
まだご視聴いただいている方、動画をご覧いただきありがとうございます。次の動画でまたお会いしましょう。またね!
この分析に興味を持ち、現在の地政学的課題の理解をさらに深めたい場合は、新しいチャンネル「Vision Actu」をチェックしてください。そこでは、この話題やその他の現在と未来を形作る話題に関する詳細な分析を見つけることができます。両方のチャンネルを登録して、何も見逃さないようにしてください。また新しい分析でお会いしましょう。
コメント