Anthropicの新しい「Claude 3.5 Sonnet」が業界に衝撃を与えた! GPT4oを打ち負かす

YouTube

作成した動画を友だち、家族、世界中の人たちと共有

YouTube

作成した動画を友だち、家族、世界中の人たちと共有

さて、Anthropicが業界全体に衝撃を与えたんだ。Claude 3.5 Sonnetという非常に興味深いモデルをリリースしたからね。
彼らが話していたこともう1つ興味深いのは、以前も言及したけど、エージェント的コーディングについてだ。Claude 3.5 Sonnetは、内部のエージェント的コーディング評価で64%の問題を解決したんだ。これはClaude Opusの38%と比べてすごい数字だよ。

さて、Anthropicが業界全体に衝撃を与えたんだ。Claude 3.5 Sonnetという非常に興味深いモデルをリリースしたからね。

これは現在、AIモデルとしては最先端のものなんだ。つまり、今この瞬間、地球上で使える最高のAIモデルってわけさ。
それじゃあ、何がそんなにすごいのか見ていこう。画面を見てもらえばわかるけど、Claude 3.5 Sonnetは他のどの会社のモデルよりも優れたパフォーマンスを示しているんだ。これには本当に驚かされたよ。GPT-4oがつい最近リリースされたばかりだし、Llama 2の4000億パラメータモデルもかなり良かったし、そしてもちろんClaude 3 OpusがGPT-4と競い合う最先端モデルだったからね。
これがこんなに驚きで衝撃的なのは、これがAnthropicの最大のモデルじゃないってことなんだ。Claude 3.5 Sonnetは実は2番目のモデルなんだよ。つまり、将来彼らが更新版をリリースしたら、もっとすごいことになるってわけさ。
ここで、大学院レベルの推論を測るGPQAを見てみると、GPT-4より5.9%も高くなっているんだ。これはかなり印象的だよ。MMLでも88.7%を記録してる。コーディングでは92%、多言語数学で91.6%、テキスト推論で87%、BIG-bench hardで93%、そして数学のベンチマークで71.1%、小学校レベルの数学のGSM8Kベンチマークで96.4%を記録している。
これらのベンチマークの細かい部分を見るのが好きなんだけど、ほとんどがゼロショットなんだ。つまり、1つの質問に対して1つの答えを出すだけってこと。「ゼロショット思考連鎖」と書いてあるところは、AIシステムに推論過程を説明させて、そうすることでより良い答えを得るってやり方だね。「3ショット」と書いてあるのは、モデルと3回やり取りをしてから最終的な質問をするってこと。ここに「5ショット」って書いてあるのは面白いね。GPT-4はゼロショットだからね。でも細かいことは言わないよ。このモデルは信じられないくらい速いってことを考えると、これは間違いなく大きな進歩だ。
もちろん、ベンチマークだけじゃなくて、実際にどんな機能がリリースされたのかも見たいよね。彼らが言及してたのは、強力な推論能力があって、ベンチマークで業界新基準を打ち立てたってことだ。このデモを見ると、Claude 3.5 Sonnetがユーザーのサムをどうやって助けているかがわかるよ。小説を作る手伝いをして、プロットを始めたり、本当に最先端のさまざまな情報を提供してるんだ。多くのユーザーの初期テストでは、これまで見たことがないようなものだって言ってるんだ。
ここで面白いのは、Claudeが別のボックスに大量のテキストを出力してるってことだね。モデルが実際にテキストを生成している間に何をしているかを見ることができるんだ。これはすごく便利だと思う。モデルがどうやって全てを生成しているかがわかるし、よりクリーンなユーザーインターフェースになってる。
このサンプルで面白いのは、ユーザーにかなりたくさんのことをやってもらってるってことだね。ここを見て。キャラクター間の関係を詳細な図にしてるんだ。これはすごくクールだと思うし、Claudeの能力が向上したことを示してるよ。
彼らが言及してて、私も聞いたことだけど、Claudeはこれまでコーディングと、コードで何をしたいのかを解釈するのが一番優れてたんだ。つまり、本当に高度な無料のコーディングモデルができたってことだね。ここを見ると、ユーザーの質問に答えるために強力な推論能力を使ってるのがわかるよ。
彼らがリリースしたもので、本当にクールだと思ったものがあるんだ。それについてはすぐに話すけど、Claudeが今はより強力なビジョン機能を持ってるってことも言及してた。これは短いデモで、Claudeの強力なビジョン機能をどう使うかを紹介してるんだ。
ここでユーザーがClaudeに「ヒトゲノムについて授業をしている」って言ってるのが見えるでしょ。そして2枚の画像を入力して、「これはシーケンシングのゲノムタイムラインだ」って言ってる。2枚の画像がここにあるね。そして「このデータをJSONに書き起こしてくれ」って言ってる。
Claude 3.5はすごく速いから、これをすぐにコーディングできてるんだ。もちろん、ミスもなく効率的にね。これがAnthropicの好きなところなんだ。良い製品をリリースしただけじゃなくて、本当に速いんだよ。価格と速度の比率を考えると、とても効果的だと思う。
ここを見ると、ユーザーが自分のカラーパレットを追加できてるのがわかるよね。カラーパレットを追加したら、調整や変更ができて、データをより効率的に見られるようになったんだ。
これが本当にクールだと思ったのは、多くの人が使うだろうなって思うんだけど、このトピックについてのプレゼンテーションをすごく速く作れるってことなんだ。ユーザーが「さっき使ったチャートの1つをスライドに使って」って言ってるのが見えるでしょ。ここを見ると、数秒で、ほとんど何にでも使えるような簡単なプレゼンテーションができてるんだ。
これはAnthropicが示してるワークフローで、Claudeの新しいビジョンモデルをどう活用できるかを効果的に示してるんだ。異なる入力を組み合わせることで、特にコードやさまざまなフォーマットで、Claudeに何かを作らせることができる。強力なビジョン機能を活用できるってことだね。これはすごく効果的で、ユーザーはわずか数分でこれができたんだ。
それから「アーティファクト」っていうのもあるんだ。アーティファクトは本当に面白くて、チャットの横に表示されて、リアルタイムで作成物を見たり、改良したり、構築したりできるんだ。
ユーザーが最初に「8ビットのスターカニを作ってくれ」って言ってるのが見えるでしょ。そしたら右側にコードがすぐに表示されるんだ。これは効果的だよね。例えば、ユーザーが「同じスタイルで貝殻も作ってくれ」って言うと、「もちろん、カニに合わせて貝殻を作りますよ」って答えて、それらの貝殻がそこに表示されるんだ。
次のステップが面白いんだ。ユーザーがClaudeに、このアーティファクト領域でいろんなものを作るように頼んでるんだ。ここを見ると、彼がこれらのものを全部作っていって、最終的には全部を組み合わせて動くゲームにしてるのがわかるよ。これはすごく効果的に見えるね。
ここを見て。ユーザーが「プレイ可能にしよう。カニが近づいてくる貝殻を飛び越えるようにして。スタイリングも加えてくれ。これを『カニゲー』って呼びたいな」って言ってるでしょ。そしたらClaudeがもう少しコードを書いて、ユーザーがこのゲームをプレイできるようになったんだ。
これは、Claudeのユーザーインターフェースがどう変わっているかを示すもう1つのデモだね。もちろん、これは今すぐ試せるけど、Claudeが最先端のモデルとして、常に新機能を追加しているのは効果的だと思う。
このモデル全体で本当に驚いたこと、そして誰もが驚いたことは、価格と知能の比率なんだ。ここを見てみよう。これはAnthropicのモデルの以前の軌跡で、100万トークンあたりのコストと知能を示してるんだ。以前は、コストが低ければ知能も低く、普通のグラフのようにスムーズに上昇していく伝統的な傾向があったんだ。
でも時間とともに、興味深いことに、ここ真ん中で能力が大きくジャンプしているのが見えるだろ？同じ価格でより高い知能レベルを得られるようになったんだ。Claude 3 SonnetはClaude 3 Opusと同じ価格で、より高い知能レベルを持っているってことがわかる。
これは全体的に見て、知能のコストが下がっているってことを意味するんだ。AI業界にいる多くの人たちは、これが来ることを予想していただろうけど、こんなに急激に見られるとは思わなかったね。Claude 3 Opusはすごく高く評価されていたのに、わずか数ヶ月で、もっと小さくて速くて安いモデルに圧倒されちゃったんだから。
こんなに短期間でどうやってこれを達成したのか、本当に興味があるけど、Anthropicが新しい最先端モデルを提供するために昼夜を問わず働いているのは知ってるんだ。

彼らが話していたこともう1つ興味深いのは、以前も言及したけど、エージェント的コーディングについてだ。Claude 3.5 Sonnetは、内部のエージェント的コーディング評価で64%の問題を解決したんだ。これはClaude Opusの38%と比べてすごい数字だよ。

彼らが言うには、この評価はモデルがオープンソースのコードベースを理解し、バグ修正や新機能といった自然言語で書かれた改善要求に基づいてプルリクエストを実装する能力をテストするんだ。各問題について、モデルは完成したコード提出でコードベースの全てのテストをパスするかどうかで評価される。モデルにはテストは見えないんだ。これは重要で、バグ修正や新機能のテストも含まれていて、実際のソフトウェアエンジニアリングを模倣していることを確認するためだ。
問題はオープンソースのコードベースに提出された実際のプルリクエストに基づいていて、変更には複数のファイル、通常3〜4つ、最大で20個のファイルの検索、表示、編集が含まれる。モデルはエージェント的ループでコードを書いて実行し、評価中に繰り返し自己修正することが許可されている。そして、これらのテストはインターネットにアクセスできない安全なサンドボックス環境で実行される。結果は表3に示されている。
ここを見ると、全体的にClaude 3 SonnetはClaude 3 Opusのほぼ2倍のコーディング評価を示しているのがわかるよ。他のモデルと比較してどうかもここに示されているね。これはかなり興味深いことだ。次に何が来るかについて、注目すべき前例を示しているからね。
Claude 3 Haikuが17%、Claude Sonetが21%、Claude 3 Opusが38%にジャンプし、Claude 3.5 Sonetが驚異の64%を記録しているのが見えるだろう。これは本当に興味深いね。Anthropicがこれらの内部デモのいくつかを見せてくれて、このエージェント的ループの間にClaudeがどんな振る舞いをしているのか正確に見られたらよかったんだけどな。
今、多くの人が気になっていることの1つは、Claude 3.5 Sonetが前のClaude 3モデルからこんなに大きなジャンプをしたなら、将来のClaude 3 Opusのジャンプはどうなるんだろうってことだ。
彼らが言っているのを見てみよう。「私たちの目標は、数ヶ月ごとに知能、速度、コストのトレードオフカーブを大幅に改善することです。Claude 3.5モデルファミリーを完成させるために、今年後半にClaude 3.5 HaikuとClaude 3.5 Opusをリリースする予定です」
つまり、Claude 3 Opusが以前のベンチマークをどれだけ改善するか見るのが面白いだろうね。覚えておいて欲しいのは、Claude 3 Opusは今日まで最先端のモデルだったってことだ。でも、GPT-4がリリースされてClaude 3 Opusをゆっくりと追い抜いた。そして今、Claude 3.5 Sonnetが登場した。
これはかなり驚きだよ。もしAnthropicから最先端のモデルが出るとしたら、Claude 3 Opusだと予想していたからね。それが彼らの最大で最も性能の高いモデルだったからさ。つまり、将来Claude 3 OpusやClaude 3.5 Opusが登場して、それが彼らの最も性能の高いモデルになるなら、ベンチマークの改善は絶対に劇的なものになるだろうね。
他の競合他社もAnthropicの後を追っているってことを考えると、この業界はまだまだ減速する気配がないみたいだ。
将来のモデルについても彼らは言及していて、新しいモダリティや機能を開発して、ビジネスのより多くの使用ケースをサポートする予定だって。エンタープライズアプリケーションとの統合も含めてね。
面白いのは、メモリのような機能も探求しているって言っていることだ。これによってClaudeはユーザーの好みや過去のやり取りを覚えられるようになり、より個人化された効率的な体験ができるようになるんだ。
全体的に見て、ここにあるのはClaude 3.5 Sonnetの魅力的なショーケースだね。これは驚くべきAIのリリースで、Anthropicは驚異的な能力で私たちを驚かせ続けているんだ。