Claude 3.5 – OpenAIの痛いところにパンチ

Claude 3.5 - A Punch to Open AI Where it Hurts.

In this episode, we explore the latest significant development in AI language models - the launch of Claude 3.5 Sonnet b...

大規模言語モデルの世界で大きな変化が起こりました。実質的に初のGPT-5の競合モデルが発表されたんです。
私の限られた直接的な体験から言えば、これはかなり印象的です。少なくともGPT-4 Omniと同程度、もしかしたら少し優れているかもしれません。

大規模言語モデルの世界で大きな変化が起こりました。実質的に初のGPT-5の競合モデルが発表されたんです。

これは全てAnthropic AIによるものです。Anthropicは常にOpenAIの大規模言語モデルの強力な競合相手でした。
さて、皆さん、ここで情報源に直接当たってみましょう。Claude 3.5 Sonnetです。Claude 3のネーミングスキームをご存じない方のために説明すると、Sonnetは中型モデルを意味します。ただし、これは新しい3.5アップデートを受けたSonnetモデルなんです。
Claude 3.5 Sonnetのクレイジーなところは、以前のClaude 3 Sonnetを圧倒するだけでなく、Anthropicが以前持っていた最高のClaudeモデルだったClaude 3 Opusも圧倒してしまうことです。つまり、これが新しい最高のClaudeモデルなんです。さらに良いことに、Claude 3.5 SonnetはGPT-4 Omniを圧倒します。GPT-4 OmniはOpenAIの現在のフラッグシップモデルです。
確かに、OpenAIのフラッグシップモデルGPT-4 Omniにはマルチモーダル機能がありますが、それらはまだ一般公開されていません。実際の大規模言語モデルタスクに関しては、もちろん最も重要なのですが、3.5 SonnetはGPT-4を完全に凌駕しています。そして当然、3.5 Sonnetは私たち誰もが無料で使用できます。これはかなり大きな意味を持ちます。
そう、彼らのブログ投稿はまさにこれを反映しています。業界の知能のバーを引き上げ、競合他社や以前のフラッグシップモデルClaude 3 Opusを凌駕しながら、以前の中級モデルのスピードとコストを実現しています。ClaudeのウェブサイトとiOSアプリで無料で利用可能で、もちろん開発者向けのAPIでもすでに利用可能です。素晴らしいですね。
あ、そうそう、20万トークンのコンテキストウィンドウも忘れずに。これもGPT-4 Omniよりも優れています。ここに理解を助けるための棒グラフがあります。Claude 3.5 Sonnetが以前のフラッグシップモデルだったClaude 3 Opusと比べて、はるかに知的で、かつ大幅にコストが低いことがわかります。
これは自分で高いバーを設定するようなものです。少なくともClaude 3 Opusより1年は進んでいるようです。このモデルは複雑なタスクや多段階のワークフローの調整に理想的です。これは本当にクールです。
元のClaude 3モデルセットが発表された時を覚えていますか？その時も、ある程度の自律型エージェントが近い将来登場すると発表されました。これは、Anthropicの複数エージェントの自動化されたワークフローを利用する最初のモデルかもしれません。それがどんな形になるにせよ、私たちは忘れていません。エージェントは今年の大きなトピックになるかもしれません。
内部のエージェンティックコーディング評価では、Claude 3 Sonnetは問題の64%を解決し、38%しか解決できなかったClaude 3 Opusを上回りました。大規模言語モデルの世界ではこれはかなり大きな飛躍です。
Claude 3 Sonnetは独立してコードを書き、編集し、実行できる能力を持ち、高度な推論とトラブルシューティング能力を備えています。コードの翻訳を容易に扱い、特にレガシーアプリケーションの更新やコードベースの移行に効果的です。開発者の皆さん、これは朗報ですね。
そして、ここに大規模言語モデルが登場するたびに私たちが注目する大きな比較表があります。もちろん、GSM8K、HumanEval、MLUなど、典型的なベンチマークがすべて含まれています。
ここで注目すべきは、Claude 3.5 Sonnetがほぼすべてのベンチマークで勝利していることです。特にClaude 3 Opus、Gemini 1.5、LLaMA 400Bと比較してです。LLaMA 400Bは、まだ一般公開されていない初期スナップショットバージョンであることに注意してください。
GPT-4 Omniとの比較を見てみましょう。確かに、MLUベンチマークではGPT-4 Omniが勝っていますが、その差はわずか0.4%です。このベンチマークではほぼ同等と言えるでしょう。
数学問題解決のベンチマークでは5%の差で勝っています。これはかなりの差です。GPT-4 Omniがこのベンチマークで勝っていると言えますが、大差ではありません。そして、他のすべてのベンチマークで勝っているのが最も重要なポイントです。
全体的に見て、Claude 3.5 SonnetモデルはGPT-4 Omniよりも優れていると言えるでしょう。そして、これは3.5シリーズの中級モデルです。Sonnetよりも優れたOpusモデル、Claude 3.5 Opusが登場する予定です。本当に大きなモデルが登場する予定なのです。そのことについても後で触れましょう。
また、ビジョンのマルチモーダル機能が向上していることも素晴らしいですね。3.5 Sonnetは彼らの最強のビジョンモデルです。私たちも必ずテストしてみます。ビジョンは私がGPT-4 Omniでよく使う機能です。
彼らはデモビデオを用意しています。ちょっと見てみましょう。」
グラフをアップロードしているようです。コードを生成しています。すべてを説明しています。なかなか素晴らしいですね。インタラクティブなプロット、JSONファイル…そうですね、このゲノムのグラフのインタラクティブなプロットを作成しているようです。
はい、そこにあります。このトピックについてJavaScriptベースのプレゼンテーションを作成してください。チャートカードを使用してくださいね。以前のものを覚えていて、それを使用できるんですね。印象的です。
これはかなり印象的ですね。現在のGPT-4 Omniモデルのビジョン機能と比較しても。素晴らしいですね。
このビデオへのコメントを見てみましょう。「からかいなし、リリースだけ」「ゲームをはるかに先導しているAnthropic」「OpenAIを覆しそう」「3.5 Sonnetを1時間試してみたけど、とても強力」など。人々は本当にこのモデルを高く評価しているようです。
ここにいくつかのベンチマークがあります。ビジョンベンチマークでは、少なくともClaude 3.5 Sonnetが私たちが見た中で最高のビジョンモデルかもしれません。全体的に見て、GPT-4 Omniよりもかなり優れているのがわかります。
いくつかのベンチマークでは5%、3%、4%ほど ahead です。このベンチマークはほんのわずかに良いだけなので、基本的に同等です。そして視覚的質問応答では、GPT-4よりも0.5%ほど悪いだけです。つまり、少なくともGPT-4と同等か、少し優れているということです。
また、新機能の発表もありました。Twitterで誰も言及していなかったので見逃していました。Claudeの新しい使い方、アーティファクトという機能です。これはユーザーがClaudeとやり取りする方法を拡張します。
ユーザーがClaudeにコードスニペット、テキスト文書、ウェブサイトのデザインなどのコンテンツを生成するよう求めると、これらのアーティファクトが会話と並んで専用のウィンドウに表示されます。素晴らしいですね。
これにより、Claudeの創造物を見たり、編集したり、それを基に構築したりできるダイナミックなワークスペースが作成されます。AIが生成したコンテンツをプロジェクトやワークフローにシームレスに統合できるんです。それは素晴らしいですね。
実際に見ることができるんですね。このモデルで遊ぶのが楽しみです。
Claudeが会話AIから協力的な作業環境へと進化したことは、Claude AIのより広いビジョンの始まりに過ぎません。Anthropic、いいね！
これは安全に利用可能になります。知識、文書、進行中の作業をClaudeをオンデマンドのチームメイトとして機能させる共有スペースに一元化します。
Anthropicは本当に頑張っていますね。この機能のビデオもあります。より多くのエージェント機能、あなたのために働いて完成した製品を持ち帰るものを想像してみてください。
「8ビットスタイルのカニを作成してください」いいですね。コードを書いています。かわいいですね。同じスタイルで貝殻も。ゲームを作るのかな？悪くないですね。
HTMLの横スクロールゲーム。見てみましょう。すごい。遊べるようにしてください、Claude。
面白いですね。わかりました。すべてのコードを書き出しています。はい、できました。これは簡単なことではありませんよ。
こんばんは、Sam。かなり印象的でした。今、この新しいものを試すのがとても楽しみです。
そして、皆さん、これは典型的な話ですが、安全性とプライバシーへのコミットメントなどなど、これは今ではすべてのページに記載されています。
ここで重要なことがあります。私たちの目標は、知能、速度、コストのトレードオフカーブを数ヶ月ごとに大幅に改善することです。Claude 3.5モデルファミリーを完成させるために、Haikuモデル（かなり安価で少し賢さが劣る）とClaude 3.5 Opus（かなり賢い）をリリースする予定です。
これが、私たちが見る最初のGPT-5レベルのモデルになるかもしれません。実際にOpenAIより先に出すかもしれません。これは新しい時代の始まり、つまり大規模言語モデルの新世代の始まりとなるでしょう。
もちろん、メモリなどの機能を探求し、Claudeがユーザーの好みを記憶できるようにします。はい、これは現在のGPT-4 OmniとChatGPTで既にある程度持っている機能ですね。
彼らは単に「フィードバックを送ってください」と言っていますね。クール。
よし、これを試さなければ。とてもワクワクします。
さて皆さん、アーティファクト機能をオンにします。Claudeはコードスニペット、技術文書、ウェブデザインなどのコンテンツを会話と並行して生成できるようになりました。
「こんにちは、Claude」もちろん、ここでの生成速度はかなり速くなるでしょう。カニのデモと同じようなことを試してみましょう。「8ビットスタイルのレモンのスプライトを作ってください。サングラスをかけているようにしてください」
喜んで作ります。今、これを実現するためのコードを書いています。SVGを使用していますね。
これはサングラスにはまったく見えませんね。サングラスは単なる塊のように見えます。もっと詳細にしてください。
了解しました。今、サイドの小さなウィンドウで自動的に更新されるでしょう。
はい、それはずっと良くなりました。これで大丈夫です。
では、レモンが戦う邪悪な果物のキャラクターのキャストを作成できますか？
はい、果物の悪役のちょっとしたギャラリーを作りましょう。
本当に速くて信頼性が高いモデルですね。GPT-4でさえ、ChatGPTでは時々遅延が発生して本当に迷惑なんです。
おっと、サポートされていないライブラリやアイコンが検出されました。Claude、助けて！動きません！
Lucid React LibraryのサイコロアイコンがこのHere is the translation of the remaining part of the transcript:
環境でサポートされていないようです。修正しましょう。
コードを更新して、魔法のように全て動作するようにしてくれるんでしょうね。
このモデルには確かにAGIの兆しがありますね。レモン市長、何を絞り出すのでしょうか？レモンペディア、これはかなりクールですね。拡大できたらいいのに。まあ、レモンに関連するいろいろなことをやってくれていて、なんとなく物を選ぶような感じで動作しているようですが、スクロール機能はあまりうまく動いていないようですね。でも、ベストを尽くしたんでしょう。頑張ったと言えますよ。
あ、なるほど。これはテキストベースのバージョンなんですね。おそらく、あのライブラリというのは回転するホイールのことで、この「環境」には含まれていないものだったんでしょう。それは理にかなっていますね。
では、これのコンテンツやコードをコピーしましょう。最初のバージョンを簡単に実行できる場所はどこでしょうか？
おや、このウェブサイトに行けと言っているだけですね。
まあ、どうやらコードもまだ気に入らないようです。でも、クールですよ。ありがとう、Claude。これはかなり面白いウェブサイトですね。

私の限られた直接的な体験から言えば、これはかなり印象的です。少なくともGPT-4 Omniと同程度、もしかしたら少し優れているかもしれません。

Anthropicのモデルは常に本当に印象的だったので、彼らがこれをやっているのは驚きではありません。
でも、GPT-5の上を行くClaude 3.5 Opusが出てくるのを見るのが本当に楽しみです。次のシリーズや次世代の大規模言語モデルの最初のモデルかもしれませんね。
さて、コミュニティの反応、コミュニティの創作物について見てみましょう。このコミュニティは新しいモデルに関してどんなことをしているでしょうか？皆さん、この部分を楽しんでいただけると思います。
ここでNick Dusがクラウドアーティファクトで遊んでいます。数分でウェブサイトを作成するクイックデモです。基本的に、私たちが試みたことと同じですね。実際に、同じ方法で複数のウェブサイトやデモを作成しています。
見てみると、マークダウンの例、シンプルなHTMLページがあります。最後に、コードウィザードのウェブサイトがあります。ウェブページの基本的なHTML構造を生成し、タイトル、見出し、段落を入れています。少しSVGで装飾を施し、テーマを設定しています。かなりクールですね。
もちろん、OpenAI関連のトピックについて非常に良い内部情報を持っていることで知られるJimmy Applesは、「少なくとも誰かがまだ製品を出荷しているようだ」とClaude 3.5 Sonnetに反応しています。
Matt Schumerは、Claude 3.5 Sonnetが非常に最近の知識カットオフを持っていることを指摘しています。例として、「2024年2月のスーパーボウルの勝者は誰？」という質問をしています。つまり、このモデルの知識カットオフは数ヶ月前に過ぎないようです。悪くないですね。
また、ここではPetroの例があり、Claude 3.5 SonnetがユニコーンをSVGで描画しています。これはかなり印象的で、このようなものを作成するのに何が必要かを理解しているようです。繰り返しになりますが、モデルはスクリーンショットなどで再入力しない限り、このSVGを見ることができません。そのため、視覚情報なしで自分が何をしたかを理解できるのは本当に印象的です。
しかし、一部の人々はより悪い結果を得ています。ここにGPT-4 Omniともう一人のSonnetユーザーからの悪い結果があります。別の人が同じユニコーンテストを試みて、素敵なピンク色のものを得ています。
皆さん、忘れずに。本質的に最高のAIベースの検索エンジンである高速なPerplexity AIは、すでにAPIからClaude 3.5 SonnetをPerplexity Proに組み込んでいます。これはかなりクールですね。
ここでPetroがClaude 3.5 SonnetとMaestroを組み合わせて、この組み合わせがAGIの兆しではないかと疑問に思っています。彼は幾何学的な形だけを使ってマリオのクローンを作るように頼みました。最も驚くべき点は、キャラクターにアニメーションも与えたことです。
わずか3分しかかからず、皆さん、これはかなり印象的です。確かに正確にマリオには見えませんが、コインを集めたり、プラットフォームの上をホップしたりできます。動く障害物もあります。かなりクールですね。マリオさえも走るアニメーションがあり、走ったりジャンプしたりしています。
つまり、これはSVGで作られた非常に基本的な形式のマリオです。3分でこれができますか？おそらくできないでしょう。かなり印象的ですね。
皆さん、どう思いますか？これはAGI（人工汎用知能）の兆しと言えるでしょうか？正直なところ、AGIは今では「優れたAI」を表す包括的な用語になってしまい、少なくとも私には本当の意味がなくなってしまったように感じます。でも、皆さんの考えを下のコメント欄で聞かせてください。
ところで皆さん、他のニュースにも少し触れたいと思います。以前OpenAIの従業員だったIlya Sutskever、現在は元従業員ですが、SSI Inc.という新しいAI企業を立ち上げました。この企業はAIを通じてスーパーインテリジェンスを達成することを目指しています。
これは単に言及したかったことです。これが彼が今やっていることで、誰もが「彼はOpenAIで何を見たのか」と疑問に思っています。安全なスーパーインテリジェンスを構築する…明らかに彼はOpenAIにはそれができないと考えているようです。
他の大規模言語モデルのニュースもあります。Metaが彼らのGPT-4 Omniスタイルのマルチモーダル入出力モデルの重みをオープンソース化しました。これは再びMetaがオープンソースを支持し続けていることを示しています。全体的に見て、彼らはその点で素晴らしい仕事をしていると思います。
それ以外は、皆さん、今のところこれが私が持っている全てです。繰り返しになりますが、私が主に考えているのは、この3.5 Opusモデルがどのようなものになるかということです。これが次のエシェロン、次のステップアップのラダーで最初に見るモデルになるのでしょうか？理論上のGPT-5や次のGPTモデルと呼ばれるものと競合するものになるのでしょうか？
さらに重要なのは、これがOpenAIの手を強制することになるのでしょうか？彼らは再びAnthropicに一歩先を越されたようです。これは繰り返し起こっています。SoRはどこにあるのでしょうか？GPT-5はどこにあるのでしょうか？私たちは大きなリリースを待っています。GPT-4 Omniの残りの機能はどこにあるのでしょうか？OpenAI、これらが登場するのを私たちは見ていません。
あなたたちは常に物事を発表し、示していますが、ユーザーである私たちは決してアクセスできません。では、物事が単に cherry-pick されているだけではなく、意図したとおりに機能していると信じるにはどうすればいいのでしょうか？特にオープンソース化を一切行わないのであれば、あなたたちの人々にアクセスを与える必要があります。
言いたくはありませんが、OpenAI、あなたたちはどれほどオープンなのでしょうか？そして、私だけがそう考えているわけではないことは分かっています。
皆さんの考えをお聞かせください。それは常に重要です。また、これらのことがまさに起こった時に学びたい場合は、下の説明欄にあるリンクから私のDiscordサーバーに参加することを検討してください。そこには素晴らしいコミュニティがあります。
視聴してくださってありがとうございます。次の動画でお会いしましょう。さようなら。