新たなClaude 3.5 Sonnetがここに。パワフルです。

New Claude 3.5 Sonnet is here and it's POWERFUL!

Summary of Claude 3.5 Sonnet and its new capabilities.More here: out our upcoming live training to lear...

New Claude 3.5 Sonnet is here and it's POWERFUL!

Summary of Claude 3.5 Sonnet and its new capabilities.More here: out our upcoming live training to lear...

みなさん、こんにちは。また Elvis です。今日は Anthropic から exciting な発表がありました。Cloud 3.5 Sonnet をリリースしたんです。これは Sonnet モデルの新しいバージョンで、その詳細やパフォーマンスについて見ていきます。また、この新しいモデルは既に Claude アプリで利用可能なので、実際に試してみます。
Anthropic は、このモデルが知性の基準を引き上げ、競合モデルや Claude 3 Opus を上回るパフォーマンスを発揮すると主張しています。Opus は彼らの最も強力で優秀なモデルの1つです。彼らはまた、中間モデルである Claude 3 Haiku の速度とコストにも焦点を当てています。このモデルと比較すると、明らかに速度が速く、コスト効率も高いようです。
ここに示されたチャートを見ると、このポイントからここまで上昇しているのがわかります。知性が向上し、コストも非常に有利なままです。開発者としては、能力だけでなくコストも気にしますよね。能力が向上しているのに、コストが非常に良好な状態を保っているわけです。
コストに関しては、入力トークンが100万あたり3ドル、出力トークンが100万あたり15ドルになるそうです。これは20万トークンのコンテキストウィンドウが付いてきます。Traffic API、Amazon Bedrock、Google Cloud の Vertex AI で利用可能です。また、Claude 3.5 Sonnet は無料で使えて、Claude.ai でも無料で利用できます。
これから実際に使って、Claude アプリでできることをいくつか例示していきます。彼らは「2倍の速度でフロンティア知性を」と言っています。つまり、速度が大幅に向上しているということです。さまざまなベンチマークで優れたパフォーマンスを発揮します。大学院レベルの推論能力、学部レベルの知識、これは MLU のことですね。コーディング能力もあります。他にもたくさんあります。複雑な指示を理解し、ユーモアやニュアンスを把握する、こういったことは当然テストする必要があります。
Claude 3 Sonnet は、Claude 3 Opus の2倍の速度で動作します。Opus は前回のリリースで最高のモデルの1つでした。このパフォーマンス向上と費用対効果の高い価格設定により、Claude 3 Sonnet は複雑なタスクに最適です。例えば、文脈を考慮したカスタマーサポートや多段階のワークフローの調整などですね。
これを聞いて最初に思い浮かんだのは、私が興味を持って研究しているエージェントワークフローです。エージェントワークフローでは反復が必要で、多くのループを実行しなければなりません。そのため、費用対効果の高い最高のモデルを持つことが非常に重要です。これらのワークフローの多くは、プランニングなどのために大量のテキスト生成が必要だからです。
また、速度も重要です。多くの場合、システムを一時停止したり遅延させたりすることはできますが、できるだけ早く情報を得たいケースも多いですよね。そして、推論や高速なテキスト生成ができるモデルが必要です。Claude 3.5 Sonnet を使ったエージェントワークフローでどんなことが可能になるか、とてもワクワクしています。
彼らが行った内部のエージェントコーディング評価では、64%の問題を解決したそうです。これは、オープンソースのコードベースにバグを修正したり機能を追加したりする能力をテストするもので、望む改善点を自然言語で説明します。Claude 3 Opus が38%しか解決できなかったのと比べると、大幅なパフォーマンス向上ですね。
ここに主な結果があります。先ほど言ったように、MLU、HumanEval（コード推論）など、さまざまな一般的なベンチマークでテストしています。私が興味深いと思うのは、彼らの以前のモデルである Claude 3 Opus や、GPT-4、Llama 2 70B、Gemini 1.5 Pro との比較です。
パフォーマンスの向上が素晴らしいですね。例えば、大学院レベルの推論をテストする GPQA では、59.4 のスコアを出しています。これは以前の最高スコアである GPT-4 の 52.6 を大きく上回っています。このモデルが Claude 3 Opus や他のモデルを大幅に上回っているのがわかります。
MLU に関しては、GPT-4 も素晴らしいモデルですね。数学的推論能力もテストしています。ただし、数学的推論や問題解決をテストする MATH ベンチマークでは、GPT-4 が非常に優れたモデルだということがわかります。定量的な分析や数学の問題解決能力が必要な場合は、GPT-4 が本当に優れたモデルだと思います。これらのベンチマークで高いパフォーマンスを発揮できるように最適化されているんですね。
以上が結果のまとめです。彼らはまた、これらのモデルにビジョン機能も導入しました。これが私にとって本当にエキサイティングな部分です。言語モデルでできることすべてを、ビジョン機能と組み合わせているんです。これにより、多くの複雑なアプリケーションが可能になると思います。これらのモデルをテストしている方法をお見せしますし、Claude 3.5 Sonnet の結果もお見せします。どこで優れているか、どこでそうでないかなどです。
ビデオを見ていただければわかりますが、画像を取り込んで分析し、それらの画像をデータに変換しています。JSON 形式に変換して、ダウンロードできるようにしているんです。これを使ってさまざまなことができます。画像に対して反復処理を行ったり、推論させたり、理解させたり、分析を行わせたりできます。これがビジョン機能の結果の一部です。
新しくてエキサイティングな機能の1つが「アーティファクト」です。これから試してみますが、基本的にコードスニペット、テキスト文書、ウェブサイトのデザインなどを生成するインターフェースを提供しています。ウィンドウ内でプレビューを表示してくれるんです。会話と並んで、小さなウィンドウが表示されます。ここに見えますね。テキストを生成し、そして生成しようとしているものを生成します。プレゼンテーションでも画像でも、何でも生成できます。そしてそれをその場で改良できるんです。インターフェースの外に出る必要はありません。これは本当に強力だと思います。例えば教育目的や、ビジュアルアーティファクトをデザインしようとしているクリエイターにとって、非常に強力だと思います。
安全性とプライバシーに関する声明もあるので、それも確認してください。また、彼らは今年後半にハイエンドモデルと Opus をさらに改良すると言っています。ここに書いてありますね。最終的にはより完全な Claude 3.5 リリースがあるそうで、そのパフォーマンスが楽しみです。速度も重要ですね。Sonnet は Haiku と Opus の間にあると思います。Opus が以前の最高モデルだったので、それと比較しているんですね。より多くの機能が得られるかもしれません。開発者として、コストの面でこれらのモデルがどのように改善されるか興味があります。速度も本当に重要です。
では、いくつか例を見ていきましょう。すでに少し遊んでみたので、簡単にお見せします。最初にやってみたのは、彼らがやっていた8ビット生成です。8ビットのルイージを作成するよう頼んでみました。説明は必要ないかもしれませんが、とにかく生成してくれました。そして SVG を生成し、クリックするとここにプレビューが表示されます。
次に「同じスタイルでワリオを作成して」と頼んでみました。これをクリックすると、ワリオらしきものが生成されています。マリオゲームをプレイしたことがある人なら、かなり似ていると思います。コードも提供してくれるので、このコードを直接使いたい場所で使えます。でも、ウィンドウ内で作業中のものを反復できるのが気に入っています。プレビューが得られるんです。これは AI システムとの協調型インターフェースだと思います。そしてそこに多くの努力が向けられているんだと思います。
教育目的で使いたいので、行列の掛け算の説明と例をいくつか出すよう頼んでみました。プレゼンテーションが良かったのは、インタラクティブだからです。これを読むのは少し難しいかもしれません。言語モデルが生成しているものを学ぶのは難しいかもしれませんが、このような形式だとずっと良いと思います。もっと早く学べると思います。私は視覚的に学ぶのが速いので、このスライド形式が好きです。JavaScript で生成しているようです。
例もありますが、結果を確認していないのでちょっと違うかもしれません。数字や要素、視覚的なコンポーネントなどを生成するときは、うまくいかないことがあります。後でお見せする例では、プレゼンテーション内で SVG を生成しようとしましたが、あまりうまくいきませんでした。
でも、プレゼンテーション機能は素晴らしい追加だと思います。これを反復できますし、もっと良いプロンプトを与えれば改善できると確信しています。ただ、その能力をテストしたかっただけです。私が興味を持っていることを使ってみたかったんです。これは素晴らしいと思います。友達や親戚が何かを学びたいと言ったら、すぐにこれを生成して共有できます。もちろん、モデルが正確な情報を提示しているか、例が正しいかは確認する必要がありますが、良い出発点があるのは本当に素晴らしいことだと思います。教育者としてずっと生産的になれると思います。
次に、Anthropic についてのプレゼンテーションを生成するよう頼んでみました。Anthropic についてのプレゼンテーションを生成してくれましたが、画像機能がないことに気づきました。プレースホルダーがあるだけです。基本的に、自分で画像を追加することを期待しているようです。Anthropic について話していて、その歴史なども含まれています。
OpenAI についても生成してみました。これが本当に気に入りました。ここで開いてみましょう。はい、プレゼンテーションをクリックすると、コードが生成されます。「OpenAI の誕生」から始まり、2015年12月にイルヤ・サツケヴァーなどによって設立されたこと、AGI を目指していたこと、初期の研究の焦点、GPT シリーズの始まり、営利企業への移行、GPT-3 の革命と DALL-E、パートナーシップと統合、倫理的考察、未来への展望などが含まれています。これは会社の要約としてとても良いですね。
教育的にも非常に役立ちます。企業分析をしていて、その企業が何をしてきたのか、歴史を理解したい場合に本当に素晴らしいと思います。ここでできることの1つは、あらゆる種類の情報を組み込むことです。これは強力だと思います。例えば、上場企業であれば企業価値や株価、さらにはソーシャルメディアからの情報なども組み込めるかもしれません。これが私たちの向かっている未来だと思います。これらのテクノロジーを使って、情報やさまざまな概念の高速分析ができるようになるんです。
もう少し例をお見せしましょう。先ほどの例はプレゼンテーションの生成でしたが、プレゼンテーションを生成しながら画像も生成するよう頼んでみました。しかし、なぜか画像を生成することができませんでした。最初の段階では単にプレースホルダーを提供するだけで、自分で画像を置き換えることを想定しているようでした。でもこれは素晴らしいですね。プレゼンテーションがあれば、自分で追加できるわけです。システムとの協力が少し必要になりますね。
2番目のバージョンも生成してみました。今度は SVG を追加するよう頼んでみました。SVG はコードなので、話している概念を視覚的にエンコードできるかもしれないと思ったんです。ここに「知覚」の視覚的表現があります。完全に正確ではないかもしれませんが、まあいいでしょう。アダプター線形要素の表現もあります。これも完全に正確ではないかもしれません。私なら少し違う方法で表現すると思いますが、まあいいでしょう。
多層パーセプトロンもあります。これらの接続があるのがわかりますね。ある程度多層パーセプトロンに見えますが、私ならもう少し詳細を加えると思います。例えば、接続の性質や行われている操作などですね。より正確にするためには。でも、すでにかなり良い感じだと思います。
畳み込みニューラルネットワークについては、主要なコンポーネントはありますが、接続がありません。これはインターフェースで反復して接続を追加できるかもしれません。長短期記憶（LSTM）については、入力、メモリ、出力など主要なコンポーネントはありますが、接続や操作がありません。これらは本当に重要なんです。このインターフェースを使って反復できると思います。
視覚的なコンポーネントをこのように表現するのは、システムにとってまだ難しいのかもしれません。もし方程式の画像を提供すれば、よくこの質問を受けるんですが、もっと直感的な説明を提供したいと思っています。私自身の説明は技術的すぎると思うので、もっと簡単で理解しやすい説明を提供したいんです。
それを試してみて、システムが与えてくれた説明が気に入りました。いくつか変更するかもしれませんが、本当に良い仕事をしたと思います。私が求めたこと、つまり「できるだけ簡単に」という要求に応えて生成してくれたのが良かったです。そしてこれをさらに改良し続けることができます。私が渡した方程式を理解する能力があるのは本当に素晴らしいですね。
最後に、ゲームを生成するよう頼んでみました。JS や HTML などのコンポーネントを生成できるので、おそらくインタラクティブなコンポーネントも生成できるだろうと思ったんです。そこでそれを試してみました。
最初は、JS を使ってサボテンを飛び越える恐竜のアニメーションを生成するよう頼みました。見てのとおり、ジャンプしているわけではなく、ただアニメーションをしているだけです。キャラクターもうまく表現されていません。そこで少し改良を加えて、これが新しく生成されたものです。今回は8ビットを使っています。
生成しようとしているものを単純化すれば、より良い結果が得られると思います。これをさらに改良し続けることができます。本当に単純なところから始めて、間違っている部分や修正が必要な部分を指摘していけば、より良い結果が得られると思います。
以上が、Anthropic から今日発表された Claude 3.5 Sonnet についてでした。彼らが発表したばかりなので、この短い動画で私の簡単な感想をお伝えしたかったんです。この分野がどこに向かっているのか、とてもワクワクしています。
コメントや質問、試してほしいことがあれば、ぜひ教えてください。Anthropic の購読をしているので、これから数日間たくさんテストしていく予定です。彼らが行っていることにワクワクしています。特にビジョン機能に興味があります。そしてもちろん、アーティファクト機能も。
コメントを残してください。動画にいいねを押してもらえると本当に助かります。チャンネル登録もお願いします。皆さんがこの動画を楽しんでいるか、役立っていると感じているかを知る手がかりになります。
今日はこれで終わりです。次回の動画でお会いしましょう。さようなら。