メタ社がLlama 3.2をリリース | 新しい小型モデルと画像認識モデルが登場！

6,064 文字

Meta releases Llama 3.2 | NEW small & vision models are here!

To learn how to build with LLMs, check out my new courses here: code YOUTUBE20 to get an extra 20% off. The discount is ...

おう、ファイアワークスもLlama 2.2の110億パラメータの画像認識ショックモデルを公開してはるわ。これも試せるさかい、ちょっと手っ取り早く試し方を見せたるわ。
ほな、ここにモデルに画像を与えて、「これをJSONに変換してくれ」言うて、この請求書をJSONに変換してもらったんや。ほんで、ここでどないにJSONに変換してるか見られるわな。もうちょい詳しく見てみて、これが正しいかどうか確認してみたんやけど、他のモデルでも既にこのテストをやってみて、ほとんどの情報がもう入ってるのがわかったわ。
これは見事やな。小計も正しいし、他のオプションもあるし。
メタ社が今回Llama 3.2をリリースしたんやけど、これには軽量モデルとLlamaシリーズ初の画像認識モデルが含まれてんねん。この動画では、発表の詳細を見ていって、これらのモデルをどこで試せるかも紹介するで。
ほんじゃあ、要点をまとめてみるわ。基本的に、Llama 3.2の発表やねんけど、これには小型から中型サイズの画像認識LLMが含まれてんねん。110億パラメータのモデルと900億パラメータのモデルがあるんや。
それに加えて、軽量モデルもあって、これはテキストオンリーの10億パラメータと30億パラメータのモデルなんや。これらは、エッジデバイスやモバイルデバイスに搭載するのが目的やねん。つまり、こういう小型デバイスでのLLMの応用を狙ってんねや。
それから、全てのモデルに事前学習版と教示調整版があるんやで。3.2の10億と30億モデルは、12万8000トークンのコンテキスト長に対応してんねん。これが面白いんは、こういうモデルをエージェント型のワークフローに使えるようになるからや。これがターゲットの一つやと思うわ。
オンデバイスの用途では、要約、指示に従う、書き直しタスクなんかで最先端の性能を発揮するって報告されてんで。
110億と900億の画像認識モデルは、対応するテキストモデルの代わりにそのまま使えるように設計されてんねん。報告されてる結果はかなり良くて、実際、今日利用可能な同じくらいのサイズのモデルと競争力があるんやで。
それから、Llamaスタックディストリビューションについても触れてはるわ。これは新しい取り組みみたいやけど、開発者がLlamaモデルの上に簡単に構築できるようにするのが目的やねん。RAGアプリケーションやエージェント型のワークフローなど、あらゆる種類のアプリケーションを構築するのに活用できる様々な機能やAPIがあるんや。
異なる環境でこれらのモデルを使えるんやで。シングルノードのオンプレミス、クラウド、オンデバイスなんかがあって、コミュニティがこれらのAPIをどう採用するか見てみるのは面白いと思うわ。
ほんじゃあ、この発表のポイントをいくつか見ていこか。詳細がようけあるから全部には触れへんけど、面白いところをピックアップしていくわ。
これらが3.2モデルやねん。110億と900億の画像認識モデルがあるんやけど、これらのモデルはテキストベースのタスクでもめっちゃ優秀なんや。画像認識機能を持たせるために学習させたけど、テキスト能力を犠牲にせんかったからな。
ここに画像認識の教示調整モデルの結果があるわ。L3.2とGPT-4miniを比較してるんやけど、GPT-4miniは以前から様々な画像関連タスクに使ってきたモデルで、かなり優秀やねん。
正直、CloudtreeモデルではあんまりうまくいかんかったんやけどGPT-4モデル、特にGPT-4miniは画像関連タスクで普通はええパフォーマンス出すんや。そやけど、ここでの結果を見ると、おもろいことになりそうやな。
これについてツイートしたんやけど、より高度なエージェント型システムを構築する段階に入ったら、テキストだけじゃなくて画像認識能力も必要になってくるんやろうな。これによって、多くの開発者が今興味を持ってる複雑なアプリケーションが構築できるようになるわけや。
ここで比較してみると、GPT-4miniよりも多くのベンチマークで優れたパフォーマンスを示してるのがわかるやろ。例えばMMLUなんかは多くの人が注目してるけど、そこでのパフォーマンスギャップを見てみ。全体的に優秀なモデルやな。
次に軽量な教示調整ベンチマークがあるんやけど、これは小型モデルのものや。テキストオンリーモデルのパフォーマンスが見られるわ。10億と30億を比較すると、明らかにパフォーマンスが向上してるんやけど、GoogleのGemma 2やMicrosoftの53.5と比較してるのが面白いわ。
この53.5モデルはかなり優秀なんやけど、これらのモデル間のパフォーマンスギャップが見られるわな。でもGemma 2の20億モデルと比べると、これがより比較対象として適切やと思うんやけど、このモデルが全体的にかなり上回ってるのがわかるやろ。
これはすごいことやで。非常に強力な小型モデルが利用可能になったってことやからな。めっちゃ速くて、様々なアプリケーションに使えるんや。
L3.2の10億と30億モデルは、モバイルアプリケーションとかそういった用途向けやねんけど、普通のアプリケーションにも使えると思うわ。ただ、これらのモデルの作り方と軽量化によって、エッジデバイスやモバイルデバイス向けのアプリケーションも新たに可能になったんやな。
ここでは画像認識モデルの学習方法についてもう少し詳しく説明されてるわ。言語モデルの性能を犠牲にしてへんって言うてるけど、クロスアテンション層を使って、事前学習済みの画像エンコーダーを事前学習済みの言語モデルに統合するためにアダプター重みを使ってんねん。つまり、テキスト能力はそのまま残ってるってことや。
ここでは、Llama 3.1モデルの代替として開発者に提供してるって書いてあるな。
画像認識モデルで何ができるかのサンプルとデモがあるわ。画像理解に役立つし、情報について推論したり、チャートやグラフ、その他の視覚関連タスクを分析したりできるんや。
ここでは、小型モデル、つまり10億と30億のLlama 3.2モデルをどないに作ったかについて説明してるわ。他の企業、例えばNVIDIAなんかと似たようなことをやってるんやけど、これは私のTwitterアカウントでも取り上げたことがあるな。
プルーニングを使ってるんやけど、これはもちろんサイズを減らすのに役立つわな。それから知識蒸留も使ってるんやけど、これはLlama 3.1モデルをリリースしたときに話題になったことやな。これらの技術を使って、より性能の高い小型モデルを作り出すのが目的やったんや。ここでその詳細を共有してるわけや。
ここに面白いチャートがあって、Llama 3.1の80億と700億モデルから論理データを使ってるのがわかるやろ。これは事前学習用やねん。それから、これらのモデルの教示調整、つまり学習後の段階では、教師あり微調整や棄却サンプリング、直接選好最適化といった今や古典的な技術も活用してんねん。
これらのモデル、つまりLlama 3.2の10億と30億の教示モデルのええとこは、12万8000トークンに対応してることやな。これは学習後に行われてて、合成データも使ってるんや。
ここで450億の教示モデルを使ってるって書いてあるけど、このモデルをどう使うんかって疑問があったとしたら、ここに答えがあるわな。将来の基盤モデルを学習させるために合成データ生成に使うんや。これはええ例やと思うわ。これは面白い展開やし、多くの企業がこの流れに追いついてきてると思うわ。
多くのスタートアップが知識蒸留にこういったモデルを使い始めてるのを見てるけど、これはほんまに面白い動きやな。合成データの収集もやな。
ここにいくつかデモがあるんやけど、これが特に気に入ったわ。簡単なLlamaエージェントを作って、それと対話できるんや。メールの要約とかそういうアプリケーションを作れるんやけど、その要約からアクション項目を抽出できるんや。これらのモデルにはツール使用能力もあるからな。そこからミーティングを作れるわけや。
こういう風にこれらのモデルを使うのは面白いと思うわ。ここでまた小型モデルの話に戻るけど、オープンリライト評価についても触れてるな。他のモデルもこれについて結果を報告してるけど、Llama 3.2の10億と30億モデルがこの特定のタスクでずっと優れてるのがわかるやろ。
ここでデモされてるけど、これは情報の一部を書き換えるタスクやな。これもかなり有用なタスクやと思うわ。これらのデモは未リリースの量子化モデルに基づいてるから、それは覚えといてな。
ここにもう一つの例があって、ライティングアシスタントやな。メールを書くのを手伝ってくれたりするんや。もちろん、より軽量やから明らかに速いモデルになってるわな。
リリースのこの部分が面白かったんやけど、これについてはあんまり話題になってへんし、実際メタのLlama 3の取り組みのこの部分について知ってる人はあんまりおらんと思うわ。
私の理解では、開発者がこれらのLlamaモデルを使って本当に複雑なアプリケーションを簡単に構築できるようにするためのAPIを作ってるんやね。採用については正直わからんけど、こういったエージェント型アプリケーションを構築するための専用APIがあるっていうアイデアは気に入ったわ。
プロンプトストアやプロンプティング、安全性関連の機能もあるし、アシスタントを構築したり、メモリコンポーネントやオーケストレーターもあるんや。これらの異なるコンポーネントは、エージェント型アプリケーションを構築する上で重要な要素をコミュニティで模索してる段階やと思うわ。
これらは全て変わる可能性があるし、進化していくやろうけど、こういった初期の取り組みが好きやな。コミュニティにもっと標準化されたものを提供しようとしてるのがええと思うわ。だって、このモデルを実行する方法も、Llamaモデルの上に構築する方法もようけあるからな。
でも、メタ社が実際にこれらのAPIを構築する initiative を取ってるのは、ほんまにええ兆候やと思うわ。これによって、Llamaモデルの採用がさらに促進される可能性もあるしな。
これには、Llama CLIも含まれてんねん。これはめっちゃクールやわ。だって、開発者はこういうの好きやからな。CLIからこれらのモデルと対話できるんや。それに、Python、Node、Kotlin、Swiftなどの異なる言語のクライアントコードサポートもあるし、Dockerコンテナもあるんや。
複数のディストリビューションがあって、これらの異なる環境がサポートされてるのがわかるやろ。シングルノード、クラウド、これらすべてのクラウドプロバイダーでのLlamaスタックディストリビューション、それからオンデバイスのLlamaディストリビューションもあるんやな。こっちはiOS向けで、PyTorchで実装されてるんや。それからオンプレミスもDellによってサポートされてるわ。
メタのLlamaの取り組みで気づいたんは、ようけの開発者やパートナーを巻き込んでるってことやな。これはすごいええことやと思うわ。標準化についてようけ話してるけど、標準化できるのは他の企業がやってることからインプットを得て、開発者が採用しやすくて、簡単に上に構築できるものを開発することやと思うんや。
今日、複雑なエージェント型アプリケーションを構築したいと思ってるけど、今利用可能なフレームワークの多くはある程度までしか行けへんのや。だから、このLlamaディストリビューションがこれからどう発展していくか見るのは重要やし面白いと思うわ。もちろん、これにはようけのサポートとフィードバックが必要やな。
もし使う機会があって、試してみられたら、このブログ記事のどこかにリポジトリへのリンクがあるから、試してみて、チームにフィードバックを提供してみてな。私もそうするつもりやで。
ここは安全性に関することやな。これも重要やから見てみてな。他にもガイドがあって、これらは全部パートナーやな。
全体的に、メタがリリースしたものにはほんまに感心したわ。開発者がアプリケーション、特にモバイル系のアプリをLLMの上に構築しやすくするために、軽量モデルに焦点を当ててるのがええと思うわ。
画像認識モデルもええな。これらは我々が待ち望んでたモデルやからな。だから、これらのモデルをもっと深く掘り下げて、GPT-4の画像認識機能を持つモデルや、Cloudモデルとどう比較されるか見るのが楽しみやわ。
Llamaモデルシリーズについての詳細は、このウェブサイトで見つけられるで。ここにもっと詳しい情報があるし、Hugging Faceも全てのモデルをホストしてるんや。
最後に強調しておきたいのは、もし興味があるなら、これらのモデルをどこでテストできるかってことや。試してみたい場合は、Fireworksがええと思うわ。他にもこれらのモデルをテストできるサービスはあるけど、私はFireworksを使う傾向があるんや。新しいモデルを簡単にテストできるようにしてくれるのがほんまに気に入ってんねん。
ここではLlama 3.2 GB教示モデルが利用可能やで。ここに行って試してみてな。別の動画でやってみるつもりやわ。
Fireworksは、Llama 2.2の110億パラメータの画像認識ショックモデルも利用可能にしてくれてんねん。これも試せるさかい、ちょっと手っ取り早く試し方を見せたるわ。
ほな、ここにモデルに画像を与えて、「これをJSONに変換してくれ」言うて、この請求書をJSONに変換してもらったんや。ほんで、ここでどないにJSONに変換してるか見られるわな。もうちょい詳しく見てみて、これが正しいかどうか確認してみたんやけど、他のモデルでも既にこのテストをやってみて、ほとんどの情報がもう入ってるのがわかったわ。
これは見事やな。小計も正しいし、他のオプションもあるし。
とにかく、これらがテストできる場所やな。説明欄にリンクを載せとくし、私も試してみるつもりやから、このビデオのフォローアップで、楽しみにしてる機能や、これらのモデルで他に何ができるかについてもっと話すつもりや。
ほんじゃ、このビデオが気に入ったらいいねしてな。まだやったら登録もしといてや。そしたら次のビデオも見逃さへんから。
それと、これらのモデルでほかに何をテストしてほしいか、どう使うつもりか、他に何か質問があれば、コメント欄に書いといてな。これらのモデルについて既に知ってることについて、もっと詳しく説明したるわ。
見てくれてありがとう。次の動画でまた会おな！