メタがLLaMA 4を発表!

6,380 文字

LLaMA 4 is HERE! Meta Just COOKED
Llama 4 is coming soon to Box AI! Visit to learn more!Join My Newsletter for Regular AI Updates 👇🏼 Links ?...

メタがついにLLaMA 4を発表しました。1000万トークンのコンテキストウィンドウサイズという驚異的な性能を持ち、小・中・大の3つのバージョンが用意されています。これについて全てお伝えします。
こちらがブログ記事です。「LLaMA 4シリーズ:ネイティブマルチモーダルAIイノベーションの新時代の始まり」
本日発表されたLLaMA 4には3つのバージョンがあります。そのうち2つは即座にダウンロード可能で、1つは近日公開予定です。まず知っておくべきことは、3つ全てがマルチモーダルであるということです。これはテキスト、画像、その他のモダリティを入力および出力できることを意味します。現時点での情報によれば、3つのモデル全てがMixture of Experts(専門家の混合)モデルとなっています。まだ「思考モデル」ではありませんが、これについては後ほど説明します。今後の展開を示す小さな手がかりもあります。
まず、LLaMA 4 Scoutです。これは合計1090億のパラメータを持つモデルで、最小サイズとは言えこれ自体が驚異的なサイズです。3つのモデル全てが非常に巨大なモデルとなっています。1090億の全パラメータのうち、170億がアクティブパラメータで、16のエキスパートを持っています。Mixture of Expertsでは、モデルの異なる部分が異なるタスクを得意としています。1000万トークンのコンテキスト長を持ち、これまで市場をリードしていたGeminiの200万トークンと比較すると、200万トークンでさえ最先端だったのに、今では1000万になりました。これは信じられないほどで、このようなコンテキストウィンドウサイズで多くのユースケースが可能になります。メタの関係者たちが「業界をリードするほぼ無限の1000万トークンコンテキスト長」と表現しているのをよく目にします。「ほぼ無限」というわけです。コンテキストの制限時代はもうすぐ終わるかもしれません。
次にLLaMA 4 Maverickです。これも170億のアクティブパラメータを持つモデルで、今度は128のエキスパートを持ち、合計4000億の全パラメータとなります。ネイティブマルチモーダルで、100万のコンテキスト長を持ち、この数字はおそらく今後さらに増加するでしょう。
そして発表されたものの、まだリリースされていないモデル、LLaMA 4 Behemothについてですが、これはなんと2兆の全パラメータを持つという巨大モデルです。これはフロンティアモデルであり、ClaudeのモデルやOpenAIのGPTモデル、最も知的な教師モデルに匹敵するサイズです。信じられないほどで、このモデルは近日公開予定です。
現時点で判明している限りでは、これもまだ「思考モデル」ではありませんが、このチームにとって思考機能を追加することは非常に簡単でしょう。
ベンチマークを見せる前に、いくつか事実をお伝えします。LLaMA 4 Scoutは、最小と言われていますが、170億のアクティブパラメータと16のエキスパートを持ち、クラス最高のマルチモーダルモデルで、以前の全てのLLaMAモデルよりも強力であり、NVIDIA H100 GPU一台に収まります。LLaMA 4 Scoutは業界をリードする1000万のコンテキストウィンドウを提供し、広く報告されている幅広いベンチマークにおいて、Gemma 3、Gemini 2.0 Flash、Mistral 3.1よりも優れた結果を出しています。
これは素晴らしいことですが、Gemma 3、Gemini 2.0 Flash、Mistral 3.1などは全体のサイズでははるかに小さいモデルなので、厳密には比較対象として適切ではないかもしれません。しかし、アクティブパラメータの観点では同等です。1000万以上のトークンコンテキストウィンドウにより、企業のユースケースが爆発的に増えることでしょう。
そのため、BoxがLLaMA 4をBox AI Studioに近日中に導入することをお知らせできることを嬉しく思います。すべてのビジネスは膨大な量の非構造化データの上に成り立っていますが、このデータの真の可能性はまだほとんど活用されていません。問題は、そのような非構造化データの分析が非常に困難だったことですが、今はもうそうではありません。
ここでBox AIの出番です。Box AIを使えば、開発者やビジネスは最新のAIのブレークスルーを活用して、ドキュメント処理やワークフローを自動化し、コンテンツから洞察を抽出し、そのコンテンツで作業するカスタムAIエージェントを構築するなど、多くのことができます。Box AIは主要なモデルプロバイダーと連携しているため、常に最新のAIをコンテンツで使用できます。
契約書や請求書、財務文書、履歴書などからキーとなるメタデータフィールドを抽出してワークフローを自動化できます。また、Box エコシステム内のセールスプレゼンテーションや長い研究レポートなど、あらゆるコンテンツに質問することもできます。開発者の場合、Box AIのAPIを活用して、独自のコンテンツの上に本当にクールな自動化やアプリケーションを構築できます。Box AIは、RAGパイプライン全体を代わりに処理します。
これらすべてを、115,000以上の企業が信頼している最高レベルのセキュリティ、コンプライアンス、データガバナンスを維持しながら行えます。Boxによるインテリジェントなコンテンツ管理でコンテンツのパワーを解き放ちましょう。改めてBoxに感謝します。
さて、ビデオに戻りましょう。次にLLaMA 4 Maverickは、GPT-4oとGemini 2.0 Flashを全面的に上回り、最近登場したDeepseek V3と同等の結果を推論とコーディングで達成していますが、アクティブパラメータは半分以下です。特に優れているのはコンテキストサイズだけでなくコストです。実行が非常に安価で、これについてもすぐにお見せします。
LLaMA 4 Maverickは、実験的なチャットバージョンでElo 1417を記録し、クラス最高のパフォーマンス対コスト比を提供し、2位になりました。現在LM Marinaを見てみると、Gemini 2.5 Proがまだ1位で20ポイント以上高いですが、オープンソースでオープンウェイトのLLaMA 4 Maverickが2位です。今すぐダウンロードできます。
興味深いのは、本日発表されたが未リリースのBehemothモデルが、他のLLaMA 4バージョンの訓練に使用された蒸留モデルであることです。まだ調整中でさらに良くなっています。リリースされる頃には、Maverickと Scoutモデルの4.1バージョンのような蒸留版が可能かもしれません。
興味深いのは、Behemothモデルは2880億のアクティブパラメータを持ちながら、エキスパートはわずか16です。このモデルは今日は利用できませんが、これまでで最も強力なモデルです。世界最高のLLMの中でも、いくつかのSTEMベンチマークでGPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro(2.5ではない)を上回っており、まだトレーニング中です。信じられないことです。
アーキテクチャについて少し話しましょう。LLaMA 4モデルは、Mixture of Expertsを使用した最初のモデルです。興味深いことに、現在のトレンドは「思考モデル」ですが、Mixture of Expertsは少し時代遅れに感じられるかもしれません。しかし、これらは強化学習を活用して思考能力を生み出すことができる基本モデルです。
基本的にはこのような感じです。注意機構とプロンプトが入力され、共有エキスパートとルーターがあります。ルーターは16の異なるエキスパートのいずれかに向かい、それをまとめて最終出力が生成されます。ここには多くの技術的詳細がありますが、このブログ記事へのリンクを下に貼っておきます。
続いて、LLaMA 4は200の言語で事前トレーニングが行われており、そのうち100以上は10億トークン以上あり、全体としてLLaMA 3より10倍多い多言語トークンを使用しているため、オープンソースの微調整の取り組みを可能にします。これは非常に優れた言語モデルです。
品質を犠牲にせず、効率的なモデルトレーニングのためにFP8を使用し、高いモデルFLOPS利用率を確保することに焦点を当てています。FP8と32,000 GPUを使用してLLaMA 4 Behemothモデルを事前トレーニングする際に、GPU当たり390 TFLOPSを達成しました。非常に効率的なトレーニングです。
ベンチマークを見てみましょう。これはLLaMA 4 Maverickで、まずコストを見てみましょう。彼らは推論を自分たちで提供しているわけではないと思うので、コストについていくつかの仮定を立てています。間違っているかもしれませんが、WhatsAppやMeta.aiなどの自社製品に組み込んでいて、実際にはAPIエンドポイントとして提供していないと思います。パートナーにそれを任せています。
入力および出力トークン100万あたりのコストについて、3:1のブレンド率で19セントから49セントという信じられないほど安価です。Gemini 2.0 Ino Flashは17セントですが、これから見るようにLLaMA 4 Maverickの方が優れています。Deepseek V3.1は高い範囲にあり、GPT-4oは驚異的な$4.38です。これは大幅に下げる必要があるでしょう。これはGPT-4.5ではなく、それはさらに高価です。
画像推論MMUベンチマークでは、Maverickは73.4のスコアで、他のモデルと比較しています。Deepseek V3.1はマルチモーダルサポートがなく、Math Vistaは73.7、画像理解ベンチマークのChart QAは90、Doc VQ QAは94.4で、基本的にクラス内の競合モデルを全面的に支配しています。
Scoutモデルを他のモデルと比較してみましょう。同じベンチマークでLLaMA 3.370B、LLaMA 3.1405B(マルチモーダルサポートなし)、Gemma 327B、Mistral 3.124B、Gemini 2.0 Flashlightと比較しています。そして予想通り、LLaMA 4 Scoutが勝っています。
唯一の例外は、興味深いことにLive CodebenchでLLaMA 3.370Bがわずかに上回っています。
注目すべきことに、1000万以上のトークンコンテキストウィンドウを持つLLaMA 4 Scoutは、256kのコンテキスト長で事前トレーニングとポストトレーニングの両方が行われており、ベースモデルに高度な長さの一般化能力を与えています。基本的に、通常よりもはるかに大きなコンテキストウィンドウでトレーニングされているため、実際に提供される際にはさらに大きなコンテキストウィンドウを持つことができます。
こちらは「干し草の山から針を見つける」テストです。青は成功、白は失敗を意味します。LLaMA 4 Maverickは100万トークンまで対応しています。いくつかの小さな失敗がありますが、LLaMA 4 Scoutは1000万トークンまで対応し、青一色で失敗が一つもありません。非常に大きなテキストの壁から情報を思い出す能力において非常に高いパフォーマンスを発揮しています。
こちらはビデオを使用したLLaMA 4 Scoutです。マルチモーダルであることを思い出してください。ビデオ、画像など全てを理解できます。ビデオの長さは時間単位で、20時間のビデオまで対応しています。いくつかの小さな失敗がありますが、全体的にはまだ非常に優れています。
これらは推論モデルではないとお伝えしましたが、近日中に登場するかもしれないものについての小さな手がかりがあります。llama.com/lama4reasoningというサイトがあり、「もうすぐ登場」と表示されています。そこには素敵なラマのビデオがあり、「お待ちください」と伝えています。
いくつかの問題があります。最大の問題はライセンスのようで、これはLLaMA 3でも問題でしたが、今も続いています。MITライセンスのような標準化されたライセンスを使用していません。
マキシム・ラボンによると、LLaMA 4の新しいライセンスにはいくつかの制限があります。7億人以上のアクティブユーザーを持つ企業は特別なライセンスを要求する必要があり、メタはそれを許可または拒否できます。これはLLaMA 3と全く同じ制限でした。まだ良くありません。
ウェブサイト、インターフェース、ドキュメントなどに目立つように「built with Llama」と表示する必要があります。これもLLaMA 3の場合と同じでした。まだ良くありません。
LLaMAの材料を使用して作成するAIモデルは、その名前の最初に「llama」を含める必要があります。これはそれほど大きな問題ではないように思えます。
配布物と一緒に、特定の帰属通知を通知テキストファイルに含める必要があります。これも軽い要件のようです。
メタの別の利用規約に準拠する必要があります。これは今は読みませんが、オープンソースモデルで私に提供するなら、それで好きなことをさせてください。
AIリーダーのジェレミー・ハワードはLLaMA 4について何か言っていました。基本的に、最小バージョンでさえ、消費者向けGPUで実行することはできません。しかし、もしかしたら可能かもしれません。彼の言葉を読みましょう。
「どちらのモデルも巨大なmixture of expertsで、量子化しても消費者向けGPUでは実行できません。これは考えられないことです。しかし、おそらくLLaMA 4はMacで実行するのに適しているかもしれません。Macは多くのメモリを持つことができ、計算能力が低いことはそれほど問題ではありません。アクティブなパラメータが少ないからです。」
それは素晴らしそうです。私はちょうど96GBのRAMを持つこのMac Studioを購入したので、試すのが楽しみです。テスト用に2台のRTX A6000も持っているので、これらのモデルを必ず試します。
Googleの主任科学者ジェフ・ディーンは「なぜ消費者向けGPUで実行できないのですか?」と尋ねています。ジェレミーは「最小の109Bモデルを4ビット量子化しても、4090や複数の4090に載せるには大きすぎます」と回答しています。そしてメタの誰かが「準備中です」と言っているようです。何が準備中なのでしょうか。そのうち分かるでしょう。
Stability AIの創業者エマド・モスティクは「1.58ビットが勝利する」と言っています。そうですね、とにかく超量子化して実行することになるでしょう。
近日中にさらに多くのモデルが登場する予定です。推論モデルが近日中に登場することは確実です。ほぼ無限のコンテキストウィンドウを持ち、超高速なモデルがあります。私たちはオープンソースの時代にいます。これで遊ぶのが非常に楽しみです。
このビデオを楽しんでいただけたなら、いいねとチャンネル登録を検討してください。

コメント

タイトルとURLをコピーしました