Llama 4 – Metaの「ほぼ無限の」コンテキストウィンドウ…(そして推論能力も？)

5,255 文字

Llama 4 Meta's "NEARLY INFINITE" Context Window... (also Reasoning?)

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

今日はクジラや巨獣、そしてラマについて話します。Metaが新しい最先端AIモデル群であるLlama 4をリリースしました。ご記憶かもしれませんが、数ヶ月前にDeep Seekが登場した際、多くの企業が慌てふためきました。特にMetaは、オープンソースAI分野の王者の座を取り戻すために、緊急対策チームを組織しました。
新しいモデルが注目を集めるためには、少なくとも一つの圧倒的に優れた特徴が必要です。Deep Seekは高速で安価、そしてオープンソースでした。R1は推論能力においてO1と比較してやや競争力がありましたが、オープンソースであり、信じられないほど安価だったことで勝利しました。アルゴリズムの革新により、より安価で高速になったことが勝因でした。O1が登場した時、それは最初の推論モデルだったため大きな話題となりました。
そして今、Llama 4が登場しました。性能は良好ですが、誰も予想していなかった画期的な新機能があります。それは、Llama 4 Scoutが1000万コンテキスト長のウィンドウを持つということです。これは現在、他のフロンティアラボでは類を見ないものです。マーク・ザッカーバーグは、これを「ほぼ無限のコンテキストウィンドウ」と表現しています。
Gemini 2.5 Proの100万トークンのコンテキストウィンドウでさえ、何かを作成しようとするとその広さを実感できます。考える余地がより多くあるように感じられます。我々もまた200万トークンのコンテキストウィンドウを持つことになりますが、ご覧のようにLlama 4はわずかな差ではなく大きく上回っています。一気に1000万トークンのコンテキストウィンドウまで飛躍しているのです。詳しく見ていきましょう。
このモデルには4つのレベルがあり、それぞれ異なる特徴を持っています。まず、Llama 4 Scoutは170億のアクティブパラメータ、16の専門家を備えています。これは専門家の混合モデルで、各専門家が自分の専門分野を担当し、あなたが求めている内容によって呼び出されてプロンプトを完成させます。総パラメータ数は1090億で、業界をリードする1000万コンテキスト長と、速度のための最適化された推論を備えています。これが一般的なハードウェアで動作するかどうかについては少し議論がありますが、それについてはすぐに触れます。
次にLlama 4 Maverickがあります。170億のアクティブパラメータ、128の専門家を持ち、ネイティブのマルチモーダル能力と100万トークンのコンテキスト長を備えています。このモデルは画像やビデオなどを見ることができるマルチモーダル能力を持ち、100万トークンのコンテキスト長は依然として非常に大きいものです。
そして、まだ完全には利用できないLlama 4 Behemoth（これはかなりの名前です）は、2880億のアクティブパラメータ、16の専門家、2兆の総パラメータを持っています。
アクティブと総パラメータについて説明すると、アクティブは特定のプロンプトに対して使用される可能性が高いものであり、総パラメータはモデルが持つパラメータの総数です。専門家の混合方式では、一度にすべてを使用するわけではありません。例えば、1000人が働く企業があって、特別なプロジェクトのために100人を呼び集めたとすると、その部屋にいる100人があなたの特定のプロジェクトのアクティブな作業者であり、会社全体の総労働者数は1000人ということになります。ここでも同様にアクティブ対総パラメータという考え方です。
Llama 4 Scoutは業界をリードする1000万のコンテキストウィンドウを提供し、Gemma 3、Gemini 2.0 Flashlight、MR 3.1よりも優れた結果を出します。ここで本当に重要なのは、実際に使用して自分の特定のユースケースでテストし、違いを確認することだと思います。
次にLlama 4 Maverickですが、これはGPT-4oやGemini 2.0 Flashを上回り、新しいDeep Seek V3に匹敵する結果を出しています。これが皆の注目を集め、すべてに火をつけてMetaチームを急速な開発に駆り立てたものです。彼らは特に推論とコーディングにおいてこれに匹敵するものを作り出しましたが、アクティブパラメータは半分以下です。これが彼らのキラーユースケースで、コスト比率に対する最高クラスのパフォーマンスという考え方です。
LM Arenaでは、ランク2に上昇し、ChatGPT 4やGrok 3 Previewと互角になっています。ライセンスについて、彼らは「Llama」と言っていますが、DeepSeekはMITオープンソースの、より許容度の高いライセンスです。Llamaライセンスは「オープンソース」と呼ばれますが、少しアスタリスクを付ける必要があります。独自の制限や制約が追加されているからです。
次にLlama 4 Behemothですが、これは彼らの最も強力なモデルであり、世界で最も賢いLLMの一つです。いくつかのSTEMベンチマークではGPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Proを上回ります。ここで注目すべきは、これが蒸留のための最も知的な教師モデルだと言っていることです。知識を蒸留し、基本的に他のモデルをトレーニングするための合成データを作成するために使用する場合、これがそのために使用されるモデル、つまりBehemothであり、他のモデルを構築するための卵を産む女王エイリアンのようなものです。
ここで彼らが述べているように、開放性、つまりオープンソースがイノベーションを促進し、開発者にとっても、Metaにとっても、世界にとっても良いものだと彼らは信じています。前に話したように、中国は非常に優れたオープンソースモデルをAIとロボット工学の両方で多数リリースしており、中国からさらに多くのオープンソースの波が視覚などすべてのものに対して見られることが期待されています。
例えばTwitterのBalajiのように、これは米国の大手テック企業に対抗するための彼らの戦術かもしれないと言う人もいます。非常に優れた、非常に効率的なオープンソースモデルで世界市場を溢れさせることができれば、それは確かに米国の大手テック企業がAIで稼ぐ能力を損なうでしょう。中国はハードウェア、製造、ロボット、小物、電話などの生産がはるかに優れています。オープンソース戦線でソフトウェア、AIをリリースすることで大手テック企業を弱体化させることができれば、それは彼らにとって勝利戦略になるかもしれません。
これはただの理論であり、議論されていることですが、ご覧のようにMetaはその反対側にいます。彼らはオープンソースAIの世界的リーダーになろうとしています。4月29日のLlama Conでこれらのモデルがどのように構築されたかについてさらなる発表があるようです。
まず最初に、これまでMetaは専門家の混合を使用していませんでした。以前のモデルはすべて「密なモデル」と呼ばれるもので、必要に応じて呼び出される複数の専門家ではなく、一つのものでした。ここで言っているように、専門家混合モデルでは、各トークンが総パラメータのほんの一部だけを活性化させます。会社のすべての従業員ではなく、そのプロジェクトを扱っている特定のサブセットだけです。この構造は、トレーニングと推論のためにより計算効率が良く、固定されたトレーニングのフロップス予算を考えると、密なモデルと比較してより高品質を提供します。
現在、GPUの不足があり、それは確かに制限の一つであり、AIのスケールアップにおける最大のボトルネックの一つです。EMoEアーキテクチャを実行すると、GPUと使用時間の限られた予算がある場合、より効率的なトレーニングと推論が得られます。
ここにあるように、入力と出力トークン100万あたりの非常に合理的なコストです。確かにGPT-4oよりもはるかに安価です。MMUの画像推論で勝ち、Math Vistaでも勝っています。Gemini 2.0 Flashよりも少し優れており、GPT-4oよりもはるかに優れています。画像理解のLive Code Benchでも勝利しています。
Deep Seek 3.1が少し優れていて、いくつかのベンチマークで少し良いようです。ここで彼らは3.1の日付が不明だと言及しています。彼らは内部結果を提供しています。いつものように、これらのベンチマークは最初の段階でこれらのモデルがどこに適合するかを理解するのに役立ちますが、それがすべてではありません。最終的には、誰もが自分が最も得意とするものを示す傾向があり、最終的にはあなた自身のユースケースが重要です。これらのほとんどは素晴らしく、非常に合理的で素晴らしいパフォーマンスですが、最終的にはユーザーがどう感じるかが重要です。
もちろん、Llama 4 Scoutは1000万トークンウィンドウモデルであり、初期には、これらの大きなコンテキスト長には大量のテキスト内で特定の情報を見つけることができるかという問題がありました。Googleはこれらの検索ニードルとヘイスタックテストの結果を公開し始めた最初の企業の一つでした。ここでは、テキストのニードルとヘイスタックテストの結果と、右側にはビデオの結果があります。マルチモーダルであることを忘れないでください。Llama Scoutも同じサイズの比較可能なモデルに対して非常に良い成績を上げていますが、もちろんコンテキストウィンドウの面では圧倒的に大きいです。
そして2兆パラメータのBehemothがあります。これは教師モデルと呼ばれ、特定のユースケース向けに他のモデルを作成する能力があります。数学、多言語性、画像ベンチマークにおいて非推論モデルでは最先端のパフォーマンスを持ち、より小さなLlama 4モデルを教えるのに最適な選択です。ここで見られるように、コードはまだLlama 4 Maverickであり、Llama 4 Behemothからの中間サイズのモデルです。それがLlama 4 Maverickの教師モデルです。
もちろん、いわゆる「オープンソース」ライセンスについては、完全にオープンソースではありません。Llamaライセンスは独自のものです。まず第一に、EUのユーザーと企業はモデルの使用や配布が禁止されています。EUの法律により、これらの企業が規制を満たすことが非常に困難になっています。そのため、これらのモデルの多くはEUに登場しないか、大幅に遅れるか、または深刻に制限されています。それは残念なことです。EUの指導者の一部は徐々にこの見方を変え始めているようです。イノベーションをサポートし、EUの市民がこれらのモデルを使用できるようにするための負担を少し軽減する必要があることを認識し始めています。
ここにEUについての具体的なテーマがあります。EUの個人と企業は一般的にこれらの特定のモデルを使用することが禁止されているようです。これをChatGPTで調べると、いくつかの例外が見つかりました。EU外の企業は製品やサービスを開発し、EU内で配布することができるようです。また、EU内に住んでいる従業員がEU外の企業のために働いている場合、Llamaエコシステムを使用して開発することができますが、個人的なプロジェクトや目的で使用することはできません。
なぜEUがこのような負担の大きい規制を人々に課すのか理解できません。重要な技術のように思えますが、なぜ統治しようとしている人々がアクセスできないようにするのでしょうか？良いアイデアとは思えません。コメント欄であなたの考えを教えてください。もし規制を作って企業があなたの国で製品をリリースできないようにするなら、基本的にその製品をあなたの国で違法にしているようなものです。AIが登場し始めた時、EUは規制を最初に導入したいと言っていました。それが彼らの唯一のことでした。これらの規制をすべて最初に導入しました。しかし、彼らの一部がそれについて考え、「おそらく良いアイデアではなかった」と思い始めていることを願っています。何か見落としているものがあれば教えてください。
そしてTwitterで多くの人が指摘しているように、Llama 4 Reasoningが来ているようです。このURLにアクセスすると、「Coming Soon」と書かれた小さなティーザーが表示されます。もちろん近々来るものには、私がこれらのモデルを詳しく調査してテストすることも含まれています。