2兆パラメータのAIが到来—Metaのllama 4が全てを変えた!

5,064 文字

The 2 Trillion Parameter AI Is HERE—Meta's LLaMA 4 Just Changed Everything!
Is Meta’s LLaMA 4 the most advanced AI ever built? The wait is over—Meta just launched LLaMA 4, a 2 TRILLION parameter A...

2025年1月、中国のスタートアップDeepseekが香港のHigh-Flyer Capital Managementの資金提供を受け、Deepseek R1という先進的な言語モデルを発表したことで、AI業界に大きな変化が訪れました。それまでDeepseekはあまり知られていませんでしたが、この状況は急速に変わりました。Deepseek R1は優れているだけでなく、Metaのような大企業のモデルをも凌駕しました。また、トレーニングコストも非常に効率的で、わずか数百万ドルと報告されており、これはMetaがトップAIチームリーダーに支払う額に匹敵します。低コストにもかかわらず、このモデルはオープンソースカテゴリで優れた性能を発揮しました。
Metaはこの展開に驚きました。彼らはAI戦略の一環として、Llamaブランドを通じて強力なオープンソースモデルの提供に注力していました。これらのモデルは、毎月7億人以上のユーザーに使用される場合を除き、無料で利用できるものでした(その場合は特別なライセンス料が適用される)。しかし今、Metaはより安価で非常に効果的な代替モデルとの厳しい競争に直面していました。最新のMetaモデルLlama 3.3は2024年12月にリリースされましたが、2025年1月にはDeepseek R1のリリースにより、すでに時代遅れと見なされるようになっていました。
この状況からMetaは迅速かつ重要な決断を迫られました。未来への希望に満ちた日、マーク・ザッカーバーグは彼のInstagramで大きなニュースを共有しました。彼はLlama 4と呼ばれる新しいAIモデルグループを紹介しました。これはMetaがDeepseekの課題に対応する方法でした。すぐに2つの新しいモデルがリリースされました。4000億パラメータのLlama 4 Maverickと1090億パラメータのLlama 4 Scoutです。プログラマーはすぐにllama.comやAI共有プラットフォームのHugging Faceでこれらを利用または調整し始めることができました。
また、さらに大きなモデルであるLlama 4 Behemothについても発表がありました。このモデルは2兆パラメータを持っていますが、まだリリースの準備ができていません。Metaはこのモデルがまだトレーニング中であり、具体的な発売日は提供されませんでした。人工知能においてパラメータとは、モデルの動作を決定する「つまみ」のようなものです。パラメータが多いほど、通常は強さと性能が向上します。Llama 4モデルは大きいだけでなく、テキスト以外のものも処理できるように設計されていました。
この新しいAIリリースをより深く理解するために、その独自の特徴と他のモデルとの違いについて詳しく見ていきましょう。
新しいタイプのモデル
3つのLlamaモデルは異なる種類のコンテンツを扱うことができました。つまり、テキストの読み書きだけでなく、ビデオや画像も処理できるということです。音声機能については明記されていませんでしたが、マルチモーダル設計への移行は大きな進歩でした。
もう一つの重要な側面は文脈の長さでした。これはモデルがどれだけのデータを一度に処理して出力できるかを意味します。Llama 4 Maverickは100万トークン(約1,500ページのテキストに相当)を同時に処理できました。一方、Llama 4 Scoutは1,000万トークン(約15,000ページ)を処理できました。これにより、長文書が頻繁に使用される医学、工学、文学などの分野に最適でした。一度に大量のデータを処理する能力は、これらのモデルに大きな利点をもたらしました。ユーザーは大量のコンテンツをモデルに入力し、それを小さな部分に分割する必要なく完全な応答を受け取ることができました。
Llama 4シリーズは「Mixture of Experts」(MOE)と呼ばれる技術を利用していました。この概念はOpenAIやMistralなどの他のAIラボによって普及しました。すべてのタスクを処理する1つの大きなモデルに依存する代わりに、MOEは「エキスパート」と呼ばれる複数の小さなモデルを組み合わせて連携させます。各エキスパートは特定のタスクを実行するよう訓練されており、ユーザーがメッセージを送信すると、そのタスクに必要なエキスパートのみが共通のエキスパートと共に応答します。これにより、システムはすべてのリクエストに対してすべてのリソースを使用する必要がなくなり、操作がより高速でコスト効率が向上します。
Llama 4モデルは128のエキスパートを利用していましたが、各トークンには少数のエキスパートのみが割り当てられ、システムの効率性を高めていました。MetaはLlama 4 Maverickが単一のNVIDIA H100 DGXサーバー、または性能向上のために複数のマシンで動作可能だと説明しました。これらのモデルは個人がセルフホストするために作られました。Metaはホスト型APIをリリースせず、自社サーバーでの使用料金も提供しませんでした。代わりに、オープンな配布を強調しました。これらのモデルはWhatsApp、Messenger、Instagram、Webなど、Metaのアプリ内AI機能にも組み込まれました。
大きな性能、小さなコスト
Metaは新しいモデルを利用するためのコスト見積もりを提供しました。Llama 4 Maverickの使用料金は、入力と出力のトークンの両方を考慮して、100万トークンあたり19セントから49セントの範囲でした。このコストはGPT-4oなどの他の人気モデルよりもかなり低く、GPT-4oはコミュニティベンチマークによると100万トークンあたり4.38ドルと推定されていました。
発表後まもなく、Grockというクラウド人工知能プロバイダーが価格を発表しました。彼らはLlama 4 ScoutとMaverickを非常に手頃な価格で提供しました。Scoutは入力に使用されるトークンに11セント、出力に使用されるトークンに34セント、両方の平均コストとして13セントを請求します。Maverickサービスのコストは、入力ごとに50セント、出力ごとに77セント、平均価格は全体で53セントです。手頃な価格により、より多くの企業や研究者が予算を気にせずにこれらのモデルにアクセスすることが可能になりました。
メタによるスマートな学習
Metaはモデルの訓練アプローチを刷新し、推論、コーディング、問題解決能力の向上を強調しました。彼らのトレーニング方法はDeepseek R1やOpenAIの推論重視モデルとは異なりましたが、それでもモデルは非常に有能でした。
Metaは特定のトレーニング方法を実施しました。まず、トレーニング中に使用される単純なプロンプトの半分以上を排除しました。次に、モデルに段階的により困難な課題を提示するループを実装しました。この戦略は、数学や論理などの複雑なタスクにおけるモデルのパフォーマンス向上に役立ちました。
また、「MeTiPe」と呼ばれる新しい方法も導入しました。このアプローチにより、1つのモデルの学習率などのトレーニング設定を構成し、その後、同じ設定をさまざまなサイズの他のモデルに使用することができました。これにより、トレーニングがより迅速かつコスト効率の良いものになりました。MeTiPeは小規模モデルを評価し、その結果を取得して、Behemothのような大規模モデルに同じアプローチを実装するために使用されました。このアプローチは、特に32,000個のGPUを必要とし、30兆以上のトークンを処理するBehemothのような巨大なものを扱う際に、時間と費用の節約に役立ちます。
Metaはllama 4モデルに対して野心的な目標を発表しました。マーク・ザッカーバーグは、彼らの目標は世界最高のAIを作成し、それを皆と共有し、広く使用できるようにすることだと述べました。Metaのブログ投稿によると、Llama 4 Scoutはそのグループで最高のマルチモーダルモデルであると宣言され、以前のLlamaバージョンを上回りました。Metaはこれらが世界で最強のモデルだとは主張せず、むしろLlama 4が同カテゴリの他のモデルと比較してどれだけ成功したかを強調しました。
これがベンチマークが明らかにしたことです。Math 500、GPQA Diamond、MMLU Proなどのテストでは、Llama 4 BehemothはGPT-4.5、Gemini 2.0 Pro、Claude Sonnet 3.7よりも良い成績を収めました。Llama 4 MaverickはChart QA、DOCVQA、Math Vista、MMUなどの分野でGPT-4oとGemini 2.0 Flashよりも優れていました。DeepSeek V-3.1と同等でしたが、使用するアクティブパラメータは少なくなっていました。Llama 4 MaverickはChart QAで90.0、DOCVQAで94.4のスコアを獲得しました。Llama 4 ScoutはMistral 3.1、Gemini 2.0 Flashlight、Gemma 3と同等かそれ以上の性能を発揮し、重要なテストでは高いスコアを達成しました。DOCVQAでは94.4、Math Vistaでは70.7でした。
Llama 4 vs Deepseek:トップでの接戦
複雑な思考タスクに関しては、LlamaはDeepseek R1、OpenAIのo1シリーズ、Claude Sonnet、Gemini 2.0などの最高のモデルの一部と考えられています。しかし、直接比較ではどうでしょうか?
ベンチマークテストを通じて、Behemothと呼ばれるハイエンドLlama 4モデルがDeepseek R1およびOpenAI o1-217と比較されました。結果は彼らの間の接戦を示しました。BehemothはMath 500テストで95.0点を獲得しましたが、これはDeepseek R1の97.3点とOpenAI o1の96.4点よりもわずかに低いものでした。ただし、BehemothはGPQA Diamondテストでは73.7点を獲得し、Deepseekを上回りましたが、スコア75.7のOpenAI o1には及びませんでした。MMLUベンチマークでは、Behemothは82.2点、Deepseekは90.88点、OpenAI o1は91.8点でした。BehemothはGemini 2.0 ProやGPT-4.5と比較してパフォーマンスの数値が低いものの、依然として高いランクを維持しています。
安全性への注力と将来
Metaは最新モデルLlama 4において安全性とアライメントを強く重視しています。このモデルにはLlama GuardやPrompt Guardなどの機能が搭載されており、プロンプトと応答の安全上の問題を監視します。また、Cyberscalでセキュリティ脆弱性を特定し、GOATと呼ばれるMetaの自動ツールで安全性テストを徹底的に行います。
Metaが心配しているのは安全性だけではなく、政治的偏見についても言及しています。Metaによると、以前のAIモデルは重要な政治的・社会的問題に対して左寄りの見解を示す傾向がありましたが、新しいLlama 4モデルはよりバランスが取れており、右派の意見により多く対応しているとのことです。この方向性の変化は、2024年の米国選挙でドナルド・J・トランプが権力に戻った後のMetaのCEO、マーク・ザッカーバーグの政治的立場に沿っています。
ScoutとMaverickはすでにリリースされており、Behemothも近日中に登場予定です。MetaによるLlama 4シリーズは、AI競争において強力な競争相手であることを示しています。これらの新しいモデルは様々な種類の入力と複雑な推論タスクを効果的に処理する能力を備えており、他のクローズドソースオプションと比較しても競争力のあるパフォーマンスを維持しています。

コメント

タイトルとURLをコピーしました