

メタが待望のLlama 3.1 405億パラメータ大規模言語モデルをついにリリースしました。議論すべき点が多く、彼らの研究論文でも多くのことが語られています。まず、発表ビデオをご覧いただき、その後、彼らが言及しなかった多くの詳細や、驚くべきベンチマークについて掘り下げていきます。
本日、4月に予告した405億パラメータモデルのLlama 3.1をお届けできることを嬉しく思います。また、870億モデルも性能と機能を向上させて更新しています。405億モデルは、間違いなくこれまでにリリースされた中で最大かつ最も能力の高いオープンソースモデルです。推論、ツール使用、多言語性、より大きなコンテキストウィンドウなどの改善が加えられており、本日発表する最新のベンチマーク数値は4月に予告したものを上回っています。新しく公開した研究論文で詳細をご確認ください。
405億モデルと並んで、事前学習済みと教師付き学習済みの8億と70億モデルの更新版コレクションもリリースしています。これらは、愛好家やスタートアップから企業や研究機関まで、幅広いユースケースをサポートします。405億モデルと同様、これらの新しい8億と70億モデルもサイズに対して印象的な性能を発揮し、注目すべき新機能を提供します。
コミュニティからの強い要望を受け、これらのモデルすべてのコンテキストウィンドウを1208トークンに拡大しました。これにより、モデルはより大きなコードベースや詳細なリファレンス資料を扱えるようになりました。これらのモデルは、検索、コード実行、数学的推論などの特定の機能に対するツールコールの生成にも対応しています。さらに、ゼロショットでのツール使用もサポートしています。改善された推論能力により、より良い意思決定と問題解決が可能になりました。システムレベルのアプローチの更新により、開発者が有用性と安全性のニーズのバランスを取りやすくなりました。
このリリースに向けてパートナー企業と密接に協力してきました。ローカルでモデルを実行できるだけでなく、AWS、Databricks、NVIDIA、Grockなどのパートナーを通じてLlama 3.1を展開できるようになったことを嬉しく思います。これらはすべて本日から利用可能です。
メタでは、オープンソースの力を信じています。今回のリリースでコミュニティへの取り組みをさらに進めています。新しいモデルは更新されたライセンスの下で共有され、開発者はLlamaの出力を使用して他のモデルを改善することができます。これには405億モデルからの出力も含まれます。合成データ生成と蒸留が人気のユースケースになると予想しており、これにより高性能な小型モデルの作成や AI 研究の進展に新たな可能性が生まれると考えています。
本日からMeta AIユーザーへのLlama 3.1の展開を開始しており、Angelaが説明した多くの新機能をFacebook、Messenger、WhatsApp、Instagramのユーザーにも提供できることを楽しみにしています。3.1のリリースにより、オープンソース AIが業界標準となる次のステップを踏み出しています。AIモデルへのより広いアクセスがエコシステムの繁栄と世界の最も差し迫った課題の解決に役立つ未来への取り組みを継続します。皆様のフィードバックをお待ちしており、開発者コミュニティがLlamaを使って何を構築するのか楽しみにしています。
これがメタの発表ビデオでしたが、先ほど言ったように、ここには実に多くの掘り下げるべき点があります。このリリースがエコシステム全体を変えると本当に思います。
多くの人が知りたかったのは、もちろんL3 405億のベンチマークです。これらのベンチマークを見ると、最先端のモデルと同等であることがわかります。面白いことに、Gemini 1.5 Proがここにないのに気づきました。おそらく、そのモデルがこれらの分野で圧倒的に優れているのだと思います。全体的に見て、Llamaが他のモデルを上回るカテゴリは、ボックスで囲まれているカテゴリです。現在見ているモデルが、多くの異なるカテゴリでGPT-4とClaude 3.5 Sonnetを上回っているのは驚くべきことだと思います。そのうちの1つがツール使用と多言語性で、もちろんGSM-8Kもそうです。これはかなり驚くべきことです。
また、このモデルの推論力が96.9%に達していることから、潜在的にこのモデルの推論力がClaude 3.5 Sonnetを上回っている可能性があります。もちろん、モデルが素晴らしいパフォーマンスを示すベンチマークがあるのは良いことですが、常に人間による評価を見る必要があります。結局のところ、これらのモデルは人間によってネイティブに使用されるものであり、これらのモデルの効果を見るための最も効果的なベンチマークは人間による評価だからです。
しかし、表面的に見ると、完全にオープンなモデルであることを考慮し、他のモデルがはるかに大きなサイズであることを考えると (GPT-4は1.8兆パラメータとされています)、Llama 3.1が405億パラメータモデルであることを考えると、GPT-4と同等かそれ以上のパフォーマンスを4.5倍のサイズ削減で実現していることになり、これは本当に驚くべきことです。
これは、人々がGPT-4をオフラインでローカルに実行できる可能性があることを意味します。もちろん、かなりコンピュータ集約的になりますが、これは本当に衝撃的なことです。なぜなら、サイズ対効率の観点から見た軌道を示しているからです。これは本当に、フロンティア級の機能が無料で利用できるようになる新しいパラダイムの始まりだと思います。
Llama 3からは、38億パラメータモデルと70億パラメータモデルの更新版も提供されました。これは、さらなる改善が加えられたことを意味します。基本的に、それぞれのサイズで、Llama 3が現在使用できる最高のモデルであることを意味します。GoogleのGemma 2は、ARC挑戦的推論以外のほぼすべてのカテゴリで劣っていることがわかります。Mixtralもまた劣っており、もちろんLlama 3.1の70億パラメータモデルは、8倍の220億パラメータの専門家の混合であるMixtralやGPT-3.5 Turboよりもはるかに優れていることがわかります。
正直なところ、このLlama 3.1モデルは、他のモデルよりわずかに優れているだけでなく、すべてのカテゴリで他のモデルを上回り、明確な差をつけて上回っていることがわかります。これは本当に信じられないほどのことです。そのため、何らかのツールにこれらの小型モデルを使用している人は、Llama 3.1の70億パラメータモデルが非常に効果的であることがわかるでしょう。
先ほど言ったように、このモデルの人間による評価を見ると、最先端のモデルと比較してそれなりの成績を収めていることがわかります。60%から75%の時間で、最先端のモデルに勝つか引き分けているのがわかります。これは、サイズの差やこれらのモデルを使用するコストを考えると、本当に印象的です。Claude 3.5 Sonnetの無制限版を想像してみてください。これらのモデルを使って構築している人々の多くが、モデルがとても高価であるために問題に直面していることを知っています。
これを見ると、GPT-4に対してはかなり勝っており、GPT-4に対してはやや少ないものの、モデルのサイズが小さいことを考えると、まだかなり健闘していることがわかります。まだかなり大きいとはいえ、他のモデルサイズと比べると、これは私たちが想像もしなかったことです。
彼らが言及した興味深いことの1つは、このモデルがアーキテクチャの面で少し異なっていたということです。モデル開発プロセスをスケーラブルで簡単に保つことに焦点を当てた設計選択をしたと述べています。訓練の安定性を最大化するために専門家の混合モデルを使用するのではなく、わずかな適応を加えた標準的なデコーダーのみのトランスフォーマーモデルアーキテクチャを選択しました。
ここで何らかの理由で、もちろん彼らが述べた理由は、すべてを非常にシンプルに保ちたかったということですが、専門家の混合モデルを使用しないことを決定したことがわかります。そして、これによってモデルがはるかに効果的になったことがわかります。これが今後のトレンドになるのかどうか興味があります。最近、Googleではなくメタの論文で、実際に100万人の専門家について言及しているのを見ました。これがオープンソースモデルだけのものなのか、それとも継続的なものになるのか興味深いところです。
これが研究の部分に入るところで、Llama 3モデルのファミリーについて述べています。論文では、画像、ビデオ、音声の機能を構成的アプローチでLlama 3に統合する実験の結果も紹介しています。これは本当に驚くべきことです。なぜなら、このモデルをマルチモーダルにしようとしているからです。
ここで見られるのは、この手法が画像、ビデオ、音声認識タスクで最先端のモデルと競争力のあるパフォーマンスを示していることです。結果として得られたモデルはまだ開発途上であるため、広くリリースされていません。つまり、画像、ビデオ、音声認識タスクに使用できるものがありますが、これらはまだ開発中であり、この研究論文で見ているいくつかのことは、実際にかなり良いものであることを示しています。
Llama 3の開発プロセスの一部として、画像認識、ビデオ認識、音声理解機能を可能にするモデルのマルチモーダル拡張も開発しました。これらはまだ活発に開発中であり、リリースの準備はできていません。言語モデリングの結果に加えて、論文ではこれらのマルチモーダルモデルに関する初期実験も紹介しています。
ここでLlama 3 Visionを見ることができ、このモデルが視覚タスクで実際に非常に良い性能を発揮し、いくつかのタスクでは最先端のモデルを凌駕していることがわかります。Llama 3に接続された視覚モジュールの画像理解と性能が示されています。これはかなり効果的に見えます。なぜなら、性能の面でそれほど大きな違いがないからです。
GPT-4 Visionと比較すると、これらのカテゴリで、特にAI2ダイアグラムでは、これが94.1で、これが78.2であることがわかります。ここを見ると、これが以前のGPT-4 Visionよりも優れていることがわかります。これが驚くべきことなのは、初期のGPT-4 Visionの論文を覚えていれば、その論文がGPT-4 Visionがいかに驚くべきものであるかについて語っていたからです。Llama 3をビジョンアシスタントとして実際に使用できるようになったときに、どれほど多くのユースケースが生まれるか想像もつきません。
さらに驚くべきことは、Llama 3の70億パラメータから45億パラメータへの改善が微々たるものだったことです。ここで見られるように、これらの異なるモデルを使用しても、70億と45億のビジョンモデル間でそれほど大きな違いはありません。しかし、全体的に見てこれは非常に良いことです。なぜなら、画像認識は比較的高価だからです。
また、ビデオ理解についても見ています。ここで印象的なのは、Llama 3の70億パラメータモデルを見ると、そのビデオ理解モデルが実際にGemini 1.0 Ultra、Gemini 1.0 Pro、Gemini 1.5 Pro、GPT-4V、GPT-4よりも優れたパフォーマンスを示していることです。これは、ビデオ理解モデルの面でこれらのモデルを凌駕したことを考えると非常に驚くべきことです。正直なところ、Gemini 1.5 Proのビデオ理解は長いコンテキストで、200万トークンにわたって何が起こっているかを理解できるという点で少し異なると主張することはできますが、それでもこのような小さなモデルがこれらの巨大なマルチモーダルモデルと競合し、同等のパフォーマンスを発揮できることは信じられません。
さらに、彼らが話していた機能の1つである音声会話について見ることができます。ここに示されているのは、誰かが声に出して会話をしているスクリーンショットです。これはGPT-4、つまり人間のように話せるバージョンのChatGPTに似ていると言えるかもしれません。ここで驚くべきなのは、多くの異なる言語を理解し、それをテキストだけでなく自然な音声を通じて理解できることです。これは少し異なります。なぜなら、特定の単語の発音や、もちろんそれらの単語がどのように話されるかを理解することは、AIを使用する上で本当に重要なことだからです。
彼らが示したもう1つのことは、このツール使用です。ここで実際に起こっていることを見ると、「このCSVの内容を説明できますか?」と言うと、モデルはこのCSVで何が起こっているかを正確に識別できます。これは本当に素晴らしいことです。なぜなら、私が言及しなかった機能の1つは、実際にLlama 3が128トークン長いことです。つまり、より長いトークンコンテキスト長のモデルなのです。そして、ここで「時系列でプロットできますか?」と言うと、モデルはツールを使用して異なることを実行することもできます。ここでモデルがこのグラフを表示できるのが分かります。これは本当に素晴らしいことです。そして、「同じグラフにS&P 500を時系列でプロットできますか?」と言うと、それを非常に効果的に行うことができます。
ここで起こっていることを過小評価しているかもしれませんが、ツールの使用は本当にこれらのAIシステムの次のステージです。そして、これこそが本当に一般的に知的なシステムに到達する方法だと思います。なぜなら、あらゆるツールを活用してより広範囲のことを実行できるからです。
最後に皆さんに残しておきたいのは、彼らが「Llama 3の開発経験から、これらのモデルのさらなる大幅な改善が期待できる」と述べていることです。つまり、基本的に彼らは「Llama 3は私たちが提供する最高のものではない。AIモデルにはさらに多くの改善の余地があり、私たちはまだその表面をかすっているだけだ」と言っているのです。
この動画を楽しんでいただき、Llama 3を使用したい場合、もちろんアメリカにいる方はMetaに行くだけですが、イギリスにいる場合、現在私が知っている唯一の場所は、VPNを試しても機能しません。なぜなら、サインインするにはアカウントが必要で、もちろんこの動画がリリースされる頃には変わっているかもしれませんが、現在すぐに使用したい場合、動画リリース後にイギリスにいる場合は、Groを使用する必要があります。これは超高速推論を提供するインフルエンスプラットフォームです。ここに行くと、Llama 3 45億パラメータが見えます。そして、もちろんここでモデルを使用できます。
これが現在イギリスで使用できる唯一の方法です。他の地域で禁止されているかどうかはわかりませんが、現在Meta AIがイギリスで利用できないことは知っています。しかし、もちろん多くの異なるプラットフォームでロールアウトされるので、24時間以内にそれは問題ではなくなります。これをホスティングし始める10億の異なるサイトがあります。
この動画を楽しんでいただけたなら、何かの役に立てば幸いです。次回の動画でお会いしましょう。
コメント