メタのジョー・スピサック氏、Llama 3.1 405Bとフロンティアモデルの民主化について | トレーニングデータ

Meta’s Joe Spisak on Llama 3.1 405B and the Democratization of Frontier Models | Training Data

As head of Product Management for Generative AI at Meta, Joe Spisak leads the team behind Llama, which just released the...

現在の創業者なら、絶対にオープンソースを採用するでしょう。ただし、自社のエンジニアリング構成を見直す必要があります。L Opsや、データの微調整、RAGの構築、APIの作成などを行う人材が必要になります。APIを提供するサービスはたくさんありますが、究極的には制御が重要です。あなたのモデルはあなたのデータであり、ユーザーとのやり取りなのです。
こんにちは、トレーニングデータにようこそ。今日は、メタの生成AIの製品マネージャーディレクターであるジョー・スピサック氏をお迎えしています。彼はLlamaとサードパーティのエコシステムの取り組みを主導しています。ジョーは過去10年間、AIの分野でリーダーシップを発揮し、PyTorchの製品を主導し、タンパク質折りたたみやAI数学など、多くのイニシアチブに取り組んできました。その多くはメタからスピンアウトして独自のスタートアップになっています。私たちはLlama 3.1 405Bの発表からわずか2日後にジョーと話をしています。オープンソースのエコシステムはどこに向かうのか、フロンティアでもモデルはコモディティ化するのか、モデル開発はソフトウェア開発に近づいているのか、エージェントや推論、小規模モデル、データなど、次に何が来るのかについて、彼の見解を聞くのを楽しみにしています。
ジョー、今日はお越しいただきありがとうございます。Llama 3.1 405Bの発表からわずか2日後にお話しできるのは素晴らしい機会です。これはエコシステムにとって素晴らしい贈り物です。405Bの特有の能力、特に他の最先端モデルと比較して、どのような点が特に優れていると思われますか?
ありがとうございます。このようなポッドキャストは、コロナ前以来久しぶりなので、同じ部屋で直接話せるのは楽しいですね。はい、メタでは本当に興奮しています。多くの人々が何ヶ月も何ヶ月も取り組んできたことで、4月にLlama 3という素晴らしい前菜を出しました。正直なところ、人々がこれらのモデルにそれほど熱狂するかどうか分かりませんでしたが、反応は驚くほど大きかったです。でも、本当に来るものについては知らなかったんです。しばらくの間それを胸に秘めておいて、今回の発表に向けて準備を進めていました。
405Bは素晴らしいモデルです。私たちが405Bについて学んだ最大のことは、他のモデルにとって素晴らしい教師になるということです。大きなモデルがあれば、小さなモデルの改善やディスティレーションに使えます。8Bと70Bが素晴らしいモデルになったのもそのためです。
能力に関しては、コミュニティの声を聞き、自社の製品チームの声も聞きました。長いコンテキストは人々が最も求めていたものの1つで、内部的にはさらに長いコンテキストを持っています。多言語対応も重要でした。メタはグローバル企業なので、より多くの言語をリリースしました。今後さらに多くの言語が追加される予定です。メタのプラットフォームには何十億人もの人々が何百もの国から参加しているからです。
これらは基本的な機能ですが、よく実装されています。モデルに関しては、異なる言語の改善と安全性に多くの時間を費やしました。単に大量のデータで事前学習を行い、「私たちは多言語対応です」と言うのではなく、SFTフェーズとスーパーファインチューニングで多くの作業を行いました。
私が最も興奮しているのはツールの使用です。ゼロショットのツール使用は、コミュニティにとって革命的になるでしょう。WolframAlphaやBrave Search、Google Searchの呼び出しなどの例を示しましたが、本当に素晴らしく機能します。コードインタープリターを呼び出して実際にコードを実行したり、RAGなどのための独自のプラグインを構築したりする能力は、大きな変革をもたらすでしょう。
405B自体をリリースし、ライセンスを変更してデータを使用できるようにしたことも大きな出来事でした。マークとの多くの会議を経て、最終的にコミュニティにとってのこの長年の課題を解決する場所に落ち着きました。閉じたモデルの出力を使用できないか、少し不適切に使用しているかもしれないという懸念がありましたが、今では実際に人々に使用を奨励しています。
これは難しい決定だったに違いありません。その決定に至るまでに考慮した点について教えていただけますか?
ライセンシングは確かに大きなトピックで、それだけで1つのポッドキャストを費やせるほどです。私たちは、まず新しいことを解禁したいと考えました。405BとLlama 3.1モデルに差別化を図り、人々に新しい能力を提供したいと思いました。コミュニティ、企業、製品、そして研究コミュニティで人々が本当に興奮していることを見てきました。私たちには研究チームがあり、学術界とも協力しています。スタンフォード大学のパーシー・リアンは常に「いつリリースするの?使えるの?」とメッセージをくれます。パーシー、もう少し待ってください。
彼らの声を聞き、何を望んでいるかを理解しました。究極的には、Llamaをあらゆる場所に展開し、最大限の採用を実現したいと考えました。世界中で使用され、その上に構築されることを望んでいます。マークも彼の手紙で「新しい標準」や「標準化」という言葉を使っていました。そのためには、このような機能を可能にする必要があります。コミュニティが何をしたいのかを本当に見て、人為的な障壁がないようにする必要があります。それが議論の本質でした。
さらに、NVIDIAやAWSなどのパートナーと協力し始め、ディスティレーションのレシピや合成データ生成サービスの構築を始めました。これは非常に素晴らしいことです。これらを使い始めて、専門化されたモデルを作成することができます。そのデータが良質であることは分かっています。なぜなら、私たちは小さなモデルでそれを使用しており、モデルを大幅に改善しているからです。
オープンソースの話題についてもう少し掘り下げたいと思います。Zの宣言を読みましたが、素晴らしかったです。しかし、メタにとって何がメリットなのかをまだ理解しようとしています。これは大規模な投資であり、ある意味では多くのお金をテーブルに置いているようなものです。なぜなら、最先端のモデルを誰もが無料で利用できるようにしているからです。これは攻撃的な動きなのでしょうか、それとも防御的な動きなのでしょうか?メタにとって何がメリットなのでしょうか?
まず、私たちのビジネスモデルはこのモデルから直接お金を稼ぐことに依存していません。クラウドサービスを販売しているわけではありません。私たちは決してクラウド企業ではありませんでした。PyTorchの開発をリードしていた5年間も含め、常にパートナーエコシステムと協力してきました。エコシステムとコミュニティがその周りに構築されました。私たちは決してサービスを構築しませんでした。おそらくできたかもしれませんが、奇妙だったでしょう。
PyTorchに戻ると、私たちはそれを一種の共通言語、この高エントロピーな領域への橋渡しのようなものと見なしていました。変な言い方ですが、多くのイノベーションが起こっている中で、それをどのように活用するかという橋を築くことでした。そうするためには、オープンであることが必要です。世界中の人々に自分たちのものの上に構築してもらうことです。そのエトスがLlamaにも引き継がれています。
PyTorchを見ると、当時コンピュータビジョンやCNNなどに本格的に取り組み始めたときに、それを取り込む大きな方法でした。アーキテクチャが次々と登場し、人々がコードを書いてPyTorchで公開しました。私たちは内部でそれを評価し、人々がオープンソースのモデルを公開すると、それを評価しました。コミュニティがいかに急速に改善しているかを目の当たりにしました。特に、Hateful Memesなどのデータセットをリリースして整合性アプリケーションに使用した場合、週ごと、月ごとの改善を目にしました。それは内部で使用していたものに基づいていたので、簡単に取り込むことができました。
Llamaも同様だと思います。学術界や企業がこれらのモデルをレッドチームしたり、ジェイルブレイクしようとしたりすると、私たちはそれを望んでいます。そうすることで改善できるからです。それが大きな理由の1つです。もちろん、気をつけなければならないこともありますが、Linuxと同じです。Linuxはオープンソースで、カーネルもオープンソースです。物事が透明で、バグをより速く修正できるようになると、はるかに安全になります。それは私たちにとって大きな助けになります。
また、これが完全に閉じた環境になることを望んでいないという側面もあります。今日のLinuxとWindowsを見ると、私の意見では両方に余地があります。閉じたものにも、オープンなものにも余地があり、人々は必要に応じて使い分けています。オープンモデルの世界と閉じたモデルの世界があると思いますが、それで全く問題ありません。
オープンソース化に反対する主な議論はありましたか?
確かに競争上の懸念について話し合いました。技術を公開することについて議論しました。しかし、私たちはそれほど心配していません。なぜなら、私たちは非常に速いペースで動いているからです。私がメタに入社してから6〜7年近くになりますが、この1年ほどの間に、Connectの発表、昨年12月のPurple Llamaのリリース、Llama 3のリリース、その前のLlama 3.1、昨年7月のLlama 2、2月のLlama 1など、イノベーションのペースは信じられないほど速いです。私たちのチームと会社から生まれるイノベーションのペースは今、本当にクレイジーなペースです。だから、それほど心配していません。
より広いエコシステムに関するあなたの個人的な見解についてお聞きしたいと思います。多くの人々が、特にメタがより多くのモデルを最先端レベルでオープンソース化するにつれて、これらのモデルの価値がどうなるのかという疑問を持っています。Llama 3.1やOpenAIのGPT-4 Miniの発表を受けて、最先端のフロンティアでさえモデルはコモディティ化すると考えていますか?
これは素晴らしい質問です。ここ2週間を見ただけでも、GPT-4 Miniは本当に優れたモデルです。100万トークンあたりの入力コストが15セント、出力が60セントと非常に安価で実行できます。しかし、同時に素晴らしいモデルでもあります。彼らは蒸留と非常に高性能かつ非常に安価なものを得ることに素晴らしい仕事をしました。サムは確かにそれを押し進めています。
私たちが先週行ったことを見ると、スペクトル全体にわたってかなり説得力のあるモデルを押し出しています。モデルが急速にコモディティ化しつつある場所に向かっていると思います。データのフロンティアがあり、インターネットからデータを収集したり、データをライセンス供与したりすることはできますが、ある時点で私たち全員が直面する一種の限界のフロンティアがあると思います。
これは、データとスケールの苦い教訓に関する今週の会話に戻ります。計算力は十分ではありませんが、計算力とデータが両方十分にあれば、他の何もなしに最先端の一次近似を得ることができるというのが私たちが見てきたことです。だから、モデルはコモディティ化していると思います。価値は他の場所にあると考えています。メタとその製品、私たちが構築しているものを見ると、それが本当に価値があるところです。Meta AI、私たちのエージェント、InstagramやWhatsAppなど全ての製品に投入する技術、そこで実際に収益化し、実際に価値を付加するところです。モデル自体については、確かに新しいモダリティ、新しい言語、新しい能力を引き続き革新していくでしょう。それが研究の目的であり、フロンティアを押し広げ、新たな能力を生み出すことです。そしてそれらを製品に活用できます。しかし、モデルは確実にその方向に向かっています。
もしそうなら、既存の企業が巨大な配信網と素晴らしいアプリケーションを持っていて、これらの最先端のモデルを採用できるのであれば、独自のモデルを構築したり、他の最先端モデルを使用したりしてアプリケーションを構築しようとしている新しいスタートアップの波全体に、どのようなアドバイスをしますか?
確かに、モデル企業や基盤モデルの事前学習を行っている企業がいくつかあります。それは高額です。Llama 3がいくらかかったかは言えませんが、非常に高額でした。Llama 4はさらに高額になるでしょう。私にとっては、現在の状況を考えると、スタートアップが事前学習を行おうとすることはあまり意味がないと思います。Llamaモデルは基盤として絶対に素晴らしいものです。
私が今創業者なら、絶対にオープンソースを採用するでしょう。ただし、自社のエンジニアリング構成を見直す必要があります。L OpsやFデータの微調整、RAGの構築、APIの作成などを行う人材が必要になるでしょう。APIを提供するサービスはたくさんありますが、究極的には制御が重要です。あなたのモデルはあなたのデータであり、ユーザーとのやり取りなのです。
また、これらをデバイスにデプロイしたい場合もあるでしょう。混合的なインタラクションを持ちたいかもしれません。シンプルなクエリをデバイス上で実行し、非常に低いレイテンシーでユーザーとやり取りしたいかもしれません。より複雑なクエリやインタラクションにはよりクラウドベースのアプローチを取りたいかもしれません。
オープンソースのアプローチは、その柔軟性を提供します。モデルを直接修正し、重みを所有し、実行し、自分でディスティレーションを行うことができます。ディスティレーションサービスも登場し始めており、重みを取得して小さなものにディスティルすることができます。これは素晴らしいことです。私の考えでは、制御と重みの所有権が非常に重要です。
APIサービスには、自分のデータを持ち込んでモデルの微調整を行うものがありますが、LoRAと呼ばれる低ランク適応を使用します。残念ながら、最終的にそれらのLoRA重みにアクセスできず、推論に彼らのサービスを使用せざるを得ません。つまり、自分のデータを提供したのに、そのデータから生成された実際のIPにアクセスできず、彼らの推論サービスを使わざるを得ないのです。これは良い取引ではありません。オープンソースは本質的な自由をもたらすと思います。
MRLargeが、Llama 3.1の1日後くらいに発表されましたが、それについてどう思いますか?より広く言えば、フロンティアにいる全ての人が同じレシピ、同じ技術、同じ計算規模やデータなどを追求しているのでしょうか?それとも、皆さんが何か非常に異なることをしていると思いますか?
まず、NRLMeは素晴らしいチームです。私の昔のFair(Facebook AI Research)のチームの1つでした。彼らはAIと数学の改善に取り組んでいました。GomとTimのチームは信じられないほど優秀です。昨晩もJoeとおしゃべりしていました。これは私が今まで一緒に仕事をした中で最も粘り強いチームの1つでした。チームはほとんど寝ていなかったと思います。
昼間はAIと定理証明の最先端を押し進め、夜はLlama 1を訓練するために計算リソースを確保していました。数年前からFairで大規模言語モデルを構築していましたが、このチームは本当に野心的で、夜に働いていました。それがLlama 1の出発点でした。
チームは素晴らしいです。彼らは本当に良い仕事をしていると思います。彼らは確かに、モデルをオープンソース化しながらもお金を稼ぐという課題に直面しています。GPT-4 Miniのようなモデルは彼らを助けていません。なぜなら、彼らはモデルをオープンソース化していますが、すぐに自分たちのエコシステムが多くの面で彼らと競合するからです。モデルをリリースしてホストし、「このモデルを使ってください」と言いますが、Together AIやFireworksやLeptonなどの企業が、時にはより低コストのトークン単価で提供するのです。今は本当に厳しいビジネスです。
Mamba 2に関しては、本当に良いモデルだと思います。紙の上では良く見えますが、内部的にはまだ評価していません。Artificial Analysisを見ると、品質の面では70Bモデルをやや下回っていたと思います。ただし、これはいくつかのベンチマークを組み合わせて判断しているので、あくまでも大まかな区別です。紙の上では本当に良く見えるので、評価する予定です。
私にとっては、より多くのモデルがあり、より多くの企業がこれに取り組んでいる方が良いと思います。私たちだけがこれを行っているわけではありませんし、それは良いことだと思います。
より一般的に言えば、生成AIの分野では毎日起きて、このようなことが起こると予想します。モデルがリリースされたり、画期的な何かが起こったりするのを期待します。それがこの分野にいる楽しみの一つです。
フロンティアにいる全ての人が比較可能なのでしょうか?皆さん同じような戦略を追求しているのでしょうか?
これは良い質問です。Llama 3の論文を読むと、96ページにもなりました。多くの引用があり、多くの共有があります。多くの貢献者とコア貢献者がいました。詳細な論文でした。チームのローレンスとアンジェラが執筆を主導しましたが、モデルの開発に比べて論文を書くことの方が大変でした。論文をまとめるのは本当に大変な作業でした。
Llama 3を見ると、多くのイノベーションがありましたが、同時に多くの研究リスクも取りませんでした。405Bで本当に行ったのは、主にスケールを押し進めることでした。例えば、GQAを使用して推論時間を改善し、二次的な注意の計算課題を解決するのに役立ちました。15兆以上のトークンで訓練し、事後訓練では合成データを使用しました。これは小さなモデルでかなり改善しました。訓練実行では16,000以上のGPUを使用しました。これは以前には行ったことがないことです。
GPUが故障するので、これを行うのは本当に難しいです。みんな「10万GPUで訓練するよ」と言いますが、頑張ってください。本当に優れたインフラチームと優れたMLOpsチームが必要です。そのレベルでイノベーションを起こす準備ができていなければなりません。簡単ではありません。誰もが簡単だと言いますが、非自明なのです。
私はLlama 3をGPT-3の論文に非常に似ていると見ています。アンスロピックのトム・ブラウンと話したことがあれば分かりますが、彼がその論文の筆頭著者だった理由があります。多くのイノベーションは本当にスケールでした。アーキテクチャを取り、それをどこまで押し進めることができるかということでした。それには、MLOpsレイヤーやインフラレイヤーでの多くの作業が必要で、アルゴリズムをどのようにスケールさせるかということでした。
それが、Llama 3とLlama 3.1に対する私たちの考え方でした。もちろん、内部的には素晴らしい研究チームがあり、Fairや組織内の研究があります。多くの異なるアーキテクチャを検討しています。Llamaが何になるかは分かりません。多くの候補アーキテクチャがあり、検討中です。
しかし、それはトレードオフです。研究にどれだけリスクを取るか、潜在的な改善の天井がどれだけ高くなるかというトレードオフと、比較的知られているものを取り、スケールを押し進めてさらに改善させるというトレードオフです。
これは非常に興味深い点だと思います。実際、LlamaとMetaの戦略をかなりユニークなものにしていると思います。昨日使われた言葉は、モデル開発がソフトウェア開発に近づいているかというものでした。私は、他の多くの研究所が研究をより押し進めているのとは異なり、皆さんは機能することが分かっている戦略を実行することに焦点を当てていると思います。これが、Llama 4、5、6、7、8と拡張していく際の継続的な戦略を代表していると考えていますか?また、他の研究所や、エコシステム内の他のスタートアップがどのように反応すると思いますか?彼らも少しあなた方の戦略に切り替えるでしょうか?
本当に素晴らしい質問です。すべての答えがあるわけではありませんが、現在のところ、中間のどこかに落ち着くと思います。私たちは引き続き実行を押し進め、モデルをリリースし続けます。なぜなら、私たちの製品を継続的に改善したいからです。Meta AIが常に改善されることを望んでいます。
ここにはソフトウェアエンジニアリングのアナロジーがあります。Llamaトレインのようなものを想像できます。新機能や新しい能力がそのトレインに乗り、モデルのリリースにつながります。能力をコンポーネント化し始めると、実際にはより簡単になります。私たちは現在、安全性でそれを行っています。リリースでPromptGuardとLumGuardを発表しましたが、これらのコンポーネントを外部で反復できるのは素晴らしいことです。
もちろん、コアモデルははるかに難しいです。研究面でも押し進めていくと思います。なぜなら、アーキテクチャは進化していくからです。例えば、AI2が彼らのJamboやMambaで行ったことを見てください。みんなMambaを将来性のある新しいアーキテクチャだと考えています。
しかし、興味深いのは、アーキテクチャの能力を本当に理解するためには、スケールを押し進める必要があるということです。これが現在のエコシステムで欠けているものだと思います。学術界には本当に優秀な人々がいますが、計算リソースへのアクセスが限られています。これは問題です。彼らには素晴らしいアイデアがありますが、それらを本当に必要なレベルで実行する方法がないのです。これが実際にスケールするかどうかを本当に理解するためには。
Jamboの論文とモデルは非常に興味深く、ベンチマークも素晴らしいですが、100億パラメータ以下にしか拡張していません。では、100億を超えるとどうなるのでしょうか?まだ改善が見られるのでしょうか?少なくともこれらの研究所の外部では、誰も本当に答えを知りません。
これが1つの課題だと思います。私たちはアーキテクチャを確実に押し進めるハイブリッドな空間に入っていくと思います。非常に賢く、実績のある研究チームがあります。しかし、私たちは実行もしていきます。レシピが得られ始めたら、それを限界まで押し進め、より多くのモデルをリリースし続けますが、それと並行してアーキテクチャも押し進める必要があります。
ある時点で理論的な限界に達し、アーキテクチャを進化させる必要があるからです。だから、ある程度の中間地点が見えてきます。私たちは実行が得意です。研究も得意です。この2つを結婚させる必要があります。
研究と製品は非常に異なります。製品側はかなり決定論的であるべきですが、研究は本質的に非決定論的です。これは機能するでしょうか?分かりません。大きな賭けです。失敗したら、それは研究です。完全に失敗する可能性がゼロではないはずです。そうなったら別の方向に進めばいいのです。それが研究というものです。
現在、多くのモデル研究が行われている分野の1つ、エージェント的推論について興味があります。皆さんも推論で素晴らしい結果を発表されたと思います。非常に基本的なレベルで、推論をどのように定義していますか?また、推論は事前学習中のスケールから自然に出てくるものなのでしょうか、それとも事後学習なのでしょうか?推論の面でまだ多くの作業が残っているのでしょうか?
推論は少し重荷のある分野です。多段階のものだと主張することもできます。残念ながら、私たちが持っている最良の例は、少し見せかけのような「ボブはバスを運転していて…」というようなものです。Local Llamaをトロールすると、そのような例が何十億と出てきます。しかし、これらは実際にモデルに複数のステップを踏ませ、考えさせ、論理的に応答させるものです。
コーディングも実際にそうです。事前学習を見ると、推論の改善は事前学習と事後学習の両方で起こります。私たちが学んだのは、事前学習コーパスに多くのコードを含めることが推論を大幅に改善するということです。考えてみれば当然のことです。コードは本質的に非常に論理的で段階的です。事前学習にそれを多く取り入れると、モデルはより良く推論するようになります。
もちろん、事後学習やSFT（教師あり微調整）でも例を見て改善します。事前モデルを見て、どのようにバランスを取るかによっても異なります。モデルがどれだけ良く推論するかと、異なる言語でどれだけ良く応答するかのバランスを取ることができます。事後学習では、すべてがトレードオフになります。コーディングに最適化したいなら、Code Llamaのようにすることができます。それは素晴らしいですが、もちろんモデルは他の分野で苦労します。
結局のところ、一般的なモデルであれば、どのような能力のパレート・フロンティアを引き出したいかということになります。誰でもベンチマークや何らかの能力を選んで、それに超最適化し、「GPT-4より優れている」と言うことはできます。素晴らしいですね。誰でもそれはできます。しかし、あなたのモデルはGPT-4やLlama 3.1と同じくらい一般的に有能なのでしょうか?それは別の話です。
将来的に推論を解き放つレバーは何だと思いますか?
明らかな答えはデータです。より多くのデータ、より多くのコードや監視されたデータを取得できれば、それは自然な答えです。また、アプリケーションを見つける必要もあります。それによって、何に焦点を当てるべきかが分かります。これは評価に戻ります。あなたの評価は何ですか?私たちは評価を飽和させ始めています。
コミュニティとして、ベンチマークやメトリクスを定義し、それを徹底的に最適化します。それは素晴らしいことですが、実際の環境でモデルを見ると、「ああ、そのモデルはより良いMLUスコアを持っています。素晴らしい。しかし、実際にはどのように応答しますか?」と言うことになります。実際にはうまく応答しませんが、より良いスコアを持っています。
私たちはより良い評価とベンチマークが必要です。これらは実際のインタラクションへの明確な道筋を見出すことができます。Abacusベンチマーク、Live Benchと呼ばれるものはかなり良いと思います。もちろん、AlpacaとChatbot Arenaもより自然です。まだ完璧ではありませんが、静的なデータセットや静的なプロンプトセットよりも、より人間らしいインタラクションに向かっています。
これらの他のユースケースが意味を成すものを見つけ始めると、より多くのデータを生成し始め、モデルを改善し始めます。希望的には、それが実際に最終製品を改善するベンチマークや評価につながります。もちろん、これらの多くは最終製品に依存します。私のアプリケーションは何ですか?
ところで、大規模研究所内では、コーディングと数学が常に推論を解き放つための2つの主要なカテゴリーでした。スタートアップの世界では、数学の角度からアプローチしようとする人々がより多く見られるようになっています。それが興味深い解放につながったかどうかについて、何か見解はありますか?
答えはイエスです。私たちのデータ、少なくともモデルを見ると、コーディングと数学が主要なレバーだったと言えます。明らかに、より多くあればより良いです。数学も非常に論理的で段階的です。パターンが見えますね。そのようなパターンに従うデータをより多く持てば持つほど、モデルはより良く推論できるようになります。
実際にモデルがどのように応答するかを見ることができます。「あなたの思考プロセスを段階的に説明してください」と尋ねると、実際にそれを行います。一部のモデルは他のモデルよりも優れています。
科学論文のようなものも同様です。Fairから出たプロジェクトの1つは、arXivの論文で訓練しました。コードや純粋な数学だけでなく、科学論文も科学者が非常に論理的に物事を書き、段階的に進め、グラフを作成する方法なども役立つことが分かりました。一般的な科学情報も役立つと思います。
ガラクティコは私たちのプロジェクトでした。Papers with Codeチームのロビン・ロスのプロジェクトは、私の意見では今でも最もクールなプロジェクトの1つです。多くの批判を受けましたが、彼らは時代を先取りしていたと思います。
小規模モデルについて少し話したいと思います。多くのスタートアップが持つ資本と計算力の規模を考えると、8Bと70Bモデルはエコシステムにとって信じられないほどの贈り物です。最初にそれらを前菜と呼んだのは面白いですね。そのセットにとっては非常に強力ですが、小さなモデルを望む多くの異なるアプリケーションにとっても非常に強力です。8Bと70Bモデルがそのサイズのモデルとしては最高クラスであることを考えると、開発者にどのような用途で使ってほしいと思いますか?
興味深いのは、4月にLlama 3をリリースしたとき、8Bと70Bをリリースしましたが、8Bは実際に前のLlama 2の70Bよりもはるかに優れていたことです。チャートを見て、「これは本当ですか?」と確認しなければならないほどでした。本当にそうだったのです。
これがどのように起こるかについての直感は何でしょうか?
より多くのデータがありました。7倍以上のデータです。もちろん、より多くの計算力も投入しました。計算力とデータに戻ると、それらを押し進めています。
各世代で、そして世代は加速していますが、大規模モデルのベンチマークが基本的に小さなサイズ領域に押し下げられるのが見えます。70Bが8Bになり、内部的には8Bよりもさらに小さなモデルでも非常に良いベンチマークが見られ始めています。アーキテクチャを押し進め、スケールを押し進め、まだ飽和していないことが分かります。これは非常に興味深いです。
小さなアーキテクチャが有用だと思う最大の理由の1つは、明らかにオンデバイスです。誰もがオンデバイスについて話し、Appleもそれについて話し、GoogleはGemmaモデルとGeminiをAndroidデバイスで実行しています。オンデバイスは意味があると思います。
安全性も興味深いです。内部的には、会社内のアプリケーション用にオーケストレートされた独自のバージョンを持っています。今日、それらは8Bモデルで構築されていますが、安全性モデルが二次的なモデルだと考えると、これはかなり高価です。内部的に、この点でずっと小さなモデルを実験しています。これは効率性を生み出し、レイテンシーを下げます。
これらのモデルは本当に単なる分類器です。チャットのような自己回帰的なインターフェースではなく、入力やプロンプトが分類体系のカテゴリーに違反するかどうか、出力がそれに違反するかどうかを分類するだけです。そのため、これらをさらに小さくすることができます。
また、オンデバイスの興味深いケースもあります。プライバシーとデータを考えると、データをデバイス上に保持したい場合があります。デバイス上でRAGのようなアーキテクチャを想像できます。例えば、WhatsAppやその他のアプリのチャット履歴のようなデータがあり、モデルがそのデータにアクセスし、集約し、一種のミニベクトルデータベースを実行します。RAGを使用し、小さなモデルでファジー検索やファジーマッチングを行います。
これは独自のシステムとなり、ローカルでの要約などができます。例えば、私は多くのテキストメッセージを受け取りますが、「最後の15件のメッセージを要約してください」というのは非常に便利です。会議中で電話を見ていなかったので。これは非常に有用で、データをクラウドや他の場所に送信する必要がありません。
このような使用例では、小さなモデルが本当に魅力的になると思います。もちろん、非常に複雑なクエリや処理には、常にクラウド上の大きなモデルがありますが、多くのことには、オンデバイスや、エッジ、オンプレミスでこれらの小さなモデルが実際にかなり良い仕事をすることができます。
計算力とデータを拡大することが、パフォーマンス向上の2つの基本的なベクトルだと話しましたが、データに関しては壁にぶつかるのではないか、あるいは合成データが答えになるのではないかという話題がたくさんあります。これについてのあなたの見解を聞かせてください。安価でアクセス可能なデータには、近い将来壁が訪れるのでしょうか?その先にどのようにスケールしていくと思いますか?
今回のリリースで、合成データが大いに役立つことを示しました。事前学習では15兆トークン程度で訓練し、事後学習では数百万件の注釈付き合成データを生成しました。その多くは405Bによって生成されました。もちろん、注釈にもお金を払いました。
合成データは潜在的な前進の道だと思います。モデルがその証拠です。単に話すだけでなく、実際にそれを示しました。ある時点でデータが課題になると思います。これが、企業がデータへのアクセスを得るために多くのデータをライセンス供与している理由です。OpenAIもデータをライセンス供与していますし、私たちも確かにデータをライセンス供与しています。
モデルを改善するためのデータを生成するサービスへのアクセスを持つことは重要です。これは多くの企業にとって本質的に有利です。GoogleはYouTubeを持っています。これは彼らにとって価値があるはずです。これは、大企業が有利であることを示唆していますが、これは新しいことではありません。長い間話題になってきました。
データの壁については分かりません。まだそこには到達していません。まだスケールを拡大し、まだ多くのデータを収集し、データを生成しています。モデルはまだ継続的に改善しています。1年後にもう一度話し合いましょう。カレンダーに1年後の今日の予定を入れておきます。1年後に話し合って、どこにいるか見てみましょう。まだ壁にぶつかっていません。
いくつかの簡単な質問で締めくくりましょう。SweetBenchで50%の閾値を超える年はいつだと思いますか?
良い質問です。もし何かを学んだとすれば、私が答える年よりも速くなるでしょう。なぜなら、ベンチマークに焦点を当てると、人々はすぐにそれを解決しようとするからです。答えはありませんが、速いでしょう。
以前は「オープンソースモデルがフロンティアの他の企業のモデルを超える年はいつですか?」という質問をしていましたが、皆さんのおかげでその質問を削除しなければならなくなりました。
その通りです。ほぼそこに到達しています。405Bは信じられないほど優れており、確かにそのクラスに入ります。
メタは常にLlamaをオープンソース化し続けるでしょうか?
マークはかなりコミットしています。彼の手紙を見てください。PyTorchから始まり、Fair、Llavaモデルまで、何年もの間オープンソース化してきました。これは一時的なものではありません。会社は長年オープンソースにコミットしてきました。決して言い切れませんが、会社とマークは本当にコミットしています。
ジョー、今日はここに来ていただき、そしてエコシステム全体に与えてくれた全ての仕事に感謝します。AIコミュニティ全体が、Llamaを押し進め、今後の進歩のために行ってきた全ての仕事に大変感謝していると思います。
これは大きなチームの仕事です。論文を読んで、全ての謝辞を見てください。昨日は全ての貢献者のスターウォーズのようなスクロールテキストが必要だと思っていました。これは絶対に村全体で取り組んだプロジェクトでした。チームを代表してここに来られて誇りに思い、興奮しています。ありがとうございました。