メタのAGI計画 – マーク・ザッカーバーグ

28,139 文字

Mark Zuckerberg – AI Will Write Most Meta Code in 18 Months
Zuck on:* Llama 4, benchmark gaming, open vs source* Intelligence explosion, business models for AGI* DeepSeek/China, ex...

マーク、またポッドキャストに来てくれてありがとう。
ああ、喜んで。お会いできて嬉しいです。
こちらこそ。前回来てくれた時はLlama 3を発表したところでしたね。今度はLlama 4を発表しました。
そうですね、最初のバージョンを。何が新しくて、何が面白くて、何が変わったのですか?この分野はとても動きが激しいですね。
前回お話ししてから多くのことが変わりました。Meta AIは現在月間ほぼ10億人に使われていて、これはすごいことです。今年はこの分野にとって本当に大きな年になると思います。特に、パーソナライゼーションのループが動き始めると、それは今私たちがまさに構築し始めているところです。アルゴリズムがあなたの興味あることについて持っているコンテキスト—フィード、プロフィール情報、ソーシャルグラフの情報—だけでなく、AIとどのようにやり取りしているかという情報も含めてです。それが次の超エキサイティングなことになるでしょう。私はそれにとても期待しています。
モデリングの面でも引き続き印象的な進歩を続けています。Llama 4の最初のリリースセットにはかなり満足しています。私たちは4つのモデルを発表し、最初の2つ—ScoutとMaverick—をリリースしました。これらは中小サイズのモデルです。Llama 3で最も人気のあったモデルは80億パラメータのものでした。
そのようなモデルもLlama 4シリーズに含まれる予定です。社内コードネームは「Little Llama」です。それは今後数ヶ月以内にリリースされる予定です。ScoutとMaverickは良いモデルです。コストあたりの知性という点では、市場にある他のどのモデルよりも高いレベルを持っています。これらは生まれながらにマルチモーダルで、非常に効率的で、1台のホスト上で実行できます。
これらは私たちが社内で構築しているユースケースの多くにとって、非常に効率的で低レイテンシーになるよう設計されています。それが私たちのやり方です。私たちは自分たちが欲しいものを作り、そしてそれをオープンソース化して他の人も使えるようにします。それについては楽しみにしています。
また、Behemothモデルについても楽しみにしています。これは私たちにとって初めてのフロンティアレベルのモデルになる予定で、2兆以上のパラメータを持ちます。名前が示す通り、かなり大きいものです。私たちはそれをどのように人々にとって有用なものにするか考えているところです。あまりに大きいので、ポストトレーニングができるようにするためだけにインフラを構築する必要がありました。
今は、平均的な開発者がこのようなものをどのように実際に使用できるかについて頭を悩ませています。それをどのように有用にするか—おそらく合理的なサイズで実行できるモデルに蒸留することによってでしょうか?当然、消費者向けモデルでそのようなものを実行したいとは思わないでしょうから。
去年のLlama 3の場合と同様に、最初の発表は刺激的でしたが、その後1年をかけて構築し続けました。3.1では4050億のモデルをリリースし、3.2ではすべてのマルチモーダル機能を導入しました。基本的に今年もそのようなロードマップを持っています。多くのことが進行中です。
もっと聞かせてください。最高のクローズドソースモデルと最高のオープンソースモデルの間のギャップが過去1年で広がったという印象があります。Llama 4モデルファミリーの全体はまだリリースされていませんが、Llama 4 MaverickはChatbot Arenaで35位にランクされています。主要なベンチマークの多くで、o4-miniやGemini 2.5 Flashが同じクラスにあるMaverickを上回っているようです。この印象についてどう思いますか?
いくつかの点があります。まず、実際に今年はオープンソース全体にとって非常に良い年だったと思います。昨年の時点に戻ると、Llamaが唯一の本当に革新的なオープンソースモデルでした。今では業界にたくさんあります。一般的に、今年はオープンソースが一般的にクローズドソースを最も使用されるモデルとして追い越すだろうという予測は、概ね真実になる道筋にあると思います。
あるおもしろい驚き—ある意味ではポジティブで、別の意味ではネガティブですが、全体的には良いこと—は、それがLlamaだけではないということです。外にはたくさんの良いモデルがあります。それは非常に良いことだと思います。
それから、あなたがo3、o4、および他のモデルについて言及した推論現象があります。専門化が起こっています。数学の問題やコーディング、あるいはそのような異なるタスクで最高のモデルが欲しい場合、より多くの知性を提供するためにより多くのテスト時間や推論時間のコンピュートを消費する推論モデルは非常に魅力的なパラダイムです。そして、私たちもLlama 4推論モデルを構築しています。いつか出てくるでしょう。しかし、私たちが気にする多くのアプリケーションでは、レイテンシーと良い知性/コスト比が、はるかに重要なプロダクト属性です。主に消費者向け製品を設計している場合、人々は回答を得るために30秒も待ちたくないのです。
一般的に良い回答を0.5秒で提供できるなら、それは素晴らしいトレードオフです。これらの両方が最終的に重要な方向性になると思います。時間の経過とともに推論モデルとコア言語モデルを統合することに楽観的です。それはGoogleが最近のGeminiモデルのいくつかで進んでいる方向です。それは本当に有望だと思います。
しかし、多くの異なることが起こると思います。また、Chatbot Arenaのことを言及しましたが、それは興味深くて、ベンチマークをどうするかという課題を示しています。どのモデルがどの用途に良いかをどう知るか?この1年間で一般的に試みたことの1つは、私たちのモデルをMeta AIプロダクトの北極星ユースケースにより多くアンカーすることです。
オープンソースベンチマークの問題、およびLM Arenaのような特定のものは、しばしば非常に特定の使用ケースのセットに偏っていることです。それらは実際には製品の中で通常の人が行うことではないことが多いです。彼らが測定しようとしているポートフォリオは、人々が特定の製品で気にすることとは異なることが多いです。
そのため、そのような種類のものに最適化しすぎると、私たちを道を外れさせることがわかりました。それは実際には最高品質の製品、最も使用され、Meta AI内で人々が私たちのものを使用した際の最良のフィードバックにはつながりませんでした。
そのため、私たちは北極星を、人々が私たちに報告する製品価値、彼らが欲しいと言うもの、そして彼らの明らかな好みに、そして私たちが持つ経験に基づいてアンカーしようとしています。時にはこれらのベンチマークは完全に一致しません。
私はそれらの多くはかなり簡単にゲーム化できると思います。Arenaでは、Sonnet 3.7のようなものが見られます。それは素晴らしいモデルですが、トップ近くではありません。私たちのチームにとっては、トップにランクされるようにLlama 4 Maverickのバージョンを調整するのは比較的簡単でした。しかし、私たちがリリースしたバージョン、純粋なモデルは、実際にはそのためのチューニングがまったくないので、さらに下の方にあります。これらのベンチマークのいくつかについては注意が必要です。私たちは主に製品にインデックスを付けるつもりです。
ユーザーにとっての価値の北極星を捉え、異なるモデル間で客観的に測定できるベンチマークが何かあると思いますか?「このベンチマークでLlama 4がトップに来ることが必要だ」と言えるものは?
私たちのベンチマークは基本的にMeta AIでのユーザー価値です。
しかし、それを他のモデルと比較することはできませんね。
できるかもしれません。他のモデルを実行して判断できるかもしれません。それはオープンソースの利点の1つです。あなたのものに穴を開け、「あなたのモデルはどこが良くなくて、どこが良いのか」を指摘できる優れたコミュニティがあります。
現時点での現実は、これらのモデルはすべて少し異なるものの組み合わせに最適化されているということです。主要な研究所はすべて同じ目標に向かっていて、一般的知能、超知能、何と呼ぶにせよ、すべての人が欲しいものを作り出すための超人的なツールを持つ豊かな世界につながるAIを作ろうとしています。それは人々を劇的に強化し、これらすべての経済的利益を生み出します。
あなたがそれをどう定義するにしても、それが多くの研究所が目指しているものです。しかし、異なる人々が異なることに最適化していることに疑いはありません。私はAnthropicの人々が本当にコーディングとその周りのエージェントに集中していると思います。OpenAIの人々は、最近少し推論に向かっていると思います。
最も使用されると予想される分野があります:素早く、非常に自然にやり取りでき、生まれながらにマルチモーダルで、あなたが望む方法で一日を通じてフィットするAIです。
新しいMeta AIアプリで遊ぶ機会があったと思いますが、その中に入れた楽しい機能の1つは全二重音声のデモです。まだ初期段階です。アプリでデフォルトの音声モデルにしていない理由があります。しかし、その会話の自然さには何か本当に楽しく魅力的なものがあります。
それを適切なパーソナライゼーションと混ぜ合わせることができる能力は、数年後を見据えると、一日中さまざまなことについてAIと話すような製品体験につながるでしょう。
あなたは電話を持っているでしょう。フィードアプリを閲覧しながらそれに話しかけると、さまざまなことについてのコンテキストを提供し、質問に答え、メッセージングアプリで人々とやり取りするのを助けてくれるでしょう。
最終的には、私たちは日常生活を歩き、メガネや他の種類のAIデバイスを持ち、一日中それとシームレスにやり取りすることになると思います。それが北極星です。人々が質が十分で、そのようなものと対話したいと感じるようなベンチマークが何であれ、それが最終的に私たちにとって最も重要なことになるでしょう。
オリオンとMeta AIアプリの両方を試す機会がありましたが、音声モードは非常にスムーズでした。かなり印象的でした。
異なる研究所が最適化しているものについて、彼らの見解を補強すると、彼らの多くはソフトウェアエンジニアリングとAI研究を完全に自動化すれば、知能爆発を引き起こすことができると信じています。これらのソフトウェアエンジニアリングの何百万ものコピーがLlama 1とLlama 4の間で行われた研究を複製することで、何年もかけてではなく、数週間または数ヶ月で再び改善できるでしょう。だから、ソフトウェアエンジニアのループを閉じることが本当に重要で、そうすればあなたが最初にASIに到達できるということです。これについてどう思いますか?
個人的にはそれはかなり説得力があると思います。だから私たちも大きなコーディングの取り組みをしています。Meta内でいくつかのコーディングエージェントに取り組んでいます。私たちは実際には企業向けソフトウェア会社ではないので、主に自分たち自身のために構築しています。繰り返しますが、私たちは特定の目標を目指しています。
私たちは一般的な開発ツールを構築しようとしているわけではありません。Llamaの研究を特に推進するコーディングエージェントとAI研究エージェントを構築しようとしています。そしてそれは私たちのツールチェーンや全てのものに完全に接続されています。それは重要であり、このようなことがどのように行われるかの重要な部分になるでしょう。
私の予想では今後12〜18ヶ月のうちに、これらの取り組みに向かうコードのほとんどがAIによって書かれるようになるでしょう。そして、オートコンプリートのことではありません。今日、良いオートコンプリートがあります。何かを書き始めると、コードのセクションを完成させることができます。
私が話しているのは、目標を与えると、テストを実行し、改善し、問題を見つけ、すでにチームの平均的な非常に優秀な人よりも高品質のコードを書くというものです。それは確かにこれから重要な部分になるでしょう。しかし、それが全てのゲームではないと思います。それは大きな産業になり、AIがどのように開発されるかの重要な部分になるでしょう。
しかし、まだあると思います… 考え方の一つは、これは巨大な空間であるということです。一つの会社が一つの最適化機能ですべての人に可能な限り最高のサービスを提供するというわけではないと思います。異なる分野でリーディングな仕事をする多くの異なる研究所があるでしょう。いくつかはより企業向けまたはコーディング重視になるでしょう。いくつかはより生産性重視になるでしょう。
いくつかはよりソーシャルやエンターテイメント重視になるでしょう。アシスタント空間内でも、より情報的で生産性重視のものと、よりコンパニオン重視のものがあるでしょう。ただただ楽しく面白く、フィードに表示されるものがたくさんあるでしょう。単に巨大な空間があります。
このAGIの未来に向かう楽しさの一部は、発明する必要があるいくつかの共通のスレッドがあるが、まだ作成する必要があるものも多いということです。私の予想では、異なるグループ間でより専門化が進むのを見始めるでしょう。
あなたが基本的に知能爆発があり、その先に超知能のようなものが得られるという前提に同意していることは私にとって非常に興味深いです。もし私が誤解しているなら教えてください。もしそうなら、なぜ個人アシスタントやその他のものに気を遣うのですか?なぜ単に最初に超人的知能を得て、後でその他すべてのことに対処しないのですか?
それはフライホイールの一つの側面に過ぎないと思います。急速な進展についての見解に一般的に同意しないのは、物理的インフラストラクチャを構築するには時間がかかるからです。ギガワットのコンピュートクラスターを構築したいなら、それには時間がかかります。NVIDIAが新世代のシステムを安定させるには時間が必要です。その後、その周りのネットワーキングを考える必要があります。それから建物を建てる必要があります。許可を取得する必要があります。エネルギーを確保する必要があります。それはガスタービンかグリーンエネルギーかもしれませんが、いずれにしてもそのようなものの全サプライチェーンがあります。
前回のポッドキャストでこれについて多く話しました。これらのいくつかは物理的世界、人間時間のことだと思います。スタックの一部で知能が高まり始めると、別の一連のボトルネックにぶつかるだけです。それがエンジニアリングがいつも機能する方法です:一つのボトルネックを解決すると、別のボトルネックが現れます。
これをうまく機能させるシステムやその材料のもう一つのボトルネックは、人々がシステムを使用することを学び、フィードバックループを持つことに慣れることです。これらのシステムは完全な形で現れて、人々が魔法のようにそれを使用する方法を知っているわけではありません。人々がこれらのAIアシスタントをどのように最もうまく使用するかを学ぶ中で起こる共進化があります。同時に、AIアシスタントは人々が何を気にしているかを学んでいます。開発者はAIアシスタントをより良くしています。
コンテキストの基盤も構築しています。1年か2年後に目覚めると、アシスタントは2年前に話したことを参照できて、それはかなりクールです。初日に完璧なものを立ち上げたとしても、そのようなことはできません。2年前に存在しなかったら、2年前に話したことを参照することはできません。
だから私の見解は、巨大な知能の成長があるということです。人々がAIアシスタントとやり取りするアップテイクが非常に速い曲線があり、それに関する学習フィードバックとデータのフライホイールもあります。そして、多くの物理的インフラストラクチャのスケーリングを可能にするサプライチェーンとインフラと規制フレームワークの構築もあります。ある意味で、これらすべてが必要であり、コーディングの部分だけではありません。
これの具体的な例を一つ挙げると面白いと思います。数年前に、広告チームに実験のランキング自動化プロジェクトがありました。それはかなり制約された環境です。自由なコードではありません。基本的に、会社の全歴史—エンジニアが広告システムで行ったすべての実験—を見て、何が機能し、何が機能しなかったか、そしてそれらの結果を見ます。
そして基本的に広告システムのパフォーマンスを向上させる可能性のある異なるテストのための新しい仮説を形成します。基本的に私たちが発見したのは、仮説の数に基づいてテストを実行するためのコンピュートがボトルネックになっていたということです。広告チームに今いる人間だけでも、実際にテストのために持っているコンピュートや、テスト対象となる人々のコホートよりも多くの良いアイデアを持っていることがわかります。
35億人もの人々があなたの製品を使用していたとしても、それでも各テストが統計的に有意であることを望みます。何十万または何百万もの人々が必要です。それを通じてテストできるスループットには限りがあります。したがって、私たちは、すでに持っている人だけで、欲しいすべてを本当にテストできない地点にすでにいます。
今、より多くのものをテストできるだけでは必ずしも追加的ではありません。AIが生成する仮説の平均的な質が、チームで最も優れた人間が実際にテストすることができることの線を超えるものよりも良くなるポイントに達する必要があります。それが有用になる前に。
私たちはそこにかなり早く到達すると思います。しかし、「オーケー、クール、そのものはコードを書けて、今や突然すべてが大幅に改善されている」というわけではありません。乗り越える必要のある現実世界の制約があります。そしてテストのためのコンピュートと人々が必要です。時間が経つにつれて、質が上がっていくと、5年か10年後には人々のどのような集合もAIシステムほど良い仮説を生成できないという地点に私たちはいるでしょうか?わかりません、多分。その世界では、明らかにそれがすべての価値が生み出される方法になるでしょう。しかしそれは最初のステップではありません。
この見方を受け入れるなら、これが知能が向かう先であるという考えを受け入れるなら、Metaについて強気になる理由は明らかにあなたがこのすべての配信を持っていることです。また、それを使ってトレーニングに役立つさらに多くのことを学ぶこともできます。Meta AIアプリが現在10億人のアクティブユーザーを持っていると言及しましたね。
アプリではありません。アプリは単独のもので、今ちょうど立ち上げているところです。それを使いたい人には楽しいものになるでしょう。それはクールな体験です。それについても話すことができます。なぜなら、私たちはそこでいくつかの新しいアイデアを実験しています。それは斬新で議論する価値があると思います。しかし、私が主に話しているのは私たちのアプリです。Meta AIは実際にはWhatsAppで最も使用されています。WhatsAppは主に米国外で使用されています。米国ではちょうど1億人を超えましたが、米国では主要なメッセージングシステムではありません。iMessageがそうです。だから米国の人々はMeta AIの使用をある程度過小評価する傾向があります。
しかし、スタンドアロンアプリが非常に重要になる理由の一部は、米国が多くの理由で最も重要な国の一つだからです。そしてWhatsAppが人々がMeta AIを使用する主な方法であり、それが米国のメインメッセージングシステムではないという事実は、本当に人々の前に一流の体験を構築する別の方法が必要だということを意味します。
そして、質問を終えるために、弱気なケースは、AIの未来が単にあなたの質問に答えることではなく、仮想的な同僚であることについてであれば、WhatsApp内のMeta AIがどのように完全に自律的なプログラマーまたはリモートワーカーを作るための関連トレーニングデータを提供するかは明確ではないということです。その場合、現在LLMでより多くの配信を持っているのは、それほど重要ではないのでしょうか?
繰り返しますが、異なることがあると思います。インターネットの発展の初めに座って、「主なインターネットのものは何になるだろうか?知識労働か、それとも大規模な消費者向けアプリか?」と尋ねたとします。両方を手に入れることになります。一つを選ぶ必要はありません。世界は大きく複雑です。一つの会社がそのすべてを構築するのか?通常、答えはノーです。しかし、あなたの質問に対して、人々は基本的にWhatsAppでコードを書きません。そして、人々がWhatsAppでコードを書き始めることが主要なユースケースになるとは予見していません。ただし、人々がAIに多くのことを依頼し、その結果AIが彼らが必ずしも知らなくてもコーディングすることになると思います。それは別のことです。
Metaでコードを書いている多くの人々がいて、彼らはMeta AIを使用しています。私たちにはMetaMateと呼ばれる内部的なものがあり、その周りに構築している多くの異なるコーディングとAI研究エージェントがあります。それには独自のフィードバックループがあり、それらの取り組みを加速するのにかなり良くなると思います。しかし、繰り返しますが、多くのことがあるでしょう。
AIはほぼ確実に知識労働とコードに大きな革命をもたらすでしょう。また、それは次世代の検索や人々が情報を取得し、より複雑な情報タスクを行う方法になると思います。
また、それは楽しいものになるでしょう。人々はそれを使って楽しむでしょう。今日のインターネットの多くはミームやユーモアです。私たちの指先に素晴らしい技術があります。人間のエネルギーがどれだけ自分自身を楽しませること、デザイン、文化を前進させること、そして観察する文化的現象を説明するユーモラスな方法を見つけることに向かうかを考えると、それは驚くべきことでおかしいことです。私はそれが将来的にもほぼ確実にそうなると思います。
InstagramやFacebookのような進化を見てみましょう。10、15、20年前に遡ると、それはテキストでした。その後、私たち全員がカメラ付きの電話を手に入れ、ほとんどのコンテンツが写真になりました。その後、モバイルネットワークが十分に良くなったので、電話でビデオを見たい場合、それはずっとバッファリングしているだけではなくなりました。そしてそれは良くなりました。
過去10年間で、ほとんどのコンテンツはこの時点でビデオに移行しました。今日、FacebookとInstagramで費やされる時間のほとんどはビデオに費やされています。しかし、5年後も私たちはただフィードに座って、ただビデオであるメディアを消費していると思いますか?いいえ、それはインタラクティブになるでしょう。あなたはフィードをスクロールします。最初はReelのように見えるコンテンツがあるかもしれません。しかし、それに話しかけたり、それとやり取りしたりすると、それは話し返したり、動きを変えたりします。または、ゲームのようにそれにジャンプして、そことやり取りすることもできます。それはすべてAIになるでしょう。
私のポイントは、さまざまな異なることがあるということです。私たちは野心的なので、それらの多くに取り組んでいます。しかし、どの会社もすべてを行うとは思いません。
AIが生成するコンテンツとAIとのやり取りについて、すでに人々はAIセラピスト、AIフレンド、もしかしたらそれ以上のものとも意味のある関係を持っています。これらのAIがよりユニークで、よりパーソナルで、よりインテリジェントで、より自発的で、よりおもしろくなるにつれて、これはさらに強くなっていくでしょう。
人々はAIと関係を持つでしょう。これらが健全な関係であることをどのように確認できますか?
行動を見始めて初めて本当に答えることができる質問がたくさんあります。おそらく最も重要な事前の事は、その質問をするだけで、その途上の各ステップでそれを気にかけることです。
しかし、あまりに前もって規範的であり、「これらのことは良くないと思う」と言うことは、しばしば価値を切り捨てることになります。人々は自分にとって価値のあるものを使用します。製品を設計する際の私のコアとなる指導原則の1つは、人々は賢いということです。彼らは自分の生活に何が価値があるかを知っています。時々、製品で何か悪いことが起こり、それを最小限に抑えるために製品をうまく設計したいと思うことがあります。
しかし、あなたが誰かがしていることは悪いと思い、彼らはそれが本当に価値があると思っているなら、私の経験では、ほとんどの場合、彼らが正しくてあなたが間違っています。あなたはただ彼らがしていることが彼らの生活において価値があり役立つ理由を理解するためのフレームワークをまだ思いついていないだけです。それが私がそれについて考える主な方法です。
人々はこれらの社会的タスクの多くにAIを使用すると思います。すでに、私たちが人々がMeta AIを使用するために見ている主なことの1つは、彼らの生活の中で人々と持つ必要がある難しい会話を話し合うことです。「私は彼女と問題を抱えています。この会話をどう持てばいいでしょうか。」または、「職場で上司と難しい会話をする必要があります。その会話をどう持てばいいでしょうか。」それはかなり役立ちます。
パーソナライゼーションループが始まり、AIがあなたをより良く知り始めると、それは本当に魅力的になるでしょう。
ソーシャルメディアに長い間取り組んできた中で、私がいつも狂っていると思う統計の1つがあります。平均的なアメリカ人の友達は3人未満です。友達と考える人は3人未満です。そして平均的な人はもっと意味のある需要を持っています。それは15人の友達かそのようなものだと思います。ある時点であなたは「さて、私はただ忙しすぎて、より多くの人々に対処できない」と思います。
しかし、平均的な人は自分が持っているよりも多くのつながりを望んでいます。人々が「これは実際の世界、人同士のつながりを置き換えるのだろうか?」という懸念を提起することがよくあります。そして私のデフォルトは、その答えはおそらくノーだということです。
実際に持つことができる場合、物理的なつながりについてより良いことがすべてあります。しかし現実は、人々は単に望むほどの多くのつながりを持っていないということです。彼らは多くの場合、望むよりも孤独を感じています。
だから、これらのこと—今日少しスティグマがあるかもしれないこと—は、時間が経つにつれて、私たちは社会としてそれが価値のある理由、それを行っている人々がそれを行うことが合理的である理由、そしてそれが実際に彼らの生活に価値を加えている方法を明確に表現する語彙を見つけるでしょう。しかし、この分野はまだ非常に初期段階です。
バーチャルセラピスト、バーチャルガールフレンドタイプのものを行っている会社は少数あります。しかし、それはとても初期段階です。それらの中での具現化はまだかなり弱いです。それを開いてみると、それはセラピストや話している人の単なるイメージです。時にはいくつかの非常にラフなアニメーションがありますが、それは具現化ではありません。
Reality Labsで私たちが取り組んでいるものを見てきたでしょう。そこではCodec Avatarsがあり、それは実際に実際の人のように感じます。それがどこに向かっているかです。AIと常時オンのビデオチャットを持つことができるようになるでしょう。ジェスチャーも重要です。実際に会話をしているとき、コミュニケーションの半分以上は、話す言葉ではありません。それはすべての非言語的なものです。
先日Orionをチェックする機会がありましたが、非常に印象的だと思いました。私は主にテクノロジーについて楽観的です。一般的に、あなたが言及したように、私はこれについてかなりリベラルです。人々が何かをしているなら、彼らはおそらくそれが彼らにとって良いと思っています。しかし、実際には誰かがTikTokを使用している場合、彼らがTikTokで過ごす時間にどれだけ満足しているかを言うのかどうかはわかりません。
私はそれについて主に楽観的です。なぜなら、もし私たちがこのAGIの未来世界に住むことになるなら、私たちも自分の能力をこのようなツールでアップグレードする必要があるからです。そして一般的に、もしすべての場所でスタジオジブリを見ることができれば、世界にはもっと美しさがあるかもしれません。
あなたのチームが私に見せたフラッグシップユースケースの1つについて心配していました。私は朝食テーブルに座っていて、視界の周辺には単にスクロールしていくReelsがたくさんあります。将来的には、私のAIガールフレンドが画面の反対側にいるかもしれません。だから私は、5年後にこれが起こらないようにするにはどうすればよいかを心配しています。
繰り返しますが、人々は彼らが望むものについて良い感覚を持っていると思います。あなたが見た体験はマルチタスクとホログラムを示すためのデモに過ぎませんでした。
同意します。将来はあなたの視界の隅で常にあなたの注意を引こうとするものがあるという世界ではないと思います。人々はそれをあまり好まないと思います。
これらのメガネを設計する際に、私たちが本当に注意していることの1つです。おそらくメガネが必要とする最も重要なことは、邪魔にならず、良いメガネであることです。余談ですが、これがRay-Ban Metaの製品がとても上手くいった理由の一部だと思います。音楽を聴いたり、電話をかけたり、写真やビデオを撮るのに優れています。AIはあなたが望むときにそこにあります。しかし、あなたがそれを望まないとき、それは人々が好む良い外観のメガネに過ぎません。それはうまく邪魔になりません。
私の予想では、それが拡張現実の未来にとって非常に重要な設計原則になるでしょう。私がここで見る主なことは次のとおりです。私たちの生活におけるデジタル世界がどれほど重要かを考えると、それにアクセスする唯一の方法がこれらの物理的なデジタル画面を通じてであるというのはちょっと狂っています。
あなたは電話、コンピュータを持っています。壁に大きなテレビを置くことができます。それは巨大な物理的なものです。テクノロジーが今、物理的世界とデジタル世界が本当に完全に混ざり合うべき点にあると思えます。それがホログラフィックオーバーレイが可能にすることです。しかし、同意します。
その周りの設計原則の大部分は、あなたがどのように人々とやり取りするかについてだと思います。あなたはそれらのやり取りにデジタルアーティファクトを持ち込み、非常にシームレスにクールなことをすることができるでしょう。あなたに何かを見せたい場合、ここに画面があります。それとやり取りできます。それは3Dにすることができます。それで遊ぶことができます。カードゲームをしたいですか?よし、ここにカードのデッキがあります。それで遊ぶことができます。
私たち2人が物理的に一緒にいて、3番目の友人がホログラムで参加する場合、彼らも参加できます。しかし、その世界でも—物理的空間が散らかっていると心理的に影響するのを望まないのと同様に—人々はデジタル物理的空間もそのように感じてほしくないと思います。これはより審美的な規範であり、解決されなければなりませんが、それを解決すると思います。
AI会話に戻ると、物理的インフラがどれほど大きなボトルネックになるかについて言及していました。DeepSeekなどの他のオープンソースモデルに関連して、DeepSeekは現在Metaのような研究所よりも少ないコンピュートを持っていて、Llamaモデルと競合していると言えます。
中国が物理的インフラ、産業規模のスケールアップ、より多くの電力とデータセンターをオンラインにすることに優れている場合、彼らがここで私たちを打ち負かす可能性についてどれほど心配していますか?
それは本当の競争です。産業政策が実際に展開されているのが見えます。中国はより多くの電力をオンラインにしています。
そのため、米国は本当にデータセンターを構築し、エネルギーを生産する能力を合理化することに焦点を当てる必要があります。そうでなければ、私たちは大きな不利な立場に立つと思います。
同時に、チップなどの輸出規制について、明らかにそれがある方法で機能しているのが分かります。DeepSeekについて「ああ、彼らはこれらの非常に印象的な低レベルの最適化をすべて行った」という会話がありました。そして現実は、彼らはそれを行い、それは印象的です。しかし、それから「なぜアメリカの研究所がそれを行わなかったのに、彼らはそれをしなければならなかったのか?」と尋ねます。それは彼らが輸出規制のためにNVIDIAが中国で販売を許可されている部分的に弱体化したチップを使用しているからです。
DeepSeekは基本的に、アメリカの研究所がする必要がなかった低レベルのインフラ最適化にカロリーと時間を費やす必要がありました。
さて、彼らはテキストで良い結果を出しました。DeepSeekはテキストのみです。インフラは印象的です。テキスト結果は印象的です。しかし、出てくる新しい主要なモデルはすべてマルチモーダルです。それは画像、それは声です。彼らのものはそうではありません。
さて、問題は、なぜそうなのかということです。彼らがそれをする能力がないからだとは思いません。それは彼らがこれらの輸出規制があるという事実を克服するためにこれらのインフラ最適化を行うことにカロリーを費やす必要があったからです。
しかし、Llama 4とDeepSeekを比較すると—私たちの推論モデルはまだリリースされていないので、R1との比較はまだ明確ではありませんが—私たちは基本的にDeepSeekが行っているすべてのテキストのことで同じ領域にいますが、より小さなモデルでです。したがって、Llamaのテキストに対するコストあたりの知性は低いです。マルチモーダルの面では、私たちは効果的にリードしており、彼らのモデルには存在しません。
したがって、Llama 4モデルを、DeepSeekが行っていることと比較すると、良いものです。人々は一般的にLlama 4モデルを使うことを好むと思います。しかし、そこには興味深い輪郭があります。明らかにそこで何かをしている優れたチームです。そして、電力の利用可能性、コンピュートとチップの利用可能性について質問するのは正しいです。なぜなら、異なる研究所が行うのを見ている作業と、それがどのように展開されているかは、ある程度それの下流にあるからです。
Sam Altmanが最近、OpenAIがオープンソースのSOTA推論モデルをリリースすると発言しました。ツイートの一部は、「7億人未満のユーザーを持っている場合にのみ使用できる」というような愚かなことは言わないというものでした。DeepSeekはMITライセンスを持っていますが、Llamaライセンスのいくつかの条件では、それを使用するアプリケーションで「built with Llama」と言うことや、Llamaを使用してトレーニングするモデルは「Llama」という単語で始まる必要があるということを要求していると思います。ライセンスについてどう思いますか?開発者にとってより負担が少ないものにすべきですか?
見てください、私たちは基本的にオープンソースLLMのことを先駆けました。だからライセンスが負担だとは考えていません。オープンソースを推進し始めたとき、業界では大きな議論がありました。これは合理的なことなのか?オープンソースで安全で信頼できるものを作ることができるのか?オープンソースは誰かが気にするほど競争力を持つことができるのか?
基本的に、これらの質問に答えているとき、多くの困難な作業はMetaのチームによって行われました。業界には他の人々もいましたが、実際には、LlamaモデルはこのオープンソースAIの全体を大きく開いたものでした。
もし私たちがこれにすべてのエネルギーを注ぎ込むなら、最低限、これらの大きなクラウド企業—MicrosoftやAmazonやGoogleのような—が私たちのモデルを売り返すなら、私たちは少なくともそれを行う前に彼らと話し合いを持つべきだと思います。どのようなビジネス上の取り決めをすべきか。
ライセンスの目標は、一般的に人々がモデルを使用することを止めようとするのではありません。私たちはただ、あなたがそれらの企業の一つ、または例えばAppleである場合、何をしたいかについて私たちに話しに来てほしいと思います。一緒にそれを行う生産的な方法を見つけましょう。
私はそれが一般的に問題なかったと思います。
さて、業界のオープンソース部分が、多くの他の優れたオプションがあり、ライセンスが人々がLlamaを使用したくない理由になる方向に進化するなら、その時点で戦略を再評価する必要があるでしょう。何をすることが理にかなっているか。しかし、私たちはそこにはいないと思います。それは実際には、私たちが見たことではありません、企業が私たちに来て、「あなたのライセンスが7億人に達したら私たちに話しに来なければならないと言っているので、これを使用したくない」と言うことです。今のところ、それはオープンソースの純粋主義者から聞いたことの方が多いです。「これはあなたが望むようなクリーンなオープンソースモデルですか?」
その論争はオープンソースの始まり以来存続してきました。GPLライセンスの問題対他のものなど、オープンソースに触れるものはすべてオープンソースにもする必要がありますか?それとも人々がそれを取り、異なる方法で使用できますか?これに関する論争は続くでしょう。
しかし、これらのモデルをトレーニングするのに何十億ドルも費やしている場合、他の企業—私たちと同じくらいの大きさで、簡単に私たちとの関係を持つことができる巨大な企業—に使用する前に私たちと話すように頼むことは、かなり合理的なことのように思われます。
他のモデルも本当に良いことが判明した場合。優れたオープンソースモデルがたくさんあります。だからあなたのミッションのその部分は達成され、おそらく他のモデルはコーディングに優れています。「見てください、オープンソースエコシステムは健全です。十分な競争があります。Metaのソフトウェアエンジニアリングであれアプリへのデプロイであれ、他のモデルを使用しても問題ありません。必ずしもLlamaで構築する必要はありません」と言う世界はありますか?
繰り返しますが、私たちは多くのことをしています。一歩下がって考えましょう。私たちが独自の大きなモデルを構築している理由は、私たちが望むものを正確に構築できるようにするためです。世界の他のモデルは私たちが望むものとは正確には一致していません。
それらがオープンソースなら、それを取って異なる方法で微調整することができます。しかし、それでもモデルアーキテクチャに対処する必要があります。そして、それらはレイテンシーと推論コストに影響を与える異なるサイズのトレードオフをします。私たちが運営する規模では、そのようなことは本当に重要です。
私たちはLlama ScoutとMaverickのモデルを特定の理由で特定のサイズにしました。それらはホストに収まり、特定のレイテンシーを望んでいました—特に私たちが取り組んでいる音声モデルのために—それをメガネから私たちのすべてのアプリ、Meta AIアプリ、そしてすべてのものに浸透させたいのです。
自分の運命をコントロールするレベルがあり、それは自分自身でものを構築する場合にのみ得られます。とはいえ、AIはすべての企業がすることのすべてのことで使用されるでしょう。大きなモデルを構築するとき、私たちはどの内部ユースケースを最適化するかを選ぶ必要もあります。
それは特定のことについて、「おそらくClaudeはこのチームが使用している特定の開発ツールを構築するのに優れている」と言うことができることを意味しますか?よし、それなら使用してください。素晴らしい。私たちは片手を縛って戦うことはしたくありません。私たちは多くの異なることをしています。
また、他の人々がオープンソースを行っているからそれは重要でなくなるかどうかを尋ねました。これについては、私はもう少し心配しています。自分自身にこう尋ねる必要があります。今現れてオープンソースを行っている人々—私たちがそれを行った今—は、私たちがそれを行っていなかったとしてもオープンソースを行っているでしょうか?
より多くの開発がオープンソースに向かうという傾向を見て、「ああ、この列車に乗らないと負けてしまう」と思う人々がいくつかいると思います。閉じられたモデルAPIを持っていて、ますます多くの開発者がそれを望まなくなります。
だから、他のプレーヤーがオープンソースでいくつかの作業を始めるのを見ています。しかし、それが試みなのか、それとも私たちにとってそうであるように彼らにとって根本的なものなのかは不明確です。良い例はAndroidで起こっていることです。Androidは最初はオープンソースのものとして始まりました。本当のオープンソースの代替はありません。時間が経つにつれて、Androidはますます閉じられたものになってきました。
だから、もし私たちであれば、業界をこの方向に押し続けるのをやめたら、これらの他のすべての人々についても心配する必要があります。おそらく彼らは本当にそれを行っているのは、彼らが私たちと競争しようとしていて、私たちが物事を推進している方向に対応しようとしているからだけかもしれません。
彼らはすでにオープンソースが存在しなかった場合に何をするかについての明らかな好みを示しました。そしてそれはオープンソースではありませんでした。私たちは会社で構築する技術の将来に対するその継続的な行動に依存することについて慎重になる必要があります。
あなたが言及した他のことは、標準がLlamaのようなアメリカのモデルを中心に構築されることが重要だということです。あなたの論理をそこで理解したいと思います。特定の種類のネットワークでは、Apple App Storeがそれが構築されている周りに大きな偶然性を持っているというケースがあります。しかし、DeepSeekのための何らかの足場を構築した場合、特に世代間で簡単にそれをLlama 4に切り替えることができないようには見えません。Llama 3はMoEではなく、Llama 4はMoEです。だから、モデルの世代間でも物事は変化しています。特定の標準で偶然的な方法で物事が構築されると考える理由は何ですか?
確かではありませんが、偶然的とはどういう意味ですか?
LLM一般ではなく、Llamaのために人々が構築していることが重要であるということです。それが将来の標準を決定するからです。
見てください、私はこれらのモデルは価値観や世界の考え方を符号化していると思います。私たちは初期に、Llamaの初期バージョンを取って翻訳しました。フランス語だったと思います、あるいは他の言語でした。フランス人から得たフィードバックは「これはフランス語を学んだアメリカ人のように聞こえます。フランス人のようには聞こえません」というものでした。そして私たちは「どういう意味ですか、フランス語をうまく話せませんか?」と尋ねました。いいえ、フランス語は問題なく話します。それは単に世界について考える方法が少しアメリカ的に思えるということでした。だから私はモデルに組み込まれるこれらの微妙なものがあると思います。
時間が経つにつれて、モデルがより洗練されるにつれて、世界中の異なる価値セットを具現化することができるはずです。だからおそらくそれは特に洗練された例ではないかもしれませんが、それはポイントを説明していると思います。
中国から出てくるモデルのいくつかをテストする中で見てきたものの一部には、特定の価値が符号化されています。そしてそれを変えるのは単なる軽い微調整ではありません。今、言語モデル—または一種の世界モデルが埋め込まれているもの—にはより多くの価値があります。
推論も価値を持っていると言えるでしょう。しかし、推論モデルの良いところの一つは、それらが検証可能な問題でトレーニングされていることです。あなたのモデルが数学を行っている場合、文化的バイアスを心配する必要がありますか?おそらくない。数学の問題を扱っているモデルが、巧妙な方法で解決することであなたを誘導する可能性は低いと思います。
しかし、コーディングに関する全く異なる問題のセットがあり、それは他の検証可能なドメインです。ある日目覚めて、もし別の政府と何らかのつながりを持つモデルを使用している場合、それがあなたのシステムの脆弱性をコードに埋め込み、後でそれらの情報機関が悪用できるかどうかを心配する必要があります。将来的には、別の国から来たモデルを使用していて、それがあなたのシステムを保護しています。
そして、あなたは目覚めて、すべてがその国が知っていて、あなたが知らない方法で脆弱になっています。または、ある時点で脆弱性をオンにします。これらは実際の問題です。私はこれを研究することに非常に興味があります。なぜなら、オープンソースについて最も興味深いことの1つはモデルを蒸留する能力だと思うからです。
ほとんどの人にとって、主な価値は単にモデルを棚から取って「メタがこのバージョンのLlamaを構築しました。これを取ってアプリケーションで正確に実行します」と言うことではありません。いいえ、もしただ私たちのものを実行しているだけなら、あなたのアプリケーションは何も違うことをしていません。少なくともあなたはそれを微調整するか、それを異なるモデルに蒸留しようとしているでしょう。Behemothモデルのようなものに到達すると、その全価値は非常に高い知性を取り、それを実際に実行したいと思う小さなモデルに蒸留することができることです。
これが蒸留の美しさです。それは過去1年間で、前回私たちが座ったときからかなり強力な技術として浮上したものの1つだと思います。ほとんどの人が予測したよりもうまく機能したと思います。基本的にはるかに大きなモデルを取り、その知性のおそらく90%か95%を捉え、元のサイズの10%のもので実行することができます。
100%の知性を得られますか?いいえ。しかし、コストの10%で知性の95%というのは、多くのことにとって非常に良いです。もう一つの興味深いことは、このより多様なオープンソースコミュニティを持つようになったことで、それはただLlamaだけではないということです。他のモデルもあります。
複数のソースから蒸留する能力があります。だから今、基本的に「Llamaはこれがとても得意だ。おそらくそのアーキテクチャは本当に良い。なぜなら、それは根本的にマルチモーダルで、推論がより友好的で、より効率的だから。しかし、他のモデルがコーディングにより適しているとしよう」と言えます。
素晴らしい。あなたは両方から蒸留して、自分のユースケースのために個別に見れば両方よりも優れたものを構築することができます。それはクールです。しかし、安全で確実な方法で蒸留できることを知るためのセキュリティ問題を解決する必要があります。
これは私たちが研究し、多くの時間を費やしてきたことです。基本的に分かったことは、言語に関するものは非常に難しいということです。そこにはただたくさんの価値が埋め込まれています。あなたが蒸留しているモデルからどのような価値を取り入れるかについて気にしないなら、おそらく単純に直接的な言語世界モデルを蒸留したくはないでしょう。
しかし、推論については、検証可能なドメインに限定し、コードのクリーニスとセキュリティフィルターを実行することで、かなりの部分まで到達できます。Llama Guardオープンソースを使用するか、私たちが行ったCode Shieldオープンソースツールを使用するかにかかわらず、あなたのモデルに異なる入力を組み込み、入力と出力の両方が安全であることを確認できるようにするものです。
その後、それは多くのレッドチーミングです。モデルを見て「さて、このモデルは蒸留後に私たちが望まないことを何かしていますか?」と尋ねる専門家を持つことです。これらの技術の組み合わせで、検証可能なドメインでの推論側ではかなり安全に蒸留することができると思います。それは私がかなり確信していることであり、私たちが多くの研究を行ってきた分野です。
しかし、これは非常に大きな質問だと思います。良い蒸留をどのように行うか?解放される価値がとても多いからです。しかし同時に、異なるモデルに組み込まれている基本的なバイアスがあると思います。
価値の解放について言えば、AIをマネタイズする正しい方法は何だと思いますか?デジタル広告はかなり収益性が高いです。しかし、GDPの総額の一部としては、すべてのリモートワークと比較すると小さいです。仕事を置き換えることなく生産性を向上させることができたとしても、それはまだ数十兆ドルの価値があります。広告ではないかもしれないですか?これについてどう考えていますか?
前に話したように、これらの異なるアプリケーションがあり、異なるアプリケーションは異なることに向かう傾向があります。広告は人々に無料のサービスを提供したい場合に適しています。無料だからこそ、何らかの形でカバーする必要があります。広告はこの問題を解決します。人は何かに対してお金を払う必要がありません。彼らは無料で素晴らしいものを得ることができます。ちなみに、現代の広告システムでは、うまくやれば人々は広告が物事に価値を加えると考えることが多いです。
ランキングが得意で、広告インベントリーの十分な流動性がある必要があります。システムに広告主が5人しかいない場合、ランキングがどれだけ優れていても、興味を持っているものを人に表示できないかもしれません。しかし、システムに100万の広告主がいる場合、あなたがその人が興味を持ちそうな干し草の中の異なる針を選び出すのが得意であれば、かなり魅力的なものを見つけることができるでしょう。
そのため、それは確かにそれ相応の場所があります。しかし、明らかに他のビジネスモデルもあるでしょう。無料で提供することさえも意味がないほどコストが高いものも含めて。ちなみに、このようなビジネスモデルは常に存在していました。
ソーシャルメディアが無料で広告でサポートされている理由があり、でもNetflixやESPNなどを見たい場合は、それにお金を払う必要があります。そこに入っているコンテンツ、彼らはそれを制作する必要があり、それを制作するのは彼らにとって非常に高価です。おそらく、コンテンツを制作するコストを補うために、サービス内に十分な広告を持つことはできなかったでしょう。
基本的に、アクセスするためにお金を払う必要があります。トレードオフは、より少ない人々がそれを行うということです。何十億ではなく、何億人がこれらのサービスを使用しています。そこには価値の変化があります。私はここでも同様だと思います。
誰もがソフトウェアエンジニア、または1000のソフトウェアエンジニアリングエージェント、あるいはそれが何であれ欲しいわけではありません。しかし、それを望むなら、それはおそらく数千、数万、または数十万ドルを払う価値があるでしょう。それはただ作成される必要のある異なるものの多様性を表しています。
スペクトルの各ポイントにビジネスモデルがあるでしょう。Metaでは、消費者向けの部分には無料のものを持ちたいと思っています。それは確かに広告でサポートされることになると思います。しかし、無料のサービスで提供することが意味をなさないよりも素晴らしいことをするために、人々が任意の量のコンピュートを使用することをサポートするビジネスモデルも持ちたいと思っています。そのために、私たちは確かにプレミアムサービスを持つことになるでしょう。しかし、これに関する私たちの基本的な価値は、世界の可能な限り多くの人々にサービスを提供したいということです。
今日話したもののいくつかを含む、これらすべての異なるプロジェクトをどのように追跡していますか?私が知らないものもきっとたくさんあります。すべてを監督するCEOとして、Llamaチームに行って「ここで使用すべきハイパーパラメータはこれです」と言うことと、「AIをより良くしなさい」というような命令を出すだけの間には大きなスペクトルがあります。そしてそこにはとても多くの異なるプロジェクトがあります。あなたが最善の付加価値を提供し、これらすべてのことを監督する方法についてどのように考えていますか?
私が時間を費やすことの多くは、素晴らしい人々をチームに参加させることです。それと、チームをまたぐことがあります。Meta AIを構築し、それをWhatsAppやInstagramに入れたい場合、チーム間で話をさせる必要があります。そして「WhatsAppのMeta AIのスレッドは他のWhatsAppのスレッドのように感じるべきか、それとも他のAIチャット体験のように感じるべきか」などの質問があります。それらには異なる言い回しがあります。これらの興味深い質問は、これらのものが私たちがやっていることすべてにどのように適合するかについて答える必要があります。
私たちがやっていることの全く別の部分は、インフラストラクチャーを推進することです。ギガワットクラスターを立ち上げたい場合、まず第一に、それは私たちがインフラストラクチャーの構築をしている方法に多くの意味を持ちます。それを構築している異なる州と関わる方法に政治的な意味を持ちます。「よし、世界には多くの経済的不確実性がある。今すぐインフラストラクチャに倍増すべきか?もしそうなら、会社の周りでどのようなトレードオフをしたいか?」という会社への財政的な意味もあります。これらは他の人が本当に決断するのが難しい種類の決断です。
そして、テイストと品質についての質問があります。何かが出荷したいと思うほど十分に良いのはいつですか?一般的に、私は会社のためにそれの管理人です。しかし、良いテイストを持っていて、様々なものの良いフィルターでもある他の多くの人もいます。これが基本的に分野です。
AIは興味深いです。なぜなら、私たちがやる他のことよりも、それはより研究とモデル主導であり、本当に製品主導ではないからです。欲しい製品を設計してから、それに適合するモデルを構築しようとすることはできません。実際にモデルを最初に設計し、欲しい機能を設計する必要があり、そしていくつかの創発的特性が得られます。その後、「ああ、これがある方法で出てきたので、いくつかの異なるものを構築できる」というようになります。最終的には、人々は最良のモデルを使用したいと思います。
それが部分的に、最も個人的なAI、最高の声、最高のパーソナライゼーション、そして非常に低いレイテンシーの非常にスマートな体験を構築する際に、システム全体をそれを構築するために設計する必要がある理由です。そのため、私たちは全二重音声に取り組んでいます。そのため、パーソナライゼーションに取り組んでいて、AIとのやり取りからの良いメモリー抽出だけでなく、他のすべてのMetaシステムにプラグインできるようにするためです。そのため、私たちは特定のモデルを設計し、それらが持つサイズとレイテンシーのパラメータを持つようにしています。
政治について言えば、一部のテック企業リーダーがトランプに同調しているという印象がありました。あなたや他の人たちは彼の就任イベントに寄付し、彼と一緒にステージに上がり、彼らが2500万ドルを得る結果となった訴訟を解決したと思います。ここで何が起きているのでしょうか?政権との取引をする費用のように感じますか?これについて考える最良の方法は何ですか?
私の見解は、彼がアメリカ合衆国の大統領だということです。アメリカの企業として、デフォルトでは誰が政府を運営しているかとの生産的な関係を持とうとするべきです。私たちは以前の政権にも支援を提供しようとしてきました。私は以前の政権との一部の不満を公にしてきました。彼らが基本的に私たちやビジネスコミュニティとより広く関わらなかったことについてです。
率直に言って、これらのことに進展を遂げるためには、それが必要になるでしょう。対話がなければ、彼らがそれらのことを優先していなければ、必要なレベルのエネルギーを構築することはできません。
多くの人々が人々がどの方向に進んでいるかについての話を書きたがります。私たちは素晴らしいものを構築し、人々と生産的な関係を持ちたいと思っています。それが私の見方です。それは他の多くの人もそう見ていると思いますが、明らかに彼らのために話すことはできません。
あなたは過去にモデレーションに関して、政府を関与させ委任させる方法について一部を再考したと発言しました。AIガバナンスについてどのように考えていますか?AIが私たちが考えるほど強力であれば、政府は関わりたがるでしょう。そこで最も生産的なアプローチとは何でしょうか?政府は何を考えるべきでしょうか?
過去に私が行ったほとんどのコメントはコンテンツモデレーションの文脈でした。これは過去10年間で興味深い旅でした。明らかに歴史的に興味深い時期でした。オンラインコンテンツモデレーションについての新しい質問が提起されました。それらのいくつかは、国家が他の国の選挙に干渉しようとするのを検出するAIシステムなど、生産的な新しいシステムの構築につながりました。私たちはそれらを引き続き構築し、それは純粋にポジティブなものだと思います。
他のいくつかのことでは、私たちはいくつかの悪い道に進みました。私はただファクトチェックのことがコミュニティノートほど効果的ではなかったと思います。なぜならそれはインターネット規模のソリューションではないからです。ファクトチェッカーが十分になく、人々は特定のファクトチェッカーを信頼していませんでした。より堅牢なシステムが必要です。だから私たちが得たコミュニティノートが正しいものだと思います。
しかし、この点での私のポイントは、歴史的に私はおそらくメディアとその批判、または政府に対して、彼らが本当に権限を持っていないことについて少し譲歩しすぎていたということです。しかし単に中心的な人物として、私たちはすべてのコンテンツモデレーションの決定を自分たちで行う必要がないようなシステムを構築しようとしたのかもしれません。
過去10年間の成長プロセスの一部は、「良い、私たちは意味のある会社です。私たちが行う必要のある決定を所有する必要があります。人々からのフィードバックを聞くべきですが、これに対して本当に権限を持たない人々に過度に委任すべきではありません。なぜなら最終的には、私たちが席に座っており、私たちが行う決定を所有する必要があるからです。」と認識することです。
これは成熟のプロセスであり、ある意味では痛みを伴いましたが、私たちはおそらくそのためにより良い会社になったと思います。
関税は米国でのデータセンター構築コストを増加させ、ヨーロッパやアジアへの構築をシフトさせるでしょうか?
それがどのように展開するかを知るのは本当に難しいです。私たちはおそらくまだその初期段階にいて、それを知るのは非常に難しいです。
1週間の中で、あなたの最も影響力の高い1時間は何ですか?その1時間に何をしていますか?
わかりません。毎週少し違います。1週間で行う最も活用度の高いことは、毎週同じことではないというのが事実でなければなりません。そうでなければ、定義上、おそらく毎週そのことを1時間以上行うべきでしょう。
わかりません。この仕事の楽しさの一部、また業界がとても動的であることの楽しさは、物事が本当に動くということです。世界は年初めや半年前、あるいは昨年半ばとは非常に異なっています。私は多くのことが意味をもって進んだと思います。前回座ってから多くのカードがめくられました。それは約1年前でしたよね?
そうですね。先ほど言っていたのは、人を採用することは非常に影響力の高いことだということですね。
それは非常に影響力が高いですね。
あなたはこれらのモデルが年末までに中級レベルのソフトウェアエンジニアになると話しました。例えば2年でソフトウェア生産性が100倍に増加したら何が可能でしょうか?現在構築できないどのような種類のものが構築可能になるでしょうか?
どのような種類のものか?それは興味深い質問です。この会話のテーマの1つは、解き放たれる創造性の量は大きなものになるということです。人間社会と経済の100年または150年にわたる全体的な弧を見ると、それは基本的に人々が主に農業から—ほとんどの人間のエネルギーが単に私たち自身を養うことに向けられていた—それがより小さな割合になっていくことです。そして私たちの基本的な物理的ニーズを満たすものが人間のエネルギーのより小さな割合になっています。
そのシフトは2つの影響をもたらしました:1つは、より多くの人々が創造的および文化的な追求を行っているということです。2つ目は、一般的により多くの人々が仕事に費やす時間が少なくなり、エンターテイメントと文化により多くの時間を費やしているということです。これが続く中で、それはほぼ確実に続いていくと思います。
これは超強力なソフトウェアエンジニアを持つと何が起こるかという1-2年のことではありません。しかし、時間が経つにつれて、誰もがこれらの超人的なツールを持ち、多くの異なるものを創造することができれば、信じられない多様性が得られるでしょう。その一部は難しい問題を解決することです:病気を解決する、科学を進める、私たちの生活をより良くする新しい技術を開発することです。
しかし、それの多くは文化的および社会的な追求とエンターテイメントになると思います。世界はより面白く、より奇妙で、よりユニークになると思います。インターネット上のミームが過去10年間でなっていったようにです。それは豊かさと深みをもたらします。面白い方法で、それは実際に人々とより良く繋がるのを助けます。一日中、私はインターネット上で面白いものを見つけて、それが面白いと思う人たちに送っています。
今日、人々が非常にニュアンスのある特定の文化的アイデアを表現するために生産できるメディアは本当にクールです。それはさらに発展し続けるでしょう。それは「難しい科学」という病気を治す方法ではないにしても、社会をさまざまな方法で進歩させます。
考えてみると、Metaのソーシャルメディアの世界観は、そうです、人々は将来的にそのようなことにより多くの時間を費やすことになるということです。それはより良くなり、つながるのを助けるでしょう。なぜなら、それは異なるアイデアを表現するのを助けるからです。世界はより複雑になりますが、このとても複雑なものを表現する技術、私たちの文化的技術—面白い小さなクリップやそのようなもので—はとても良くなるでしょう。それはすべて素晴らしいと思います。
来年については分かりません。もう一つの考えで、興味深いと思うのは、少なくとも予見可能な将来には、これはより少ない人々が仕事をするというよりも、人々が仕事をすることへのより多くの需要につながるということです。さて、人々は彼らが仕事にどれだけの時間を費やしたいかを選ぶことができます。
最近話していた興味深い例を挙げましょう。私たちには毎日ほぼ35億人がサービスを利用しています。私たちが常に格闘してきた質問の1つは、どのようにカスタマーサポートを提供するかです。今日では、メールを書くことができますが、人が電話をかけてくることができる音声サポートを真剣に検討することはできませんでした。それは無料のサービスを持つことの成果の一つかもしれません。一人あたりの収益は、人々が電話をかけることができる経済モデルを持つのに十分高くありません。
しかし、毎日35億人があなたのサービスを使用しているとすると、電話の数は膨大になるでしょう。それは世界最大のコールセンターのようなものになるでしょう。それをスタッフ配置するのに年間100億から200億ドルかかるでしょう。だから我々はそれについて真剣に考えたことはありません。なぜなら常にそれが意味を成すことはできないと思われたからです。しかし今、AIが良くなるにつれて、AIが人々の問題の多くを処理できる場所に到達するでしょう。
すべてではありません—おそらく10年後にはすべてを処理できるかもしれません—しかし3〜5年の時間枠を考えると、それはかなりの量を処理できるでしょう。それは自動運転車のようなものです。それらはかなりの地形を処理できますが、ほとんどの場合はまだ単独ですべてのルートを処理していません。人々はトラック運転の仕事がなくなると思いましたが、20年前に自動運転車について最初に話し始めたときよりも今の方がトラック運転の仕事が多いです。
カスタマーサポートの話に戻りますが、すべての人のために電話をスタッフ配置することは意味をなさないでしょう。しかし、AIがその90%を処理できるとしましょう。そして、できない場合は、それを人に渡します。そのサービスを提供するコストをそうでなければかかるであろうコストの10分の1に削減すれば、それを行うことが実際に意味を成すかもしれません。それはクールでしょう。だから実際の結果として、私たちはおそらくより多くのカスタマーサポートの人々を雇うだろうと思います。
一般的な信念はAIが仕事を自動化してなくすということですが、それは技術の歴史がどのように機能してきたかではありません。通常、仕事の90%を取り除くものを作りますが、それはより少なくではなく、より多くの人々を望むことにつながります。
インタビューを締めくくるために、私はいくつかのポイントで悪魔の代弁者を演じてきました。あなたが良いスポーツマンシップを見せてくれたことに感謝します。しかし、私は世界にどれだけの美しさがあるかには上限がないと思います。特に数十億のAIが見ることができる美しさの量、持つことができるつながりの量などを最適化している場合です。私はそれについてかなり楽観的です。
最後の質問です:今日の世界で、助言を求める一番の人物は誰ですか?
ああ、そうですね。私のスタイルの一部は、広範なアドバイザーを持つことが好きだということです。それは一人だけではありません。私たちには素晴らしいチームがいます。会社にいる人々、取締役会のメンバーがいます。業界で新しいことをしている多くの人々がいます。単一の人物はいません。
でも、それは楽しいことです。また、世界が動的であるとき、好きな人々と一緒にクールなことに取り組む理由があります…私にとって、それが人生の意味です。
締めくくりの良い言葉ですね。これをしてくれてありがとう。
ありがとう。

コメント

タイトルとURLをコピーしました