ジェフ・ディーンとノーム・シェイザー – Googleでの25年：PageRankからAGIへ

47,952 文字

Jeff Dean & Noam Shazeer – 25 years at Google: from PageRank to AGI

This week I welcome two of the most important technologists in any field.Jeff Dean is Google's Chief Scientist, and thro...

今日は、ジェフ・ディーンとノーム・シェイザーとお話しする光栄な機会を得ました。ジェフはGoogleのチーフサイエンティストで、25年間にわたり現代のコンピューティングで最も革新的なシステムの開発に携わってきました。MapReduce、BigTable、Tensorflow、AlphaChipなど、その功績は枚挙にいとまがありません。そして今はGeminiです。
そしてノームは、現在のAI革命の立役者と言える人物です。彼は現代の大規模言語モデルで使用されている主要なアーキテクチャーや技術の発明者または共同発明者です。Transformer自体から、Mixture of Experts、Mesh Tensorflowなど多岐にわたります。そして二人はGoogle DeepMindでGeminiの3人のリーダーの2人なのです。素晴らしいですね。出演していただき本当にありがとうございます。
ありがとうございます。とても楽しみにしています。
では最初の質問です。お二人ともGoogleで25年、あるいはほぼ25年働いていらっしゃいますが、会社の初期には恐らく全てのことを理解されていたと思います。それが難しくなったのはいつ頃でしょうか？明確な転換点があったと感じますか？
私が入社したのは2000年の終わり頃でした。メンターがつく制度があって、私は何も知らなかったので、メンターに何でも質問していました。そのメンターがジェフだったのですが、実は全員が全てを知っていたわけではなく、ジェフが基本的に全てを書いていたから全てを知っていただけだったんです。
ご親切に。企業が成長すると、いくつかの段階を経ると思います。私が入社した時は25人か26人くらいでした。全員の名前を覚えられる規模で、成長しても新しく入ってくる人の把握はできていました。
ある時点で全員の名前を覚えきれなくなりますが、少なくともソフトウェアエンジニアリング関連の人は全員把握できています。その後、ソフトウェアエンジニアリンググループの全員の名前も把握できなくなりますが、少なくとも全てのプロジェクトは把握できています。そしてある時点で、会社が大きくなりすぎて「プロジェクトカモノハシが金曜日にローンチします」というメールが来ても「プロジェクトカモノハシって何だ？」という状態になります。
大抵は素晴らしい驚きです。「すごい、プロジェクトカモノハシ！」という感じで。全ての細かい詳細は分からなくても、会社で何が起きているのかを把握し続けることは大切だと思います。また、より詳しい情報が必要な時や誰に聞けばいいのかを見つけられるように、会社中の多くの人を知っておくことも重要です。
時間をかけてネットワークを築いていけば、通常は1段階の間接的なつながりで会社の中の適切な人物にたどり着けます。
ところで、Googleはどのようにしてあなたをリクルートしたのですか？
実は、私の方から連絡を取ったんです。
ノームはどうでしたか？
1999年の就職フェアでGoogleを見かけました。私が知る限り誰もがGoogleを使っていたので、既に大企業になっていて入社するのは無理だと思っていました。
当時私はバークレーの大学院生でした。大学院は何度か中退していますね。実際にはそれほど大きな会社ではなかったことが分かりました。1999年には応募しませんでしたが、2000年に気まぐれに履歴書を送りました。お気に入りの検索エンジンだったので、就職先の候補の一つとして応募してみようと思ったんです。
結果的にとても楽しそうで、賢い人たちが良い仕事をしているように見えました。壁には誰かが手書きで毎日の検索クエリ数を記録したクレヨンのグラフがあって、指数関数的な成長を示していました。
「この人たちは成功するだろうし、取り組むべき良い課題がたくさんありそうだ」と思いました。そこで「しばらく働いて、その後AIの研究に好きなだけ取り組めるだけのお金を稼ごう」と考えたんです。
そうですね。ある意味でその通りになりましたね。
1999年の時点でAIのことを考えていたんですか？
はい、2000年頃です。大学院時代、当時の友人の一人が2000年の新年の抱負として「3000年まで生きること」を掲げていて、それをAIを発明することで達成しようとしていました。私は「それは良いアイデアだな」と思いました。
当時は大企業でそれができるとは思っていませんでした。ただ、多くの人々がスタートアップで大金を稼いでいるように見えたので「お金を稼いで、AIの研究に専念できる資金を確保しよう」と考えました。実際にはGoogleがAIの研究に最適な場所だったことが分かりました。
Googleの良いところは、常に高度なAIを必要とするような野心的な目標を持っていたことです。世界中の情報を整理し、誰もがアクセスできて役立つようにするというのは、とても広範な使命です。会社が一つの小さなことだけをやり続けるわけではありません。また、私たちが最初にやっていたことはその方向に向かっていましたが、その方向でもっとたくさんのことができると分かっていました。
ムーアの法則は、過去20年から30年の間に、新しいシステムを設計する際の考慮事項をどのように変えてきましたか？どのようなプロジェクトが実現可能かを判断する際に、現在でも制限となっている要因は何でしょうか？また、以前には明らかにできなかったことで、今では可能になったことは何でしょうか？
この数十年で大きく変化したと思います。20年前から10年前までは素晴らしい時代でした。18ヶ月待つだけで、何もしなくてもハードウェアが大幅に高速化されましたから。最近では、汎用CPUベースのマシンのスケーリングはそれほど良くなく、製造プロセスの改善も2年ごとから3年ごとに延びています。
マルチコアプロセッサなどのアーキテクチャの改善も、10年前から20年前に得られていたような向上は得られなくなっています。しかし同時に、機械学習アクセラレータやTPU、そして最近ではML重視のGPUなど、より専門化された計算デバイスが登場しています。これらによって、Microsoft Officeのような複雑なC++コードを実行するのとは異なる、現代的な計算を高性能かつ効率的に実行できるようになっています。
アルゴリズムがハードウェアに追随しているように感じます。基本的に起きていることは、現時点で算術演算が非常に安価になり、データの移動が比較的高価になっているということです。そのため、深層学習はほぼそれが理由で急速に発展しました。N立方の演算とN平方のデータ通信で構成できる行列乗算を基本として構築できるからです。
私から言わせれば、そのようなハードウェアへの移行が重要な転換点でした。それ以前は、CPUとGPUは深層学習に特に適していませんでした。そしてGoogleでTPUの開発を始めました。これは本質的に精度を下げた線形代数マシンでしたが、それができると、それを活用したくなります。
機会費用を見極めることが重要なようですね。ラリー・ペイジがよく言っていたと思うのですが：「私たちの2番目に大きなコストは税金で、最大のコストは機会費用だ」と。もし彼が言っていなかったとしたら、何年も間違って引用していたことになりますが。
基本的に、見逃している機会は何なのかということです。この場合、チップ面積があるのに、そこに非常に少数の演算ユニットしか配置していないということです。演算ユニットで埋め尽くせば良いのです！桁違いに多くの演算を行うことができます。
では他に何を変える必要があるのか？アルゴリズムやデータフローなどすべてですね。そして、算術演算は非常に低い精度で良いので、さらに多くの乗算ユニットを詰め込むことができます。
ノーム、アルゴリズムがハードウェアに追随しているという指摘について、もう少し詳しく聞かせてください。仮に、メモリのコストが算術演算よりも大きく低下したり、現在見られる動向が逆転したりした反事実的な世界を想像した場合、今日のAIはどのようなものになっていたと思いますか？
非常に大きなメモリへの参照が多くなっていたでしょうね。
そうですね、20年前のAIのように見えたかもしれませんが、逆方向で。よく分かりません。私がGoogle Brainに参加したのは2012年です。
数年間Googleを離れていましたが、妻と一緒に昼食に戻った時に、偶然ジェフと初期のGoogle Brainチームの隣に座ることになりました。「すごく賢い人たちの集まりだな」と思いました。
「ディープニューラルネットについて考えてみたら？良い進展が得られていますよ」と言ったと思います。
「面白そうですね」。そこでジェフのところに戻ることにしました。2012年のことです。12年おきにGoogleに入社しているようですね。2000年、2012年、そして2024年です。
2036年には何が起こるんでしょうね？
分かりません。見てみましょう。
アルゴリズムの考え方を踏まえて、TPUの将来バージョンではどのようなトレードオフを検討されているのでしょうか？
一般的な傾向として、モデルの量子化や精度を大幅に下げることがうまくなってきています。TPUv1から始まった時は、8ビット整数でサービング用のモデルを量子化できるかどうかさえ確信が持てませんでした。
しかし、初期の証拠からそれが可能そうだと分かったので「よし、このチップ全体をそれを前提に設計しよう」となりました。その後、学習にもより低い精度を使えるようになってきました。
推論の精度も下がってきています。現在ではINT4やFP4を使用していますが、20年前のスーパーコンピューティングの浮動小数点の専門家に「FP4を使います」と言ったら「何を言っているんだ。私たちは浮動小数点に64ビット使うんだぞ」と言われたでしょう。
それ以下でさえ、モデルを2ビットや1ビットに量子化する人もいます。そしてそれは間違いなく一つの傾向です。
1ビット？ゼロか1だけですか？
はい、0-1だけです。そしてビットのグループに対して符号ビットを持たせたりします。
これは本当にco-designの問題です。なぜなら、アルゴリズムの設計者が低精度で大幅な性能向上が得られることを理解していないと、当然「低精度は望まない。リスクが増える」と言うでしょう。そしてイライラが募ります。
そしてチップの設計者に「何を作りたいですか？」と尋ねると、今日アルゴリズムを書いている人に聞くことになりますが、その人は「いや、量子化は嫌だ。イライラする」と言うでしょう。そのため、全体像を把握して「待てよ、量子化によってスループット対コスト比を大幅に向上できる」ということを理解する必要があります。
そうすれば「そうだ、量子化はイライラするけど、モデルは3倍速くなるから対処するしかない」となります。
キャリアを通じて、様々な時点で、現在の生成AIで実際に使用されているものと不思議なほど似たものに取り組んでこられました。ジェフ、1990年のあなたの卒業論文はバックプロパゲーションについてでしたね。
そして2007年 – これは今回のエピソードの準備をするまで気づかなかったのですが – お二人は2兆トークンのN-gramモデルを言語モデリング用に学習させました。そのモデルを開発していた当時のことを聞かせてください。このようなことが頭の中にあったのでしょうか？当時何をしようとしていたと考えていましたか？
学部の卒業論文の話から始めましょう。最終学年に取っていた並列計算の授業の一部でニューラルネットワークに出会いました。卒業するには論文が必要だったので、教授に「ニューラルネットに関する何かをやりたい」とアプローチしました。
そこで1990年にニューラルネットのバックプロパゲーション学習を並列化する方法をいくつか実装することにしました。論文では「パターン分割」といった変わった名前を付けましたが、実際には32プロセッサのHypercubeマシン上でモデル並列性とデータ並列性を実装しました。
一つの方法では、全ての例を異なるバッチに分割し、各CPUがモデルのコピーを持ちます。もう一つの方法では、モデルの異なる部分を持つプロセッサ間で多くの例をパイプライン処理します。それらを比較検討しました。
抽象化に非常に興奮しました。なぜならニューラルネットは正しい抽象化だと感じたからです。当時は他のアプローチでは解けないような小さなおもちゃの問題を解くことができました。
素朴な私は、32個のプロセッサがあれば本当に素晴らしいニューラルネットを学習できると思っていました。しかし実際の問題に対して機能するようになるには、約100万倍のコンピューティングパワーが必要でした。2008年、2009年、2010年頃になってようやく、ムーアの法則のおかげで、実際の問題にニューラルネットを機能させるのに十分なコンピューティングパワーを持つようになりました。その頃から私はニューラルネットの研究に再び取り組み始めました。
しかしその前の2007年に…
申し訳ありません。これについて質問してもいいですか？
はい、どうぞ。
まず、他の学術成果物とは異なり、実際には4ページしかなく、読むことができます。
4ページと30ページのCコードでした。
しかしよく作られた成果物ですね。2007年の論文はどのように生まれたのか教えてください。
ああ、そうですね。当時Googleには機械翻訳研究チームがあり、フランツ・オックが率いていました。彼は1年ほど前にGoogleに入社していました。毎年DARPAのコンテストに参加していて、中国語から英語とアラビア語から英語の翻訳を競っていました。
Googleチームがエントリーを提出し、その仕組みは月曜日に500文を受け取り、金曜日までに回答を提出するというものでした。
私はその結果を見ました。私たちは翻訳品質の指標であるBLEUスコアで大きな差をつけて優勝していました。そこでこの優勝チームのリーダーであるフランツに連絡を取りました。「素晴らしいですね。いつローンチするんですか？」と尋ねると、彼は「ああ、これはローンチできません。1文を翻訳するのに12時間かかるんです」と答えました。「それは時間がかかりすぎですね。どうすれば改善できるでしょうか？」
高スループット用に設計されていなかったことが分かりました。翻訳したい単語ごとに、統計を計算した大規模な言語モデルに対して10万回のディスクシークを行っていました。「学習」とは言えないかもしれません。
明らかに10万回のディスクシークは高速とは言えません。そこで「では、詳しく見てみましょう」と言いました。2、3ヶ月かけて彼らと一緒に、N-gramデータのメモリ内圧縮表現を設計しました。
N-gramは基本的に大規模なコーパスにおける各N単語シーケンスの出現頻度の統計です。この場合、2兆語を扱っていました。当時のN-gramモデルは2-gramか3-gramを使用していましたが、私たちは5-gramを使うことにしました。
処理できる限りのウェブの中で、5単語のシーケンスがどれだけ出現するかを調べました。例えば「I really like this restaurant」がウェブ上で17回出現するといった具合です。
そこで、200台のマシンのメモリにそれら全てを格納し、「このラウンドでこの単語について必要な10万個の検索結果を全て教えてください」というバッチAPIを持つデータ構造を構築しました。それによって、1文の翻訳に一晩かかっていたものを基本的に100ミリ秒で処理できるようになりました。
ジェフ・ディーンに関する事実のリストがあります。チャック・ノリスの事実のような感じです。例えば「ジェフ・ディーンにとって、NPは”no problemo”を意味する」といったものです。その中の一つが、今あなたの話を聞いて、実は本当だと分かりました。
「光速は時速35マイルだったが、ジェフ・ディーンが週末にそれを最適化した」というものです。12時間から100ミリ秒への短縮、桁数を数えないといけませんね。
これらは全て非常に褒め言葉です。同僚たちによるエイプリルフールのジョークが暴走したような感じですね。
明らかに振り返ってみると、単語間の関係性だけを考慮することで、インターネット全体の潜在的な表現を開発できるという考えは、今日の大規模言語モデルやGeminiそのものですね。当時は、それは単なる翻訳のアイデアだったのでしょうか？それとも異なるパラダイムの始まりとして見ていましたか？
翻訳用にそれを構築した後、大規模言語モデルのサービングは他の用途にも使われ始めました。例えば入力の補完…タイプし始めると、意味のある補完を提案するといったことです。
確かにそれはGoogleにおける言語モデルの多くの用途の始まりでした。ノームはGoogleで他にもいくつかのプロジェクトに取り組んでいて、言語モデルを使用したスペル修正システムなどを開発しました。
それは2000年、2001年頃で、1台のマシンのメモリ上で全て処理していたと思います。
はい、1台のマシンでした。2001年に彼が作ったスペル修正システムは素晴らしかったです。会社全体にデモリンクを送ったんです。
私は考えられる限りの変な綴りのクエリを試しました。「scrumbled uggs Bundict」とか…
ええ、それを覚えています。
…「scrambled eggs benedict」の代わりにね。毎回完璧に修正してくれました。
はい、それは言語モデリングでしたね。
しかし当時、これらのシステムを開発していた時、「これらをより洗練させていけば、5単語ではなく100単語、1000単語を考慮すれば、その潜在的な表現が知能になる」というような考えはあったのでしょうか？基本的にその洞察はいつ訪れたのでしょうか？
not really. N-gramモデルがAI…
…世界を席巻する…
…になるとは思っていませんでした。
当時、多くの人がベイジアンネットワークに興奮していました。それは刺激的に見えました。
確かに初期のニューラルネット言語モデルを見た時、その魔法のような面白さと、これは世界で最高の問題だと感じました。なぜなら、まず非常にシンプルに述べることができます：次の単語の確率分布を与えてください。また、ほぼ無限の訓練データがあります。ウェブのテキストがあり、教師なしデータの訓練例が数兆個あります。
そうですね、あるいは自己教師あり学習ですね。
自己教師あり、そうです。
良いところは、正解があって、現在の単語以外で訓練して現在の単語を予測しようとできることです。世界の観察から学習できるという素晴らしい能力です。そしてそれはAI完全です。それを素晴らしくこなせれば、基本的に何でもできます。
科学の歴史における興味深い議論があって、アイデアは空気中にあって大きなアイデアには必然性があるのか、それとも何か接線的な方向から突然生まれるのかということについてです。この場合、私たちが論理的に説明している方法は、基本的にどの程度必然的だったのでしょうか…
確かに空気中にあったような気がします。Neural Turing Machineや、キーバリューストアがニューラルネットワークで物事に焦点を当てるのに役立つかもしれないといった、注意機構に関するいくつかのアイデアがありました。
ある意味では空気中にあり、ある意味では、それを実行するグループが必要でした。
多くのアイデアは部分的に空気中にあると考えています。新しい問題を解決しようとする時に注目する、いくつかの異なる研究アイデアがあるかもしれません。それらからインスピレーションを得て、まだ解決されていない側面を解決する必要があります。既に存在するものの組み合わせと、新しいものが、以前には存在しなかった新しいブレークスルーや研究成果につながります。
研究分野を見ていて、アイデアを思いついた時に「すげぇ、まさか上手くいくとは」と感じた重要な瞬間はありますか？
一つ覚えているのは、Brainチームの初期の頃です。「本当に大きなニューラルネットを学習できるインフラを構築できないか」に焦点を当てていました。当時、データセンターにはGPUはなく、CPUだけでしたが、多くのCPUを協調させる方法は知っていました。
そこでモデル並列性とデータ並列性の両方を通じて、かなり大きなニューラルネットを学習できるシステムを構築しました。YouTubeからランダムに選んだ1000万フレームに対する教師なし学習のシステムがありました。空間的に局所的な表現で、高レベルの表現から再構築しようとすることで、教師なしの表現を構築していました。
2000台のコンピュータを使用して16000コアで動作させました。しばらくすると、そのモデルは最上位層で、猫の画像に反応するニューロンを持つような表現を構築できるようになりました。
猫が何であるかを教えられていないのに、学習データの中で正面から見た猫の顔を十分見ることで、そのニューロンはそれに反応し、他のものにはあまり反応しなくなりました。同様に、人間の顔や歩行者の後ろ姿などに反応する他のニューロンもありました。
教師なし学習の原理から、このような高レベルの表現を構築できたのは面白いことでした。その後、ImageNetの20000カテゴリのチャレンジで、当時としては非常に良い結果を得ることができ、相対的に60%の改善を達成しました。
そのニューラルネットは、それまでに学習されたものの50倍ほど大きく、良い結果を得ました。そこで「ニューラルネットのスケールアップは良いアイデアだと思っていたけど、実際にそうらしいので、さらに推し進めるべきだ」と思いました。
これらの例は、先ほど言及したように、GoogleがAIシステムを情報を整理する会社の文脈にどう位置付けているかを示しています。この文脈でのAIは、情報間の関係性、概念間の関係性を見つけ出し、アイデアや欲しい情報をより速く届けるのを助けます。
現在のAIモデルに移ると、明らかにGoogle SearchでBERTを使用して質問することができ、情報検索は得意です。しかし、より根本的には、コードベース全体を書いたり、実際の仕事をしたりできるようになっています。これは単なる情報検索を超えています。
そのことについてどのように考えていますか？Googleは依然として情報検索の会社なのでしょうか？AGIを構築しているのであれば。AGIは情報検索もできますが、他の多くのこともできます。
私たちは「世界の情報を整理する」会社だと思います。それは情報検索よりも広い概念です。おそらく「ガイダンスに基づいて新しい情報を整理し、創造する」ということでしょう。
「獣医さんに犬の症状について手紙を書きたいのですが」と言えば、下書きを作ってくれます。または「このビデオを見て、数分ごとに何が起きているかをまとめてください」といったことができます。
マルチモーダルな能力は、テキスト以上のものであることを示しています。人間向けのものだけでなく、自動運転車の変わったLIDARセンサーやゲノム情報、健康情報といった非人間向けのモダリティを含む、あらゆる形態の情報を理解することが重要です。
そして、それらの情報から有用な洞察を抽出・変換し、人々が望むあらゆることを助けることができます。チャットボットと会話して楽しむこともあれば、「この複雑な質問に対する答えが欲しい。単一のソースから検索できるものではない」という場合もあります。
100のウェブページから情報を集め、何が起きているかを理解し、そのデータを整理・統合したバージョンを作る必要があります。そしてマルチモーダルな課題やコーディング関連の問題にも対応します。これらのモデルが何ができるかは非常に刺激的で、急速に改善していますので、今後が楽しみです。
私も今後が楽しみです。情報を整理することは確かに1兆ドルの機会ですが、1兆ドルはもはやクールではありません。クールなのは1000兆ドルです。
もちろん目的は巨額のお金を積み上げることではなく、世界に価値を創造することです。これらのシステムが実際にあなたのために何かを行い、コードを書き、自分では解決できなかった問題を解決できるようになれば、はるかに多くの価値を生み出すことができます。
そのためには、これらのモデルの能力を向上させていく中で、非常に柔軟で動的である必要があります。
はい、私は多くの基礎研究の課題に非常に興奮しています。現在行っていることが、このアプローチを試してみたり、この方向性のことを試してみたりすれば大幅に改善できると気付くからです。うまくいくかもしれませんし、いかないかもしれません。
しかし、エンドユーザーに何を提供できるかを見極め、そこから逆算してそれを実現できるシステムを構築することにも価値があると思います。一例として：情報を整理するということは、世界中のあらゆる情報が、話す言語に関係なく誰でも使えるようになるべきだということです。
ある程度はそれを実現していますが、何千もの言語の中からどの言語を話す人でも、あらゆるコンテンツを利用できるようにするという完全なビジョンにはまだ至っていません。「どの言語のビデオもどの言語でも視聴できる」といったことです。
それは素晴らしいことだと思います。まだそこまでは到達していませんが、地平線上に見えている実現可能なことだと思います。
異なるアーキテクチャを試すという話題について。現在取り組んでいることの一つは長いコンテキストだと知っています。Google Searchを考えると、インターネット全体のインデックスをコンテキストとして持っていますが、非常に浅い検索です。
そして明らかに言語モデルは現在限られたコンテキストしか持っていませんが、本当に考えることができます。闇の魔法のような文脈内学習です。目の前のものについて本当に考えることができます。
Google Searchのようなものと文脈内学習のようなものを統合することについて、どのように考えていますか？
はい、最初に私の考えを述べさせてください。これについてしばらく考えてきました。これらのモデルは非常に優れていますが、時々幻覚を見たり事実に関する問題を抱えたりすることがあります。
その一部は、数十兆のトークンで学習し、それらを数百億のパラメータの中で全て混ぜ合わせているからです。しかし、全てのトークンを混ぜ合わせているので、少し曖昧になっています。モデルはそのデータについてかなり明確な理解を持っていますが、時々混乱して何かの日付を間違えたりします。
一方、モデルの入力のコンテキストウィンドウ内の情報は非常に鮮明で明確です。なぜならTransformerには素晴らしい注意機構があり、モデルは物事に注意を向けることができ、処理している正確なテキストや動画のフレーム、音声などを知っているからです。
現在、何百万トークンものコンテキストを扱えるモデルがあります。これはかなりの量です。数百ページのPDFや50の研究論文、数時間の動画、数十時間の音声、またはそれらの組み合わせを扱えます。これは素晴らしいことです。
しかし、モデルが数兆トークンに注意を向けられたら素晴らしいでしょう。インターネット全体に注意を向けて、あなたのために適切なものを見つけられるでしょうか？あなたの全ての個人情報に注意を向けられるでしょうか？
私のすべてのメール、文書、写真にアクセスできるモデルがあれば素晴らしいと思います。何かをお願いした時に、私の許可のもと、それらを活用して私が望むことを解決する手助けができます。
しかし、これは大きな計算上の課題になります。なぜなら、ナイーブな注意アルゴリズムは2次関数的です。かなりのハードウェアを使って何百万トークンで何とか動作させることはできますが、そのままでは数兆トークンに拡張する望みはありません。
そのため、本当に望むものに対する多くの興味深いアルゴリズム的な近似が必要です：モデルが概念的に数兆トークンというはるかに多くのトークンに注意を向ける方法です。
全てのGoogleのコードベースを全てのGoogle開発者のコンテキストに、世界中のソースコードを全てのオープンソース開発者のコンテキストに入れることができるかもしれません。それは素晴らしいことでしょう。
それは信じられないほど素晴らしいことですね。モデルパラメータの美しいところは、事実を記憶するのに非常にメモリ効率が良いことです。おそらくモデルパラメータ1つにつき1つの事実くらいを記憶できます。
一方、コンテキスト内のトークンには、各層に多くのキーと値があります。一つの単語に対して1キロバイトや1メガバイトのメモリが必要かもしれません。
単語を10キロバイトくらいに膨らませるということですね。
はい。実際、A)それをどのように最小限に抑えるか、B)どの単語が必要か、情報の一部にアクセスするより良い方法はあるのか、といった多くのイノベーションが進んでいます。
ジェフはこれを解決するのに最適な人物のように思えます。SRAMからデータセンターの世界規模のレベルまで、私たちのメモリ階層はどのようになっているのでしょうか。
先ほど言及したことについてもう少し話したいのですが、GoogleはコードやたくさんのExample集を持つ会社だということです。そのユースケースだけを考えても、それが意味することは…
つまり、Googleのモノレポがありますよね。長いコンテキストの問題を解決して、全てをコンテキストに入れるか、それに対して微調整を行うことができます。なぜこれはまだ行われていないのでしょうか？
Googleが独自にアクセスできるコードの量を考えると、内部的に開発者をより効率的で生産的にするためだけに使用するとしても…
明確にしておきますが、実際にGeminiモデルを内部のコードベースで追加学習させ、内部の開発者向けに使用していますよ。
しかし、それは全てのコードベースに注意を向けることとは異なります。なぜなら、コードベースを多くのパラメータの中に混ぜ合わせているからです。コンテキストに入れることで物事がより明確になると思います。
しかし、内部で追加学習したモデルも非常に有用です。スンダルも言っていたと思いますが、現在のコードベースにチェックインされている文字の25%は、人間の監督のもとでAIベースのコーディングモデルによって生成されています。
地平線上に見える能力に基づいて、今後1、2年で、あなた自身の仕事をどのように想像していますか？Googleの研究者としてはどうでしょうか？新しいアイデアを思いついた時に。1年後にこれらのモデルとどのように対話することになると思いますか？どのような感じになるでしょうか？
まあ、これらのモデルがはるかに良くなり、希望的にはもっと生産性が高くなると想定しています。
はい、研究的な文脈に加えて、これらのモデルが使用される場面では、ソフトウェア開発者をより生産的にできると思います。なぜなら、高レベルの仕様や一文での説明から、望むことの妥当な第一案を提供できるからです。
研究の観点からは、「この論文のアイデアに似たものを探求したいのですが、畳み込みにしてみましょうか」といった感じで言えば、システムが自動的に実験用のコードを生成し、それを見て「はい、良さそうです。実行してください」と言えるかもしれません。
それは今後1年か2年でかなりの進展が見込める良い方向性のように思えます。
過小評価されているように思えます。なぜなら、文字通り何百万人もの追加の従業員を持つことができ、彼らの出力を即座にチェックでき、従業員同士でチェックし合うことができ、トークンを即座にストリームできるからです。
申し訳ありません。過小評価するつもりはありませんでした。とても刺激的だと思います。ただ、まだ実現していないことを誇大に宣伝したくないだけです。
この考えをもう少し掘り下げたいと思います。なぜならそれは大きな意味を持つように思えるからです。自律的なソフトウェアエンジニアのようなものがあれば、特に「システムを構築したい」と考える研究者の視点からは。では、この考えで遊んでみましょう。
キャリアを通じて変革的なシステムの開発に携わってきた人として、今日のMapReduceやTensorflowに相当するものをコーディングする代わりに、「分散AIライブラリをこのように見せたい。それを書いてください」というようなことができるとしたら。
10倍生産的になれると想像しますか？100倍生産的になれますか？
感心しました。Redditで見たと思うのですが、コーディングと数学などがはるかに優れた新しい実験的なコーディングモデルがあります。外部の誰かがそれを試して、基本的に「外部依存なしでSQLプロセッシングデータベースシステムを実装してください。Cで書いてください」とプロンプトを与えました。
その人が言うには、実際にかなり良い仕事をしました。SQLパーサーとトークナイザー、クエリプランニングシステム、ディスク上のデータの保存フォーマットを生成し、実際にシンプルなクエリを処理できました。
そのプロンプト、つまり1段落のテキストから、最初の案でもそこまでできるというのは、ソフトウェア開発者の生産性を大きく向上させるように思えます。
他の種類のシステムもあるかもしれません。40秒で応答する単一の半対話的なものではなく、10分かけて処理し、5分後に「ここまでできましたが、入力が必要です。動画も扱うのか、画像だけでいいのか」といった感じで途中で質問してくるかもしれません。
多くのバックグラウンドアクティビティがある場合、ワークフローを管理する方法が必要になりそうです。
もう少しその点について話していただけますか？どのようなインターフェースが必要になると想像しますか？文字通り何百万人もの従業員を即座に呼び出すことができ、数十万人の従業員をコマンド一つで呼び出すことができ、非常に速くタイプでき、そして…
1930年代のチケット取引から現代のJane Streetのようなものに移行するようなものです。AIがこの大きなモノレポに統合され、自身の強みを活かし、人間が何が起きているかを把握できるようなインターフェースが必要です。基本的に、3年後の日常業務でジェフやノームはどのような感じになるのでしょうか？
現在と似たような感じかもしれません。なぜなら、すでに並列化が主要な課題の一つだからです。私たちには多くの本当に優秀な機械学習研究者がいて、彼らが協力してAIを構築することを望んでいます。
実際、人々の間の並列化は機械の間の並列化と似ているかもしれません。探索を必要とすることには確実に良いと思います。「次のブレークスルーを思いついてください」といったことです。機械学習の分野で、あなたが天才的なアイデアを持っていて、それが確実に機能すると思っても、実際に機能する確率は2%程度です。
ほとんどのことは失敗しますが、100のことや1000のこと、100万のことを試せば、何か素晴らしいものに巡り会えるかもしれません。私たちには十分なコンピューティングパワーがあります。現代の主要な研究機関は、Transformerの学習に必要だった計算量の100万倍くらいを持っているでしょう。
そうですね、それは本当に興味深い考えですね。今日の世界には、このコミュニティでブレークスルーを生み出しているAI研究者が、オーダーとして1万人くらいいるとしましょう。
先週のNeurIPSには15000人が参加していました。
すごい。10万人くらいかもしれませんね。申し訳ありません。
いえ、正しい桁数を知ることは大切です。
このコミュニティが毎年Transformerのようなスケールのブレークスルーを生み出す確率は、例えば10%としましょう。このコミュニティが1000倍大きくなり、より良いアーキテクチャ、より良いテクニックを並列に探索するとしたら…
毎日ブレークスルーが？
…毎年または毎日ブレークスルーが生まれる？
そうかもしれませんね。良さそうに聞こえます。
しかし、それは機械学習研究の実態を反映していますか？もしこれらの実験を全て試すことができれば…
良い質問ですね。人々がそれほどやっていないと思うからです。確かに素晴らしいアイデアは次々と出てきています。誰もが最大規模で実験を実行したがりますが、それは人間の問題だと思います。
1/1000のスケールの問題を持ち、そこで10万のアイデアを検証し、有望そうなものをスケールアップするのは非常に有効です。
世界が真剣に受け止めていないかもしれないことの1つは、100倍大きなモデルを作るのが指数関数的に難しいということです。100倍の計算量が必要ですよね。だから、Gemini 2から3へ、といった具合に進むのが指数関数的に難しい問題だと人々は心配しています。
しかし、Gemini 3が様々なアーキテクチャのアイデアを考え出し、それらを試し、何が機能するかを確認し、次のトレーニングをより容易にするアルゴリズムの進歩を常に生み出しているという別のトレンドに気付いていないかもしれません。このフィードバックループをどこまで進められるでしょうか？
人々が認識すべきことの1つは、これらのモデルの世代間での改善は、ハードウェアとより大きなスケールによって部分的に推進されていますが、同様に、おそらくそれ以上に、モデルに適用されるフロップあたりのモデルをより良くする主要なアルゴリズムの改善とモデルアーキテクチャ、トレーニングデータの組み合わせなどの大きな変更によって推進されているということです。これは良い認識だと思います。
そして、アイデアの自動探索があれば、より多くのアイデアを検証し、これらのモデルの次世代の実際のプロダクショントレーニングに取り入れることができるでしょう。それは非常に有用です。なぜなら、それは現在、多くの優秀な機械学習研究者が行っていることだからです：多くのアイデアを見て、小規模でうまく機能しそうなものを選び、中規模でうまく機能するかを確認し、より大規模な実験に取り入れ、最終的なモデルのレシピに多くの新しい興味深いものを追加することを決定しています。
機械学習研究者たちが自分で多くの実験を手動で監視するのではなく、より自動化された検索プロセスを穏やかに操作することで、それを100倍速く行えるなら、それは本当に、本当に良いことでしょう。
スピードアップしないものの1つは、最大規模での実験です。結局のところ、N = 1の実験を行うことになります。本当に、部屋に優秀な人々を集め、彼らにそれを見つめさせ、なぜこれが機能し、なぜこれが機能しないのかを理解させようとします。
そのためには、より多くのハードウェアが良い解決策です。そしてより良いハードウェアも。はい、私たちはあなたに期待しています。
素朴に考えると、将来のAIが改善できるソフトウェア、つまりアルゴリズム面での改善があります。また、あなたが取り組んでいることもあります。説明してもらえますか？しかし、ソフトウェアレベルで数週間や数ヶ月で、より良いチップを作れるような状況になり、より良いAIがそれをより良く行えるとすれば、このフィードバックループはどうなるのでしょうか。
Gemini 3が2年かかり、その後Gemini 4は、あるいは同等のレベルジャンプが今度は6ヶ月、そしてレベル5は3ヶ月、その後1ヶ月というように。ハードウェア面とアルゴリズム面の両方からのソフトウェアの改善により、素朴に考えるよりもはるかに急速に超人的知能に到達することになるのではないでしょうか。
最近、チップ設計プロセスを劇的に高速化できる可能性について非常に興奮しています。先ほど話したように、現在のチップ設計の方法では、「チップを作るべきだ」という段階からTSMCに引き渡すまでに約18ヶ月かかり、その後TSMCが4ヶ月かけて製造し、それを受け取ってデータセンターに設置します。
それはかなり長いサイクルですが、今日では製造時間はその中のごく一部です。しかし、もしそれを主要な部分にできれば、つまり150人で12〜18ヶ月かけて設計する代わりに、より自動化された検索プロセスで少数の人々がチップの設計空間全体を探索し、システムが高レベルで探索しようとしている選択に関するチップ設計プロセスのあらゆる側面からフィードバックを得ることができれば、実際に製造所に渡したいものの設計をより多く探索し、より急速に行うことができるかもしれません。
それは素晴らしいことでしょう。なぜなら、製造時間を短縮し、ハードウェアを適切な方法で設計することで展開時間を短縮できるからです。チップを受け取ってシステムに差し込むだけでよくなります。そうすれば、より多くの特殊化が可能になり、どのようなML（機械学習）アルゴリズムが興味深いかをそれほど先まで見通す必要がないため、ハードウェア設計の時間枠も短縮されます。今後6〜9ヶ月後にどうあるべきかを考えればよく、2年半先を見通す必要はありません。
それはかなりクールでしょう。製造時間があなたの改善の内部ループにある場合、あなたは…どのくらいかかるのでしょうか？
最先端のノードは、残念ながら以前の古いノードよりも多くの金属層があるため、より長い時間がかかっています。そのため、3〜5ヶ月かかる傾向にあります。
そうですね、でもそれはトレーニング実行にかかる時間と同じくらいですよね？だから、潜在的に両方を同時に行うことができます。そうですね。
つまり、3〜5ヶ月より早くすることはできないということですね。しかし、アイデアとしては、できる…でも、はい、新しいアルゴリズムのアイデアを急速に開発することもできます。
それは速く進むことができます。それは既存のチップで実行でき、多くのクールなアイデアを探索することができます。
つまり、それはあなたが…私は人々がある種のシグモイド関数があるだろうと期待しているような状況ではないでしょうか。繰り返しになりますが、これは確実なことではありません。
しかし、これは可能性でしょうか？人間の知能の終わりに向かって、より急速に賢く、より賢くなっていく能力の爆発的な増加があるという考えは？
その可能性は十分にあります。はい。私はこのように考えています。現在、私たちはかなり複雑な問題を内部的にモデル内で10個の部分に分解し、それらの部分の解決策を組み合わせ、多くの場合、あなたが尋ねている問題全体の解決策を提供できるモデルを持っています。
しかし、それはまだ super reliable ではなく、5〜10のステップに分解するのは得意ですが、100〜1,000のステップには向いていません。だから、もし10ステップの長さのものに対して80%の確率で完璧な答えを与えられるものから、100〜1,000のサブ問題の長さのものに対して90%の確率で完璧な答えを与えられるものに進化できれば、それはこれらのモデルの能力における素晴らしい改善となるでしょう。私たちはまだそこには到達していませんが、それは私たちが志向的に達成しようとしていることだと思います。
そのために新しいハードウェアは必要ありませんが、あれば歓迎します。新しいハードウェアを見くびってはいけません。
近い将来の大きな改善分野の1つは、推論時の計算、つまり推論時により多くの計算を適用することです。
私が説明したい方法は、巨大な言語モデルでさえ、1トークンあたり1兆の演算を行っていても（これは現在ほとんどの人が行っているよりも多いです）、演算のコストは約10の-18乗ドルです。つまり、1ドルあたり100万トークンを得ることができます。
比較的安価な暇つぶしと比較してみましょう：紙の本を買って読む場合、1ドルあたり1万トークンを支払っています。言語モデルと会話するのは、ペーパーバックを読むよりも100倍安いのです。
そこには大きな余地があり、もしこのものをより高価にしてもより賢くできれば、なぜならペーパーバックを読むよりも100倍安く、カスタマーサポート担当者と話すよりも1万倍安く、ソフトウェアエンジニアを雇ったり医師や弁護士と話したりするよりも100万倍以上安いのですから。
計算を追加してより賢くできないでしょうか？近い将来に私たちが目にする離陸の多くは、この形のものになると思います。私たちは事前トレーニングと事後トレーニングを多く活用し、改善してきましたが、それらは引き続き改善されるでしょう。しかし、推論時に「より深く考える」ことを活用することは、まさに爆発的な進展となるでしょう。
はい、推論時の側面の1つは、システムが積極的に異なる潜在的な解決策を探索することを望むと思います。おそらく、いくつかの検索を自分で行い、情報を取得し、その情報を消費して、「ああ、今はこのことについてもっと知りたい」と判断します。
そして、システムは高レベルの問題を最もよく解決する方法を反復的に探索します。そして、より多くの推論時の計算でモデルにより良い答えを出させることができるダイヤルを持つことは、私たちが現在持っているいくつかの技術で可能なようです。ダイヤルを上げれば上げるほど、計算の面でコストがかかりますが、答えはより良くなります。
それは良いトレードオフのように思えます。なぜなら、時には本当に重要な問題なので深く考えたいと思うからです。時には「1足す1は何か」を計算するために膨大な計算を使いたくないかもしれません。おそらくシステムは…
集合論の新しい公理を考え出すべきではありません！
計算機ツールを使用するか、非常に大きな言語モデルを使用するかを決定すべきです。
興味深いですね。では、推論時の計算を取り、推論時の計算を直線的にスケールアップする方法はありますか？あるいは、これは基本的に解決された問題で、100倍の計算、1000倍の計算を投入し、それに応じてより良い結果を得ることができるのでしょうか？
私たちは今まさにアルゴリズムを開発しているところです。
だから、Google内の1万人以上の研究者の多くがこれに取り組んでいる中で、より良い、より良い解決策が見られると信じています。私たち自身の実験的な作業でも、より多くの推論時の計算を適用すると、xの量の計算時間での推論よりも10倍の方が良い答えが得られる例が見られます。それは有用で重要なことのように思えます。
しかし、私たちが望むのは、10倍を適用したときに、今日得られているよりもさらに大きな答えの質の改善を得ることです。そしてそれは、新しいアルゴリズムを設計し、新しいアプローチを試し、xではなく10xを使って物事を改善する最良の方法を見つけ出すことについてです。
それはより多くの検索のように見えるのか、それともより長い時間、線形方向に進み続けるようなものなのでしょうか？
私はリッチ・サットンの「The Bitter Lesson」という論文が本当に好きです。「The Bitter Lesson」は素晴らしい1ページの論文ですが、その本質は、多くのアプローチを試すことができますが、非常に効果的な2つの技術は学習と検索だということです。
アルゴリズム的にまたは計算的にそれらをスケールアップすることができ、多くの場合、適用できる他のどのようなアプローチよりも良い結果が得られるでしょう。
検索は、より多くの推論時間を費やす解決策の一部でなければなりません。おそらく、この問題を解決するいくつかの異なる方法を探索し、その1つはうまくいかなかったが、こちらの方がうまくいったとなれば、それをもう少し探索することになります。
これは、将来のデータセンター計画などにどのような影響を与えるのでしょうか？この種の検索はどこで非同期に行うことができるのでしょうか？オンラインでなければならないのか、オフラインでもよいのか？これはキャンパスの規模などの考慮事項にどのように影響するのでしょうか？
一般的なトレンドとして、推論時の計算、つまりすでにトレーニングされたモデルを持っていて推論を行いたい場合、それは成長し重要な計算クラスになることは明らかです。おそらく、ハードウェアをそれにより特化させたいと思うでしょう。
実際、最初のTPUは推論に特化して設計され、トレーニング用には設計されていませんでした。
その後のTPUは、トレーニングとともに推論のためにより多く設計されました。しかし、推論時に使用する計算量を本当に増やしたい場合、さらに特化したソリューションが多くの意味を持つかもしれません。
それは、より多くの非同期トレーニングに対応できることを意味するのでしょうか？
トレーニングですか？それとも推論ですか？
あるいは、異なるデータセンターが互いに通信する必要がなく、ただ多くの…
私はこう考えたいと思います。行おうとしている推論はレイテンシーに敏感なのでしょうか？ユーザーが積極的に待っているのか、それともバックグラウンドの作業なのか？おそらく、特定のユーザーのためではなく、データの全バッチに対して推論を実行して情報を抽出したい推論タスクがあるでしょう。
現在はあまり持っていないが、約1週間前にリリースした私たちのDeep Research toolで見られるような兆しがあると思います。「再生可能エネルギーの歴史と風力、太陽光、その他の技術のコスト傾向をすべて調査し、表にまとめて8ページの完全なレポートを作成してください」というような、かなり複雑な高レベルのタスクを与えることができます。すると、参考文献に50のエントリーを含む8ページのレポートが返ってきます。
それはかなり驚くべきことです。しかし、1秒間そのために積極的に待つ必要はありません。それは1〜2分かかります。そして、私はそのような種類の計算がかなりあると思います。そしてそれは、UIの質問が出てくる種類のものです。例えば、バックグラウンドでこのような非同期タスクを20個持っているユーザーがいて、それぞれがユーザーからより多くの情報を必要とする場合、「ベルリンへの直行便は見つかりませんでした。乗り継ぎ便でもよろしいですか？」というように。
そのフローはどのように機能するのでしょうか？もう少し情報が必要で、その後、ベルリンのホテルを探すなど、続けるためにバックグラウンドに戻したい場合は？私はそれがかなり興味深くなると思います。そして推論は有用でしょう。
推論は有用でしょう。
また、トレーニングにはない推論の計算効率もあります。一般的に、トランスフォーマーはトレーニング中にシーケンス長をバッチとして使用できますが、推論時には実際にはできません。なぜなら、一度に1つのトークンを生成するときは、推論時に効率的であることを目的として設計された異なるハードウェアと推論アルゴリズムがあるかもしれません。
はい、アルゴリズムの改善の良い例はドラフターモデルの使用です。デコード時に一度に1つのトークンを処理する非常に小さな言語モデルがあり、それが4つのトークンを予測します。それを大きなモデルに与えて、「小さなモデルが考え出した4つのトークンがあります。どれに同意するか確認してください」と言います。
最初の3つに同意すれば、そのまま進みます。そうすれば、基本的に大きなモデルで1トークン幅の計算の代わりに4トークン幅の並列計算を行うことができます。これらは、単一トークンのデコードのボトルネックを持たないように推論効率を改善するために人々が検討している種類のことです。
そうですね、基本的に大きなモデルは検証者として使用されているわけですね。
そうです、「確認できますか」、はい。[聞き取れない] 生成と検証ができます。そうですね。「こんにちは、お元気ですか？」それは私には良さそうです。それは先に進めましょう。
さて、大きな議論の1つは、私たちはすでに1つのキャンパスに電力を供給する面で原子力発電所の限界に達しているということです。
1か所に2ギガワット、1か所に5ギガワットを持たなければならないのか、それともより分散化して、それでもモデルをトレーニングできるのでしょうか？この新しい推論スケーリングの体制は、そこで異なる考慮事項を可能にするのでしょうか？現在、マルチデータセンターのトレーニングについてどのように考えていますか？
私たちはすでにそれを行っています。私たちはマルチデータセンターのトレーニングを支持しています。Gemini 1.5の技術レポートでは、複数のメトロエリアを使用し、各場所で計算の一部を使ってトレーニングを行ったと述べました。そして、それらのデータセンター間にかなり長いレイテンシーだが高帯域幅の接続があり、それはうまく機能しています。
トレーニングは興味深いです。なぜなら、大きなモデルのトレーニングプロセスの各ステップは通常、少なくとも数秒かかるからです。
だから、50ミリ秒離れていてもそれほど問題ではありません。
ただ帯域幅だけですね。はい、ただ帯域幅です。
モデルのすべてのパラメータを異なるデータセンター間で同期し、すべての勾配を蓄積できる限り、1ステップを行うのにかかる時間内であれば、十分うまくいきます。
そして、CPUマシンを使用していて本当に遅かった初期のBrainの時代から、スケーリングを助けるために非同期トレーニングを行う必要があった多くの作業があります。モデルの各コピーがローカルで計算を行い、勾配の更新を中央システムに送信し、それを非同期に適用します。モデルの別のコピーも同じことを行っています。
それはモデルのパラメータを少し揺らがせ、理論的な保証について人々を不安にさせますが、実際にはうまく機能するようです。
非同期から同期に移行したのは本当に楽しかったです。なぜなら、実験が再現可能になり、同じマシンでウェブクローラーが実行されているかどうかによって結果が左右されなくなったからです。だから、TPUポッドで実行するのが本当に嬉しいです。
私は非同期が大好きです。それは本当にスケーリングを可能にします。
これら2つのiPhoneとXboxなどで。はい、非同期だけれども再現可能な結果を提供できたらどうでしょうか？おお。
そうするための1つの方法は、どの勾配の更新がいつどのデータのバッチに対して行われたかという操作のシーケンスを効果的に記録することです。必ずしも実際の勾配の更新をログなどに記録する必要はありませんが、その操作のログを再生することで再現性を得ることができます。そうすれば、あなたは満足するでしょう。
おそらく。少なくともなにが起こったかデバッグできますが、必ずしも2つのトレーニング実行を比較できるわけではありません。なぜなら、ハイパーパラメータを1つ変更しましたが、また-
ウェブクローラーがありました。
-ウェブクローラーが邪魔をし、同時に多くの人々がスーパーボウルをストリーミングしていました。
CPUでの非同期トレーニングから完全な同期トレーニングに移行することにつながったのは、これらの超高速なTPUハードウェアチップとポッドを持っているという事実です。ポッド内のチップ間に信じられないほどの帯域幅があります。
その後、それを超えてスケーリングすると、本当に良いデータセンターネットワークと、さらにはメトロエリア間のネットワークがあり、これにより最大のトレーニング実行のために多くのポッドを複数のメトロエリアにスケーリングすることができます。
私たちはそれを完全に同期的に行うことができます。ノームが言ったように、メトロエリア間でのパラメータの勾配の蓄積とコミュニケーションがステップ時間に対して十分速く行われる限り、黄金のルールです。本当に気にする必要はありません。
しかし、スケールアップするにつれて、現在よりもシステムにもう少し非同期性を取り入れる必要があるかもしれません。なぜなら、それを機能させることができ、私たちのML研究者たちは同期トレーニングをどこまで押し進めることができたかについて本当に満足しているからです。それは理解しやすい精神モデルだからです。
あなたはただアルゴリズムと戦っているだけで、非同期性とアルゴリズムが戦っているわけではありません。
スケールアップすると、より多くのものがあなたと戦います。それがスケーリングの問題です。何があなたと戦っているのかが常にわかるわけではありません。ある場所で量子化を少し押し過ぎたためなのか？それともデータが原因なのか？
おそらく、すべての勾配の指数の7番目のビットを設定している敵対的なマシンMUQQ17が原因かもしれません。そうですね。そして、これらすべてのことはモデルを少し悪くするだけなので、何が起こっているのかさえわかりません。
それは実際にニューラルネットの問題の1つです。それらはノイズに対してとても寛容です。多くの方法で設定が少し間違っていても、それらは回避する方法を見つけるか、学習します。
コードにバグがあるかもしれません。ほとんどの場合、それは何も影響を与えません。時にはモデルを悪くし、時にはモデルを良くします。そして、以前にそのバグをスケールで試したことがなかったため、予算がなかったために、何か新しいことを発見することになります。
実際にデバッグや解読はどのように行うのでしょうか？これらのものがあり、その一部はモデルを良くし、一部は悪くしています。明日仕事に行くとき、最も重要な入力が何かをどのように見つけ出すのでしょうか？
小規模では、多くの実験を行います。研究の一部には、分離された状態で、これらの改善やブレークスルーを発明したいというものがあります。その場合、フォークしてハックできる素敵なシンプルなコードベースと、いくつかのベースラインが必要です。
私の夢は、朝起きてアイデアを思いつき、1日でそれをハックし、実験を実行し、1日で初期結果を得ることです。これらが機能し、これらが機能しなかったというように。
小規模であれば、素敵な実験的なコードベースを維持する限り、それは非常に達成可能だと思います。たぶん実験は1時間か2時間かかり、2週間ではありません。それは素晴らしいことです。
そして研究のその部分があり、その後ある程度のスケールアップがあります。そして、すべての改善を互いの上に積み重ね、大規模で機能するかどうか、そしてすべてが一緒に機能するかどうかを確認する統合の部分があります。
そうですね、それらはどのように相互作用するのでしょうか？
そうですね、おそらくそれらは独立していると思うかもしれませんが、実際にはビデオデータ入力の処理方法とモデルパラメータの更新方法の間に面白い相互作用があるかもしれません。それは他のものよりもビデオデータに対してより多く相互作用するかもしれません。
予期できないような相互作用が起こり得ます。だから、多くのものを一緒に組み合わせて実験を実行し、定期的にすべての良いと思われるものが一緒に良いことを確認したいと思います。そうでない場合は、なぜうまく機能しないのかを理解する必要があります。
2つの質問があります。1つ目は、物事が一緒にうまく機能しないことがどのくらいの頻度で起こるのでしょうか？それはまれなことですか、それともいつも起こることですか？
50%の確率で起こります。
はい、つまり、ほとんどのものは一緒に積み重ねようとさえしません。なぜなら、初期の実験がそれほどうまくいかなかったか、ベースラインと比較してあまり有望な結果を示さなかったからです。そして、それらのものを個別にスケールアップしようとします。
その後、「ああ、はい、これらは本当に有望に見えます」と言います。だから今、それらを何か一緒にバンドルし、他の有望に見えるものと組み合わせて前進させようとします。そして実験を実行し、「ああ、それほどうまく機能しませんでした。なぜかをデバッグしてみましょう」となります。
そしてトレードオフがあります。なぜなら、統合されたシステムをできるだけクリーンに保ちたいからです。
コードベース的にですね。
はい、コードベースとアルゴリズム的に。複雑さは害を及ぼし、物事を遅くし、より多くのリスクを導入します。同時に、できるだけ良いものにしたいと思います。
もちろん、個々の研究者は自分の発明をそこに入れたがります。そこには確かに課題がありますが、私たちはかなりうまく協力して働いています。
では、「より良い、より良いアルゴリズムの改善を見つけ、時間とともにモデルがより良く、より良くなっていく」という全体的なダイナミクスに戻りましょう。ハードウェアの部分を除外したとしてもです。
世界は、そしてあなたたちはこのことについてもっと考えるべきでしょうか？
AIは時間とともにゆっくりと改善していく、2つの世界があります。長い時間をかけて物事を改良し、何かを間違えた場合は修正できる、そしてそれはそれほど大きな問題ではありません。以前にリリースしたバージョンよりもそれほど良くないということですね？
もう1つの世界は、このフィードバックループがあり、それはGemini 4とGemini 5の間の2年間が人類史上最も重要な年となることを意味します。なぜなら、このフィードバックループのために、かなり優秀なML研究者から超人的知能へと進化するからです。
2番目の世界が可能だと考える範囲で、これはより大きな、より大きな知能レベルへのアプローチをどのように変えるのでしょうか？
私はロボットを待っているので、ガレージの掃除をやめました。おそらく私は2番目のキャンプに属していて、多くの加速が見られると思います。
はい、つまり、何が起こっているのか、そしてトレンドが何であるかを理解することは非常に重要だと思います。そして現在のトレンドは、モデルが世代から世代へと大幅に改善されているということです。私は次の数世代でそれが減速するとは思いません。
つまり、2〜3世代後のモデルは…単純なタスクを10個の部分に分解し、80%の確率でそれを行うという例に戻りましょう。それが、非常に高レベルのタスクを100または1,000の部分に分解し、90%の確率でそれを正しく行えるようになるということです。
それはモデルが可能とすることにおける大きな、大きなステップアップです。だから、この分野での進歩で何が起こっているのかを人々が理解することは重要だと思います。そして、これらのモデルは様々な分野に適用されることになります。
私たちが社会として、これらのモデルが物事を改善するために何ができるかから最大限の利益を得られるようにすることは本当に良いことだと思います。教育や医療、すべての人々に情報をアクセス可能にすることについて、私は非常に興奮しています。
しかし、それらが誤情報に使用される可能性があり、コンピュータシステムの自動ハッキングに使用される可能性があることも認識しており、できる限り多くの安全装置と緩和策を設け、モデルの能力を理解する必要があります。
私はGoogleが全体として、これにどのようにアプローチすべきかについて本当に良い見方を持っていると思います。私たちの責任あるAIの原則は、実際に、異なる文脈や設定でより良い、より良いAIシステムを利用可能にすることのトレードオフを考える方法について、かなり良い枠組みを提供しています。同時に、それらが安全で有害なことを言わないようにすることなど、正しいことを確実に行うようにしています。
私が気になるのは、もし人類の歴史のこの時期を俯瞰して見た場合、私たちが次のような世界にいるとすれば…Gemini 3の事後トレーニングが悪ければ、誤情報を生成する可能性がありますが、事後トレーニングを修正すれば良いわけです。それは悪い間違いですが、修正可能な間違いですよね？
そうですね。
一方で、このフィードバックループのダイナミクスがある場合、それは可能性の1つですが、この知能爆発を引き起こすものの間違いが、あなたが書こうとしていると思うコードを書こうとせず、[代わりに]他の目的のために最適化しているということです。
そして、おそらく2年、あるいはそれ以下の期間で行われるこの非常に急速なプロセスの終わりには、ジェフ・ディーンレベルまたはそれ以上、あるいはノーム・シェイザーレベルまたはそれ以上に近づくものがあります。そして、ジェフ・ディーンレベルのプログラマーの何百万ものコピーがあり – とにかく、それは回復がより困難な間違いのように思えます。
これらのシステムがより強力になるにつれて、より一層注意深くなければなりません。
私が言いたいことの1つは、両極端な見方があるということです。「ああ、神様、これらのシステムはすべての面で人間よりもはるかに優れるようになり、私たちは圧倒されることになる」という見方があります。そして、「これらのシステムは素晴らしくなり、それについて全く心配する必要はない」という見方があります。
私はその中間のどこかにいると思います。私は「AIの形成」という論文の共著者です。それらの2つの極端な見方は、しばしば私たちの役割を一種の自由放任主義的なもの、つまりAIが進む道をただ進ませるだけだと見なしています。
そして、私は実際に、AIが世界で展開される方法を形作り、導くように努める、というかなり良い議論ができると思います。それによって、教育、私が言及したいくつかの分野、医療など、私たちが捕捉し、利益を得たい分野で最大限の利益を得られるようにします。
そして、可能な限り – おそらく政策関連の事項や、技術的な対策と安全装置で – コンピュータが支配権を握り、できることに無制限のコントロールを持つという方向から離れるように導きます。だから、私はそれはエンジニアリングの問題だと思います：どのように安全なシステムをエンジニアリングするか？
私はそれが古いスタイルのソフトウェア開発で私たちが行ってきたことの現代版だと思います。
例えば、航空機のソフトウェア開発を見てみると、かなりリスクの高いタスクを行うための安全で確実なシステムをどのように厳密に開発するかについて、かなり良い記録があります。
そこでの困難は、737を箱の中に計算能力とともに2年間入れておくと、バージョン1000が出てくるというようなフィードバックループがないということです。
良いニュースは、テキストを生成するよりもテキストを分析する方が簡単そうだということです。
だから、言語モデルの出力を実際に分析し、何が問題または危険であるかを理解する言語モデルの能力が、実際にこれらの制御の問題の多くの解決策になると信じています。
私たちは確実にこれらのことに取り組んでいます。現在、Googleには多くの優秀な人々がこれに取り組んでいます。
そして、「人々のために良いことをする」という観点からだけでなく、ビジネスの観点からも、これはますます重要になると思います。多くの場合、展開できることは物事を安全に保つことによって制限されます。
だから、それが本当に、本当に良いことになることは非常に、非常に重要になります。
そうですね、明らかに、あなたたちは潜在的な利益とコストを真剣に受け止めていて、それは本当に驚くべきことです。私はあなたたちがそれに対して評価を受けていることを知っていますが、十分ではありません。
あなたたちが話したような異なる分野でこれらのモデルを使用するために出してきたアプリケーションが本当にたくさんあると思います。しかし、私は考えます…繰り返しになりますが、もしあなたに…おそらくあるフィードバックループのプロセスがある状況があり、その終わりに、ノーム・シェイザーと同じくらい優秀な、ジェフ・ディーンと同じくらい優秀なモデルがあるとすれば。
もし邪悪なバージョンのあなたが暴れ回っていて、そして仮に100万のそれらがあるとすれば、私はそれは本当に、本当に悪いことだと思います。それは他のどんなリスクよりもはるかに悪いかもしれません。おそらく核戦争のようなものを除いては。ただ考えてみてください、100万の邪悪なジェフ・ディーンがいるようなものです。
トレーニングデータはどこから取得するのでしょうか？
しかし、それが何らかの急速なフィードバックループのプロセスの可能な出力だと考える範囲で、私たちはGemini 3やGemini 4を持っていて、それが将来のバージョンのトレーニングをより良く行うのを助けていると思い、それが私たちのために多くのトレーニングコードを書いていると考えています。この時点から、私たちはただそれを見て、検証するだけです。
これらのモデルの出力を見るための検証者についてお話しいただきましたが、最終的には、あるいは多くのコードは、あなたたちが作るAIによって書かれることになります。Gemini 4に私たちのAI研究を手伝ってもらう前に、何を確実に知っておきたいですか？本当にこのテストを実行したいのです。
つまり、私はシステムにアルゴリズム研究のアイデアを探索させることは、まだ人間が責任を持っているように思えることだと思います。
それは空間を探索し、そして多くの結果を得ることになり、私たちは決定を下すことになります。この特定の学習アルゴリズムやシステムへの変更をコアのコードベースに組み込むべきかどうかということです。
だから、私はそのような安全装置を設けることができると思います。それによって、人間の監視の下で自己改善できるシステムの利点を得ることができます。必ずしもシステムが何をしているのかを人が見ることなく完全な自己改善を行わせる必要はありません。
それが私が話しているような工学的な安全装置です。展開しているシステムの特性を見て、何らかの基準や方法で有害なものは展開せず、特定のシナリオで何をする可能性が高いのかを理解しているということです。
決して簡単な問題ではありませんが、これらのシステムを安全にすることは可能だと思います。
はい。つまり、私たちはまた、これらのシステムを使って自分自身をチェックし、他のシステムをチェックすることになると思います。人間としても、何かを生成するよりも認識する方が簡単です。
私が言いたいことの1つは、もしモデルの能力をAPIまたは人々が相互作用するユーザーインターフェースを通じて公開する場合、それがどのように使用されているかを理解し、何ができるかについて一定の境界を設けるレベルのコントロールを持つことができると思います。そして、それはあなたの心の中で設定した基準によって受け入れられることを確実にする方法の1つのツールだと思います。
はい。つまり、目標は人々に力を与えることですが、ほとんどの場合、私たちはこれらのシステムで人々に意味のあることをさせ、空間のできるだけ少ない部分を閉じるべきです。
しかし、はい、もし誰かにあなたのものを取らせて100万の邪悪なソフトウェアエンジニアを作らせるなら、それは人々に力を与えることにはなりません。なぜなら、彼らは100万の邪悪なソフトウェアエンジニアで他人を傷つけることになるからです。
だから、私はそれに反対です。私も反対です。続けましょう。
さて、もう少し楽しいトピックについて話しましょう。少し明るくしましょう。
過去25年間で、最も楽しかった時期はいつでしたか？最も懐かしく思う期間はどの時期ですか？
私は、Googleでの最初の4、5年間が、検索やクローリング、インデックスシステムに取り組んでいた数人の1人だった時期が思い浮かびます。私たちのトラフィックは驚くほど急速に成長していました。
インデックスのサイズを拡大し、何か問題が起きた場合に2ヶ月ではなく、毎月、さらには毎分更新できるようにしようとしていました。
私たちのシステムの使用が増加するのを見るのは、個人的に本当に満足のいくものでした。1日に20億人が使用するものを構築することは本当に信じられないことです。
しかし、同様に興奮するのは、今日のGeminiチームの人々と働くことです。
私は、過去1年半の間にこれらのモデルができることについて、私たちが成し遂げている進歩は本当に楽しいと思います。人々は本当に献身的で、私たちがやっていることに本当に興奮しています。
私はモデルがかなり複雑なタスクでますます良くなっていると思います。20年前にコンピュータを使用している人にこれらのモデルが何ができるかを見せたら、彼らは信じないでしょう。そして5年前でさえ、信じないかもしれません。それは本当に満足のいくことです。
私は、これらのモデルの使用と世界への影響について、同様の成長が見られると思います。
はい、私もあなたに同意します。初期の頃は本当に楽しかったです。その一部は、単に全員を知っていて、社会的な側面があり、何百万、何百万人もの人々が使用しているものを構築しているという事実です。今日も同じことです。
私たちは、多くの人々が集まるマイクロキッチンエリアを手に入れました。私は対面で、素晴らしい人々と働き、何百万から何十億もの人々を助けるものを構築することが大好きです。これ以上何が良いことがありますか？
このマイクロキッチンとは何ですか？
ああ、私たち両方が座っているビルにマイクロキッチンエリアがあります。
それは新しい、いわゆるGradient Canopyです。以前はCharleston Eastと呼ばれていましたが、そこで多くの機械学習研究者とAI研究が行われているため、より刺激的な名前が必要だと決めました。
通常はエスプレッソマシンと多くのスナックがあるだけですが、この特定のマイクロキッチンエリアにはたくさんのスペースがあります。そこに約50個のデスクを設置したので、人々はそこでただ集まっています。
人々が常にコーヒー豆を挽いてエスプレッソを淹れているため、少しうるさいですが、多くの対面でのアイデアのつながりも得られます。「ああ、私はそれを試しました。あなたのアイデアでこれを試してみましたか？」や、「ああ、来週これを立ち上げる予定です。負荷テストはどうなっていますか？」といった感じです。
多くのフィードバックが起こります。そして、そのマイクロキッチンにいない人々のためにGeminiチャットルームがあります。
私たちは世界中にチームがいて、おそらくGemini関連の120のチャットルームに参加しています。この特定の非常に焦点を絞ったトピックでは、7人が取り組んでおり、ロンドンの同僚から興奮する結果が共有されています。
朝起きると、そこで何が起こっているのかがわかります。あるいは、データに焦点を当てた大きなグループがあり、そこではあらゆる種類の問題が起きています。それは本当に楽しいです。
あなたたちが下した判断の中で私が驚くべきだと思うのは、当時は明白でも明確でもなかった計算需要のレベルを予測していたことです。TPUがその有名な例で、最初のTPUがその例です。
2013年またはそれ以前にそのように考えていたことを、今日同じように考え、見積もりを行うと、これらのモデルが私たちのサービスのバックボーンとなり、それらのための常時推論を行うことになると…私たちはこれらすべてのユースケースに対応するために2030年までにどれだけの計算量が必要になるでしょうか？フェルミ推定はどこに行き着くでしょうか？
はい、つまり、多くの推論が必要になると思います。これらの能力のあるモデルについての大まかな、最も高レベルの見方は計算量です。なぜなら、品質を改善する技術の1つが推論計算量をスケールアップすることであれば、現在のように1つのリクエストでいくつかのトークンを生成することが、突然50倍や100倍、1000倍の計算集約的になります。同じ量の出力を生成しているにもかかわらずです。
そして、これらのサービスの使用の大規模なスケーリングも見ることになります。世界のコンピュータユーザーの全員が、チャットベースの会話インターフェースで素晴らしいことができることをまだ発見していないからです。おそらく世界のコンピュータユーザーの10%か20%が今日それを発見しています。
それが100%に向かって進み、人々がより多く使用するようになると、それは別の1桁か2桁のスケーリングとなります。そして今、そこから2桁、そこからさらに2桁を得ることになります。モデルはおそらくより大きくなり、そこからさらに1桁か2桁を得ることになります。
そして、多くの推論計算が必要です。だから、気にするモデルの推論のための非常に効率的なハードウェアが必要です。
2030年の推論に関する効率的なハードウェアについて、モデルの観点からフロップス(演算量)の全体的な合計はどうなると思いますか?
より多くの処理能力があれば、常により良い結果が得られると思います。世界のGDPのうちどの程度をAIに費やすことになるのか、そしてAIシステムがどのような形になるのかを考えてみましょう。
おそらく、眼鏡に組み込まれた個人アシスタントのようなもので、周囲の状況を把握し、あなたのデジタル情報や世界のデジタル情報にアクセスできるものになるでしょう。あるいは、ジョー・バイデン大統領のように、リアルタイムで助言をくれ、問題を解決し、有用な示唆を与えてくれるイヤピースを持っているようなものかもしれません。周囲の状況を分析し、あなたにとって有用な影響を及ぼす可能性のあるものを見つけ出すことができます。
つまり、個人アシスタントや個人の内閣のようなものを想像できます。計算能力に2倍のお金をかけるたびに、システムのIQが5-10ポイント上がるようなものです。1日10ドルを払って普通のアシスタントを持つか、20ドルを払ってより賢いアシスタントを持つか、選択することになるでしょう。それは生活面でのアシスタントだけでなく、仕事の生産性を向上させるアシスタントでもあります。10倍の生産性を持つエンジニアを100倍や1000万倍の生産性を持つエンジニアに変えることができるのです。
根本的な原理から考えてみましょう。人々はGDPの一定割合をこのようなシステムに費やすことになるでしょう。世界のGDPは、人工的なエンジニアが改善に取り組むことで、現在の100倍以上に増加する可能性が非常に高いと考えられます。
おそらくその時点では、無限のエネルギーと炭素問題は解決されているでしょう。そうなれば、大量のエネルギーを利用できるようになります。何百万、何十億というロボットがデータセンターを建設することも可能になるでしょう。太陽のエネルギーは10の26乗ワット程度ですよね。各個人を支援するためのAIの計算量は天文学的な規模になると予想します。
それに付け加えると、完全には同意できない部分もありますが、そのような方向性に向かうのは非常に興味深い思考実験です。たとえ途中までしか到達できなくても、かなりの計算量が必要になることは間違いありません。
だからこそ、ノームが説明したような問題に対してモデルを適用する際、できるだけ安価なハードウェアプラットフォームを持つことが非常に重要です。そうすることで、これらの機能をすべての人がアクセスできるようにし、可能な限り低コストで提供することができます。
ハードウェアとモデルの協調設計に焦点を当てることで、現在よりもはるかに効率的なものを作ることができると考えています。
今後数年間のGoogleのデータセンター構築計画は、予想される需要の増加に対して十分な規模を持っているのでしょうか?
CEOやCFOが好まないと思うので、将来の設備投資については言及を控えさせていただきます。ただし、過去数年間の設備投資を見ていただければ、この分野に投資していることがわかります。なぜなら、重要だと考えているからです。
私たちは、これらのシステムをより多くの人々に展開する上で優位性を持つと考えられる、新しく革新的なハードウェアの開発を続けています。それは、モデルのトレーニングと、人々が推論に使用できるようにすることの両方に関係します。
あなたがよく話題にする継続学習について伺いたいのですが、モデルを一から作り直すのではなく、時間とともに改善していけるというアイデアです。理論的には、モデルを微調整し続けることができるはずですが、何か根本的な障害はありますか? 将来的にはどのような形になると思いますか?
はい、この点については最近よく考えています。私はスパースなモデルが好きです。なぜなら、モデルの異なる部分が異なることを得意とするようにしたいからです。
私たちのGemini 1.5 Proモデルや他のモデルは、エキスパートの混合型モデルです。これは、あるトークンに対してモデルの一部が活性化され、他の部分は全く活性化されないというものです。これは数学的な問題だと判断され、この部分は数学が得意で、この部分は猫の画像の理解が得意だといった具合です。
これにより、推論時に非常に効率的でありながら、はるかに高い能力を持つモデルを実現できます。なぜなら、非常に大きな容量を持ちながら、その一部だけを活性化させることができるからです。
しかし、現在の制限の1つは、各エキスパートが同じサイズで、パスが非常に早く合流してしまうという、非常に規則的な構造を持っているということです。数学的な処理のための多くの異なる枝が、猫の画像処理のような処理と合流しないまま続くということがありません。
これらのモデルでは、より有機的な構造を持つべきだと考えています。また、モデルの各部分をある程度独立して開発できるようになればと思います。
現在、モデルをトレーニングする際には、考えられる最高のアルゴリズムと最適なデータの組み合わせを決定するための準備作業を大量に行います。しかし、そこには常にトレードオフが存在します。多言語データをより多く含めたいと思っても、それによってコーディングデータが減少し、モデルのコーディング能力が低下する代わりに多言語処理が向上するといった具合です。
特定の言語のサブセットに関心を持つ少数のグループが、本当に良いトレーニングデータを作成し、より大きなモデルに接続できるモジュラーな部分をトレーニングできれば素晴らしいと思います。例えば、東南アジアの言語やHaskellコードの推論能力を向上させるといったことができます。
また、問題を分解できるというソフトウェアエンジニアリング上の利点もあります。現在は多くの人々が協力して作業を行いますが、このモデルの事前トレーニングを開始するという単一のプロセスがあります。
もしこれが可能になれば、Google内の100のチームや世界中の人々が、自分たちが関心を持つ言語や特定の問題の改善に取り組み、集団でモデルの改善に貢献することができます。これは継続学習の一形態といえます。
それは素晴らしいですね。モデルを組み合わせたり、モデルの一部を取り出して他のモデルに組み込んだり…
アップグレードする際に全体を捨てることなく…
または、消防ホースのようなものを取り付けて、このモデルからすべての情報を吸い出し、別のモデルに注入することもできます。
science(科学)という観点からは、相反する利害関係があります。私たちはまだ急速な進歩の時期にあるので、制御された実験を行いたい場合、つまりこれとあれを比較したいという場合には、それが将来何を構築すべきかを理解する助けとなります。
その観点からは、一つの完全なトレーニング実行を別の完全なトレーニング実行と比較できるように、実用的なレベルでゼロから始めるのが最善です。それはあまり刺激的ではありませんが、急速な進歩につながります。
はい、モジュール性のバージョン管理システムを使えば、その多くの利点を得られる方法があるかもしれません。
モデルの凍結バージョンを持ち、特定のモジュールの異なるバリアントを含めて、そのパフォーマンスを比較したり、さらにトレーニングしたりします。そして、Haskellインタープリターを行う特定のモジュールのバージョンNプライムを持つこのものと比較します。
実際、これはより速い研究の進歩につながる可能性があります。システムがあって、それを改善するために何かを行う場合、その改善のためにやることがシステムをゼロから訓練するのに比べて比較的安価であれば、研究をはるかに安価で速くすることができます。
はい、また人々の間でより並列化できると思います。
よし、それを理解して次にやろう。
ここで何気なく提案されたこのアイデアは、実際には現在の方法と比べて大きな体制の変化となるでしょう。この方向に向かっていると考えるなら、これは非常に興味深い予測です…
パイプラインを行ったり来たりするこのブロブ(塊)があって、何かを改善したい場合は、外科的な切開のようなことができます。
そうですね。または、モデルを成長させ、ここに新しい部分を追加するのです。
はい、私はPathwaysでしばらくこのビジョンを描いてきました…
はい、インフラを構築してきましたね…
そして、私たちはそのためのインフラを構築してきました。Pathwaysシステムがサポートできることの多くは、非同期で更新される異なる部分を持つこのような曲がりくねったモデルです。
私たちはGeminiモデルのトレーニングにPathwaysを使用していますが、まだその機能の一部しか使用していません。しかし、おそらく使用すべきでしょう。
おお、そうかもしれません。TPUポッドの設定方法など、誰がやったのかわかりませんが、素晴らしい仕事をしました。低レベルのソフトウェアスタックとハードウェアスタックは、素晴らしい規則的な高性能ハードウェアがあり、これらのトーラス形の相互接続があり、そして適切な低レベルの集合演算、all-reduceなどがあります。これはスーパーコンピューティングから来たものだと思いますが、分散深層学習を構築するのに丁度良いものでした。
では、いくつかの質問があります。一つ目は、ノームが新たなブレークスルーを達成し、より良いアーキテクチャができた場合、各コンパートメントをこのより良いアーキテクチャに蒸留させるのでしょうか? そうすれば時間とともに改善を続けることができますか?
蒸留は非常に有用なツールだと思います。なぜなら、現在のモデルアーキテクチャ形式から異なる形式に変換することができるからです。多くの場合、非常に高性能だが大きく扱いにくいモデルを、本当に良い高速なレイテンシー推論特性を持つより小さなモデルに蒸留するために使用します。
しかし、これはモジュールレベルで起こっていることとしても見ることができると思います。
おそらく、各モジュールが自身の異なる表現を持つ継続的なプロセスがあるでしょう。非常に大きなものがあり、はるかに小さなものがあり、小さなバージョンに継続的に蒸留しています。
そして小さなバージョンが完成したら、大きなものを削除して多くのパラメータ容量を追加します。これで、蒸留された小さなものが知らないすべてのことを、より多くのデータでトレーニングすることによって学習し始めます。そしてそのプロセスを繰り返します。
モジュラーモデルのバックグラウンドで1000の異なる場所でそのような処理が実行されていれば、かなりうまく機能すると思います。
これは推論のスケーリングを行う方法かもしれません。ルーターが大きな方をどれだけ使用するかを決定します。
はい、複数のバージョンを持つことができます。これは簡単な数学の問題なので、非常に小さな蒸留された数学の部分にルーティングします。これは本当に難しいので…
少なくとも公開研究からは、エキスパートの混合型モデルで各エキスパートが何をしているのかを解読するのは難しいことが多いようです。このようなものがある場合、私たちにとって見えて理解できるようなモジュール性をどのように強制できますか?
実際、過去には、エキスパートを理解するのは比較的簡単でした。
「エキスパートの混合の発明者である私には分からないけれど。」例えば、1000から2000のエキスパートがあって、このエキスパートは円筒形のオブジェクトを指す言葉を扱い、このエキスパートは日付に特に強いといったことが分かりました。
はい、時間に関する話をしているんですね。
はい、かなり簡単でした。実行時にどのように動作させるかを理解するために人間の理解が必要というわけではありません。なぜなら、例を見て学習したルーターがあるだけだからです。
モデルの解釈可能性とその内部で何が起こっているかに関する研究がたくさんあります。エキスパートレベルの解釈可能性は、その広い分野の一部の問題です。
以前のインターンのクリス・オラーとAnthropicの他の人々が行った研究が気に入っています。彼らは非常にスパースなオートエンコーダーをトレーニングし、大規模言語モデルの特定のニューロンがどのような特徴を持っているかを解明することができました。例えば、ゴールデンゲートブリッジについて話すときに活性化するゴールデンゲートブリッジニューロンを見つけました。
エキスパートレベルでも、様々なレベルでそれを行うことができ、かなり解釈可能な結果が得られると思います。必ずしもそれが必要かどうかは少し不明確です。モデルが本当に優れた性能を発揮していれば、Geminiモデルの各ニューロンが何をしているかを気にする必要はありません。システム全体の出力と特性が良好であれば十分です。
これがディープラーニングの美しさの1つです。すべての特徴を理解したり手作業で設計したりする必要がないのです。
これには多くの興味深い意味があり、もっと質問したいことがたくさんあります。
質問を続けさせてください。1つの意味として、現在、数百億のパラメータを持つモデルを数個のGPUで提供できます。
この新しいシステムでは、1つのクエリが全パラメータのごく一部しか通過しないかもしれませんが、全体をメモリにロードしておく必要があります。Googleが数百から数千のTPUのポッドに投資してきたこの特定のインフラは非常に価値があるということですよね?
既存のエキスパートの混合にとっても、全体をメモリに保持しておく必要があります。
エキスパートの混合に関して、モデル内の重みを通過する必要がないという利点があるという誤解が広がっているようです。
使用されないエキスパートがあっても、そのメモリを取得する必要がないというわけではありません。なぜなら、効率を上げるために非常に大きなバッチサイズで提供する必要があるからです。
独立したリクエストのバッチサイズですね。そうです、独立したリクエストです。
このステップでこのエキスパートを見るか見ないかというわけではありません。もしそうなら、エキスパートを見る時にバッチサイズ1で実行することになり、それは非常に非効率的です。
現代のハードウェアでは、演算密度は何百もあります。そうはなっていません。すべてのエキスパートを見ていますが、各エキスパートにバッチの一部だけを送る必要があるのです。
そうですね。しかし、各エキスパートには小さなバッチが通過します。そして合理的なバランスを取るために、現在のモデルが通常行っていることの1つは、すべてのエキスパートをほぼ同じ計算コストにし、推論時の非常に大きなバッチを伝播させて良い効率を得るために、ほぼ同じサイズのバッチを実行することです。
しかし、将来的には計算コストが100倍や1000倍も異なるエキスパートが必要になることがあると思います。あるいは、ある場合には多くの層を通過し、別の場合には1層だけ、あるいはスキップ接続だけというパスが必要かもしれません。そこでは、まだ非常に大きなバッチが必要ですが、推論時にはトレーニング時よりも少し非同期にモデルを通過させる必要があります。
これはPathwaysがサポートするように設計された機能の1つです。コンポーネントがあり、コンポーネントのコストは可変で、この特定の例についてはモデルのこのサブセットを通過させたい、この例についてはこのサブセットを通過させたいと指定でき、システムがそれを調整できます。
また、これは一定の規模と洗練さを持つ企業が必要になることを意味します…現在は、誰でも十分に小さなモデルをトレーニングすることができます。しかし、これが将来のモデルをトレーニングする最良の方法になる場合、基本的に単一の「ブロブ」またはモデルを提供するデータセンターを持つことができる企業が必要になります。そういう意味でも、パラダイムの興味深い変化となるでしょう。
少なくともモデル全体を配置できるだけのHBM(High Bandwidth Memory)が必要になるでしょう。モデルのサイズに応じて、最低限必要なHBMの量はそれくらいになるでしょう。
また、モデルの全フットプリントをデータセンターのサイズまで大きくする必要はないということも意味します。それよりも少し小さくしておきたいかもしれません。
そして、特定のエキスパートが頻繁に使用される場合は、より良い負荷分散のためにそのエキスパートの複製を多く持つ可能性があります。これは数学の質問が多いので頻繁に使用され、こちらはタヒチアンダンスの専門家で、めったに呼び出されないといった具合です。
そのようなものは、HBMに配置するのではなくDRAMにページアウトすることもできるかもしれません。
しかしシステムがすべてこれらを負荷特性に基づいて判断できるようにしたいですね。
現在、言語モデルは明らかに言語を入力して言語を出力します。もちろんマルチモーダルですが、Pathwaysのブログ投稿では、このような自己回帰的な性質を持たない多くの異なるユースケースについて言及しています。
基本的に、Googleという会社として、Google検索がこれを通過し、Google Imagesがこれを通過し、Gmailがこれを通過する…つまり、サーバー全体がこの巨大なエキスパートの混合体で、専門化されているというようなことを想像できますか?
Geminiモデルの多くの使用例が、必ずしも微調整されていないGoogle全体で見られ始めています。それらは単に、この特定の製品設定におけるこの機能のための指示を与えられています。
確かに、基盤となるモデルの能力をより多くのサービスで共有するという方向性は非常に興味深いと思います。
はい、AIがどこに向かうかについての興味深い予測を聞いている人々は、それがどれほど興味深いかを理解していないかもしれません。2018年にノームにポッドキャストで「言語モデルが重要になると思う」と言わせるようなものです。
もしこれが物事の向かう方向だとすれば、これは実際に非常に興味深いことです。
はい、大きな基本モデルがあり、異なる設定のために異なるモジュールを追加したカスタマイズバージョンのモデルが必要になるかもしれません。それらには異なるアクセス制限があるかもしれません。
Google社内用に、社員向けの内部データでトレーニングしたモジュールを持つ内部バージョンを持ち、他の人にはそれらのモジュールの使用を許可しないかもしれません。他の企業向けには、その企業の設定に有用な他のモジュールを追加し、クラウドAPIで提供するかもしれません。
このようなシステムを実現可能にするためのボトルネックは何でしょうか? システムエンジニアリングですか? 機械学習ですか?
これは現在のGeminiの開発とはかなり異なる方法です。そのため、これらの分野を探求し、進展を遂げていくと思います。
しかし、それが正しい方法であり、多くの利点があるという証拠を本当に見る必要があります。その利点の一部は品質の向上かもしれませんし、異なるモジュールの並列開発能力のような、具体的に測定しにくいものかもしれません。
しかし、それでも非常に興味深い改善です。なぜなら、多くの異なる分野でモデルの能力を改善する進歩をより速く実現できると思うからです。
データ制御のモジュール性も本当に素晴らしく見えます。そうすれば、私専用にトレーニングされたモデルの一部を持つことができます。私の個人データをすべて知っているのです。
個人用モジュールは有用でしょうね。
もう1つの可能性は、特定の設定でのみ使用できる特定のデータがあることです。
YouTubeの製品表面でのみ使用可能で、他の設定では使用できないYouTubeデータがあるかもしれません。そのため、その特定の目的のためにそのデータでトレーニングされたモジュールを持つことができます。
これらすべてを発明するために、100万の自動化された研究者が必要になるでしょう。
素晴らしいことになりますね。ブロブを構築すれば、それがブロブをより良くする方法を教えてくれます。
ブロブ2.0ですね。あるいはバージョンすら必要なく、単に徐々に成長するブロブかもしれません。
はい。それでは、ジェフ、大きな視点で説明してください: なぜこれが良いアイデアなのですか? なぜこれが次の方向性なのでしょうか?
この、数学的に注意深く構築されていない有機的な機械学習モデルという考えは、しばらく前から私の中にありました。ニューラルネットの開発において、生物学的ニューロンからインスピレーションを得た人工ニューロンは良いものであり、ディープラーニング分野で私たちを助けてきました。
それによって多くの進歩を遂げることができました。しかし、実際の脳が行っている他のことについては、おそらく私たちが考えるべきほど注目していないように思います。シリコンと生体組織では特性と長所が大きく異なるので、完全に模倣すべきだというわけではありません。
しかし、異なることが得意な特殊化された部分、つまり脳の異なる領域を持つという考え方からもっとインスピレーションを得ることができると思います。
エキスパートの混合モデルでは、それを少し取り入れていますが、まだ非常に構造化されています。
この種の専門性がより有機的に成長し、その種の専門性をもっと必要とする場合には、そこにモデルの容量を追加して、その種のことについてもっと学習させることができるようにすべきだと感じています。
また、モデルの接続性をハードウェアの接続性に適応させるという考えも良いものです。同じチップと同じHBM内の人工ニューロン間では、コストがそれほどかからないため、非常に密な接続が必要です。しかし、近くのニューロンとの接続は少なくする必要があります。
つまり、1チップ離れた場所には一定量の接続があり、多くのチップ離れた場所にはより少ない接続があり、非常に限られたボトルネック的なもの、つまりモデルのこの部分が他の部分で使用するために学習している最も重要なことを送信するべきです。
また、複数のTPUポッド間では、さらに少ない情報しか送信したくありませんが、最も重要な種類の表現を送る必要があります。そしてメトロエリア間では、さらに少ない情報を送信したいと考えます。
はい、そしてそれは有機的に現れます。
はい、有機的に現れてほしいですね。これらの特性を手動で指定することもできますが、これらの種類の接続の正確な比率は分からないので、ハードウェアに少し物事を決定させるべきだと思います。
ここで通信を行い、このデータが常に早く表示される場合は、接続を追加すべきです。そうすれば時間がかかるようになり、ちょうど良いタイミングで表示されるようになります。
ここで興味深い意味が出てきます: 現在、AIの使用の成長は水平的なものと考えられています。つまり、Googleは何人のAIエンジニアを雇用することになるのか? 同時に何個のGemini 3インスタンスが動作することになるのか、といった具合です。このブロブがあり、有機的に自身のどの部分を活性化させるかを決定できる場合、10人分のエンジニアの出力が必要なら、異なるパターンやより大きなパターンを活性化させるだけです。
100人分のエンジニアの出力が必要な場合、より多くのエージェントやインスタンスを呼び出すのではなく、異なるサブパターンを呼び出すだけです。
この特定の推論にどれだけの計算を使用したいかという考えがあり、本当に簡単なことと本当に難しいことでは、10,000倍、場合によっては100万倍の差があるべきだと思います。
それは反復的かもしれません。モデルを一度通過させて何かを得て、次にモデルの他の部分を呼び出す必要があると判断するかもしれません。
もう1つ言えることは、これは常に進化する奇妙なもので、部品間の通信方法が最適化されていない可能性があるため、デプロイが非常に複雑に聞こえますが、それから常に蒸留することができます。
「これは私が本当に気にかけるタスクの種類だ、この巨大な有機的なものから本当に効率的に提供できるものに蒸留しよう」と言えば、その蒸留プロセスを好きな時に、1日に1回でも1時間に1回でも行うことができます。それはかなり良さそうです。
はい、より良い蒸留が必要ですね。
はい。巨大なブロブから瞬時にスマートフォンに蒸留する素晴らしい蒸留技術を発明する人がいれば、それは素晴らしいことでしょう。
現在の蒸留技術に欠けているものをどのように特徴付けますか?
単純に、もっと速く動作してほしいですね。
関連することとして、事前トレーニング中に興味深い学習技術が必要だと感じています。現在の訓練目的で、見るすべてのトークンから最大限の価値を引き出しているかどうかは分かりません。一部のトークンについてはもっと深く考える必要があるかもしれません。
「答えは」というところに来たら、トレーニング時にモデルは「the」というときよりもはるかに多くの作業をすべきかもしれません。
そうですね。同じデータからもっと多くのことを得る方法があるはずです。
前後に学習させ、あらゆる方向に学習させる。
このように一部を隠し、あのように一部を隠し、部分的な情報から推論させる。
人々は視覚モデルでこれを長い間行ってきました。モデルを歪ませたり、一部を隠したりして、上部のコーナーや左下のコーナーだけから鳥だと推測させようとします。
それによってタスクが難しくなり、より多くのテキストやコーディング関連のデータでも同様のことができると感じています。モデルにより多く作業させることで、より興味深い観察が得られるでしょう。
はい、画像の人々は十分なラベル付きデータがなかったので、このようなものをすべて発明しなければなりませんでした。
彼らは – ドロップアウトは画像で発明されましたが、テキストではほとんど使用していません。
それは、オーバーフィッティングすることなく、より大規模なモデルでより多くの学習を得る1つの方法です。世界のテキストデータを100エポック回してドロップアウトを使用するのです。
しかし、それは計算的にかなり高価ですが、実行しないということはありません。人々が「テキストデータがほとんどなくなってきた」と言っていますが、私はそれを本当には信じていません。なぜなら、既存のテキストデータからもっと高性能なモデルを得ることができると思うからです。
人は10億のトークンを見ています。
はい、そして彼らは多くのことが非常に得意です。
ですから、明らかに人間のデータ効率は下限を設定します。または上限を設定します。どちらかでしょう、たぶん。
それは興味深いデータポイントですね。
はい。だからここには一種のモードゥス・ポーネンス、モードゥス・トレンスがあります。
1つの見方は、LLMsにはまだまだ改善の余地があるので、人間に匹敵できれば、サンプル効率は数桁改善すると予測されるということです。もう1つは、桁違いの差があることを考えると、おそらく彼らは明らかに何か異なることをしているのではないかということです。
これらのモデルを人間と同じくらいサンプル効率の良いものにするために必要なことについて、あなたの直感はどうですか?
はい、トレーニング目的を少し変更することを検討すべきだと思います。
見てきた前のトークンから次のトークンを予測するだけというのは、人々がどのように学習するかとはあまり似ていないように思えます。少し関係はありますが、完全ではありません。
人は本の1章を読んで、最後の問題に答えようとするかもしれません。それは異なる種類のことです。
また、視覚的なデータからあまり学習していないと思います。ビデオデータで少しトレーニングしていますが、得られる可能性のあるすべての視覚的入力でトレーニングするにはまだまだ遠いです。つまり、まだトレーニングしていない視覚データがあります。
そして、見るすべてのデータからより多くの情報を抽出できると思います。
人々がそれほどサンプル効率が良い理由の1つは、世界を探索し、世界で行動を起こし、何が起こるかを観察することだと思います。
非常に小さな幼児が物を拾って落とすのを見ると、重力について学んでいます。これは、行動を起こさずに受動的に観察するよりもはるかに難しいことです。
学習プロセスの一部として行動を起こすことができるモデルは、単に巨大なデータセットを受動的に観察するよりもはるかに優れていると思います。
では、Gatoが未来なのでしょうか?
モデルが観察し、行動を起こし、その結果を観察できるというのは非常に有用そうです。
人々は追加の入力を必要としない思考実験からも多くのことを学ぶことができます。アインシュタインは思考実験から多くのことを学び、ニュートンは隔離されていて、りんごが頭に落ちてきたか何かで重力を発明しました。そして数学者 – 数学には追加の入力はありませんでした。
チェスでは、自分自身と対戦して上手くなります。それはDeepMindがやったことですが、必要なのはチェスのルールだけです。
つまり、外部データがなくても多くの学習ができる可能性があり、その後、関心のある分野で正確に学習させることができます。もちろん、外部データを必要とする学習もありますが、おそらくこのものに自分自身と話をさせて、より賢くすることができます。
では、質問があります。この1時間で説明してきたことは、AIの次の大きなパラダイムシフトとなる可能性があります。それは非常に価値のある洞察かもしれません。
ノーム、あなたは2017年にTransformerの論文を発表し、他の企業で数百億ドルもの市場価値の基礎となりました。Googleが時間をかけて公開してきた他の研究も同様です。振り返ってみると、競合他社に役立つこの情報を公開することについて、「やはりそうすべきだった」と思いますか、それとも「Transformerがこれほど大きな話題になるとは予想していなかった。社内に留めておくべきだった」と思いますか?
それは良い質問です。なぜなら、おそらく他の企業が何をしているかに反映されているように、機会の大きさを見る必要があったと思うからです。また、パイの大きさは固定されていません。
現在の世界の状況は、固定されたパイからはかけ離れています。GDPや健康、富など、考えられるあらゆるものが桁違いに改善されると思います。ですから、Transformerが広まったのは間違いなく良かったと思います。
それは変革的でしたね。
そうですね、Googleも同様に良い状態です。最近では、私たちが行っていることをやや控えめに公開しています。
常にトレードオフがあります: 私たちが行っていることを直ちに公開すべきでしょうか? 次の研究段階に進めて、本番のGeminiモデルにロールアウトし、全く公開しないべきでしょうか? それとも中間点があるのでしょうか?
例えば、Pixelカメラのコンピュテーショナルフォトグラフィーの仕事では、低光量状況での素晴らしいナイトサイトビジョンなど、興味深い新しい技術を開発し、それを製品に組み込んでから、その技術に関する本格的な研究論文を製品リリース後に公開するという決定を何度も行ってきました。
異なる技術や開発には異なる扱いがあります。非常に重要だと考えるものは公開しないかもしれません。
私たちの製品を改善する上で重要だが興味深いと考えるものは、製品に組み込んでから、これを公開するか、あるいは詳細な説明は控えめにするかを決定します。
他のものは、オープンに公開し、分野とコミュニティの発展を促進しようとします。なぜなら、それが参加することで私たち全員が恩恵を受ける方法だからです。
先週のNeurIPSのような会議で15,000人が集まり、多くの素晴らしいアイデアを共有するのは素晴らしいことです。私たちは過去と同様に多くの論文を発表し、この分野が発展していくのを見るのは非常に刺激的です。
Googleは早い段階で、トップの研究者を含めて、これらすべての洞察を内部的に持っていたのに、なぜ…そしてGemini 2が出ました。あまり話す機会がありませんでしたが、人々はそれが本当に素晴らしいモデルだということを知っています。
本当に素晴らしいモデルですね。社内で言うように、「本当に素晴らしいモデル、本当に素晴らしいモデル」です。
LMSYS Chatbot Arenaでトップになっています。そしてGoogleが上位に立っています。しかし、数年間すべての素晴らしい洞察を持っていたにもかかわらず、競合他社のモデルの方が良かった時期があったのはなぜだと説明しますか?
私たちは長い間言語モデルに取り組んできました。2001年のノームのスペル修正の初期の仕事、翻訳の仕事、2007年の大規模言語モデル、そしてseq2seqやword2vec、さらに最近のTransformerとBERT。
人々と興味深い会話を行うように設計された内部のMeenaシステムのようなチャットボットベースのシステムもありました。
実際、ChatGPTが出る前から、Googleの社員が使えるチャットボットシステムを内部で持っていました。パンデミック中は、多くのGooglerが自宅に閉じこもっていたので、昼食時にMeenaとチャットを楽しんでいました。良い昼食の相手だったからです。
検索の観点から見ると、これらのモデルは幻覚を見ることが多く、常に – または時々 – 正しい答えを得られないということがありました。そのため、それほど有用ではなく、改善する必要があると考えていました。検索の観点からは、理想的には100%正しい答えを得たいと考え、事実に基づいた情報を重視します。
これらのモデルはその基準に近づいていませんでした。私たちが少し理解できていなかったのは、それらが信じられないほど有用だということです。また、攻撃的なことを言うなどの安全性の問題もあり、その面での作業を行い、モデルをリリースできるレベルまで改善する必要がありました。
しかし、検索エンジンには尋ねないようなことに対して非常に有用だということを十分に理解していなかったと思います。獣医に手紙を書くのを手伝ってほしい、このテキストを要約してほしいといったことです。それが、チャットボットの素晴らしい新機能として人々が本当に集中的に使用しているものだと思います。単なる検索エンジンとしてではなく。
そのため、十分に高性能なチャットボットをリリースするまで時間をかけ、Geminiモデルを通じてかなり改善を重ねてきました。それは実際には悪くない道筋だったと思います。チャットボットをもっと早くリリースした方が良かったでしょうか? おそらく。しかし、素晴らしいGeminiモデルを持つ素晴らしいチャットボットがあり、それは常に改善を続けています。それは本当に素晴らしいことです。
過去25年間にあなたたちが取り組んできたことについて議論してきましたが、多くの異なる分野がありましたね。検索とインデックス作成から分散システム、ハードウェア、AIアルゴリズムまで。そして本当に、他にも千以上の分野があります。あなたたちのどちらかのGoogle Scholarのページを見れば分かります。
何十年にもわたってブレークスルーを起こし続けるというキャリアの長さだけでなく、このように異なる分野での幅広さを実現するコツは何でしょうか? どちらかが先に答えてください。キャリアの長さと幅広さのコツは何ですか?
私が好むことの1つは、新しい興味深い分野について知ることです。そのための最良の方法の1つは、何が起こっているかに注意を払い、同僚と話し、公開される研究論文に注目し、研究の風景が進化していく様子を見ることです。
「チップ設計…強化学習をその一部に使えないだろうか」と考える意欲を持つこと。新しい分野に飛び込み、異なる領域やヘルスケアのAIについて多くの知識を持つ人々と協力すること。臨床医と協力して、実際の問題は何か、AIはどのように役立つのかを考えること。これには役立たないが、こちらには非常に役立つといった洞察を得ることです。
それらの洞察を得て、多くの場合、異なる専門知識を持つ5-6人の同僚と協力します。それにより、個人では決してできないことを集団で実現することができます。そして、彼らの専門知識の一部があなたに伝わり、あなたの専門知識の一部が彼らに伝わり、次の課題に取り組むためのツールがより多く備わった工学研究者になれます。
それが仕事を通じて学び続けることの美しさの1つだと思います。私は新しいことに飛び込んで、何ができるかを見ることを本当に楽しんでいます。
おそらく大きな要因は謙虚さでしょう。私は最も謙虚だと言えますが。冗談はさておき、自分がやったことは、できることや実現可能なことに比べれば何でもないと言えることです。
そして、より良いアイデアを見たらすぐに自分のアイデアを手放せること。あなたや誰かがより良いアイデアを持っていて、あなたが考えていることや彼らが考えていることや全く異なることがより良く機能する可能性があることを見るのです。
トップダウンのリソース割り当てが多い場合、「私が発明したものは素晴らしいから、もっとチップをください」と言いたくなる傾向があると思います。しかし、「私がやっていることは全く機能していません。完全に手放して他のことを試してみましょう」と言える人々にもインセンティブを与える必要があります。
Google Brainはそれをうまく行っていたと思います。非常にボトムアップなUBI(Universal Basic Income)のようなチップ割り当てがありました。
UBIがあったのですか?
はい、基本的に全員が1クレジットを持っていて、それをプールすることができました。
Geminiは主にトップダウンで、ある意味で非常に良かったです。より多くのコラボレーションと人々の協力につながったからです。5つのグループが同じものを作ったり、互換性のあるものを作ったりすることが少なくなりました。
しかし一方で、「私がやっていることはうまくいっている」と言いたくなるインセンティブにつながります。そしてリーダーとして、何百ものグループから「だからもっとチップを与えるべきだ」という話を聞くことになります。
「私がやっていることは実際にはあまりうまくいっていません。別のことを試してみましょう」と言うインセンティブが少なくなります。そのため、今後は、これらの両方の行動 – コラボレーションと柔軟性 – を促進するために、ある程度のトップダウンとボトムアップが必要だと思います。
また、私たちが向かうべき興味深い方向性を明確に示すことも良いことです。私は「Go, Jeff, Wacky Ideas」という内部のスライドデッキを持っています。それらは製品指向の考えの方が多いと思います。「これらの機能を持っているので、これら17のことができるのではないか」といった具合です。
それは良いことだと思います。なぜなら、時々人々がそれに興奮して、1つまたは複数のアイデアについてあなたと一緒に取り組みたいと思うからです。「ここに行かなければならない」と命令することなく、私たちがどこに行くべきかをブートストラップする良い方法だと思います。
素晴らしかったですね。
はい。時間を取っていただき、ありがとうございました。素晴らしい会話でした。