「AGIスタートアップの作り方」- GoogleのAI専門家

17,124 文字

“How to build an AGI startup” – Logan Kilpatrick

Try INFINITE THINKING for free: start your own AGI startup? Go here: follow Logan:

これはログラン・キルパトリックです。彼はChatGPTの台頭期にOpenAIで働き、現在はGoogle DeepMindでAGIの開発に携わっています。このポッドキャストでは、AIエージェントの構築方法、プログラミングを学ぶべきかどうか、そしてAGIに取り組むとはどういうことかについて話し合います。AIを真剣に考えたい方は、最後までご覧ください。これはデビッド・アンドレのポッドキャストです。どうぞお楽しみください。
さて、ローガン、AGIラボの1つで働くというのはどんな感じですか？日々の仕事はどのようなものですか？
運が良ければ、一日の始めに最も生産性の高い深い仕事の時間があります。でも通常は、TPU容量についての会議から、AIスタジオの画面上のピクセルの移動、次のGeminiモデルの要件など、10時間の会議が続きます。どの日もそんな感じで、製品を形にするために必要な幅広い仕事をこなしています。
ところで最近、視聴者の84%の方が登録されていないことが分かりました。私の動画が気に入っていただき、もっと多くのAIリーダーにインタビューしてほしいと思われる方は、ぜひチャンネル登録をご検討ください。完全無料で、とても助かります。ありがとうございます。
私が気付いたのは、Googleは多くのコア技術の発祥の地だということです。もちろん伝説的なTransformerの論文もそうですが、最近のDeep Researchのような消費者向け製品も含めて。こんなにもイノベーションが生まれる理由は何だと思いますか？
それは良い質問ですね。私は、才能の密度という要素があると思います。Googleには本当に多くの賢い人々がいて、偶然にも賢い人々に出会う機会が常にあります。実際、昨晩もザック・ストーンという人と話す機会がありました。彼はGoogleのTPUビジネスの創設者の一人です。TPUの世界観や全体の進み具合について、偶然にもたくさんの情報を得ることができました。
今、Googleは興味深い研究と製品の状況にあります。Google DeepMindはその良い例だと思います。実際、Deep Mind、Google Research、Google Brainからのフロンティア研究のアイデアを一つの場所に集め、さらに製品も取り入れたのは今回が初めてだと思います。そして今、Geminiアプリがあり、私が働いているAIスタジオやGemini APIもあります。これらが全て同じ場所にあることで、とても素晴らしい成果が生まれると思います。
AIで多くの人が気付いていないトレンドは何だと思いますか？
大きなものの一つは、価値創造がチャットから離れていっているということです。多くの製品がチャットベースのエクスペリエンスから離れつつあります。私はこれに興奮しています。チャットエクスペリエンスには素晴らしい点もありますが、変な点もあります。
二つ目は、人々がようやく気付き始めているのですが、望むAI製品を持てない理由は、製品に十分なAIが入っていないからだということです。開発者がAIを製品に組み込むことを躊躇する奇妙な状況があります。AIシステムの消費に対して実際にコストがかかるからです。でも、今日はマージンを取られても、最高の製品体験を作り出し、最終的に顧客を獲得できれば、コストは時間とともに下がっていき、マージンは自然と上がっていくということに気付く人が増えています。
良い例としてcursorがあります。cursor体験が素晴らしい理由の一つは、AIの使用を控えようとしていないからです。もし「IDEにクールなAI体験があるけど、Claude Sonetへの1回の呼び出しとか、Geminiへの1回の呼び出しだけに抑えよう」としていたら、それは酷い体験になっていたでしょう。誰もcursorを好きにならなかったと思います。
多くのSaaSアプリケーションを見ると、メールの要約を提供するけど、他の作業は全て自分でやらなければいけないような感じです。でもそれは実際には役に立つ体験ではありません。私が望むのは、基本的に全てをAIにやってもらうことです。確かにそれは製品をより高価にしますが、最終的には価値があります。なぜなら、それこそが顧客を獲得する方法だからです。
これは本当に良いアドバイスですね。製品に詳しいあなたならではですね。多くの人が気付いていないことの一つは、右下にランダムな obscureモデルを使ったAIカスタマーサポートチャットボットを追加しようとする会社が多いことです。誰もがそれを嫌がりますが、多くの人がコストを最小限に抑えようとしています。でもそれは生き残りの問題だと思います。AIを使って自身を置き換えない会社は、cursorのようなAIファーストの代替品に置き換えられてしまうでしょう。
今後数年で、全てのSaaSの垂直分野や種類にAIファーストの企業が登場すると思いますか？それとも、今のところAIが必要ない分野もあると思いますか？
ちなみに、VLに無限思考という大きな新機能をリリースしました。このボタンをクリックすると、タスクや目標について無限に考え続け、基本的にあなたのために働き、タスクを完了するのを助けてくれます。タスクをより小さくて実行可能なステップに分解したり、新しいタスクを作成したり、ユーザーコンテキストを最適化したりできます。最高の点は、無料プランでもこの機能にアクセスできることです。Deep Seek R1が無限に考え続け、CLA fre 5 Sonetによって駆動されるアクションエージェントがこれらの変更を提案し、承認または拒否することができます。
承認すると、このブレイクダウンタスクはサブタスクを作成し、リストが再読み込みされて変更が適用されます。これは停止するか、無料プランの制限に達するまで永遠に実行され続けます。これは全く新しい機能で、今のところvectalの中でしか存在しません。AIの最先端に立ちたい方、無限思考のようなAIエージェントにアクセスしたい方は、vect.aiにアクセスしてみてください。完全無料で始められます。世界最高のAI生産性ツールです。vect.aiにアクセスして登録してください。
確かに、AIが必要ない垂直分野は間違いなくあります。問題は、必要なくても、より良い製品体験を構築できるかどうかということです。また、消費者の意欲やAI対応製品は良いものだという考えに慣れてきているということもあります。実際にそうかどうかは別の問題です。
ポジショニングやマーケティングの観点から考えると、人間が作ったものの価値に関する議論と同様に、ソフトウェアの一つのクラス全体が、シンプルさに焦点を当てることになると思います。「このプロダクトには数個のボタンしかなく、複雑ではありません。AIは必要なく、他の要素も必要ありません。期待通りに動作するだけです」というようなものです。
これらは実際に非常に有用になると思います。超複雑なものに慣れている多くの人々、つまりUIがリアルタイムで生成され、左右下からAIチャットが出てくるようなものに慣れている人々にとって、「いいえ、これは数個のボタンがある普通のウェブサイトです」という体験は、実際に喜ばれると思います。
スペクトラムでどこまで行くかを見るのは興味深いでしょう。類似の例として、私は個人のウェブサイトを持っていますが、これは私の偏見かもしれません。私の個人ウェブサイトにはスタイリングはなく、リストやリンクのためのタグが数個ある白いHTMLページだけです。とても基本的です。自分のウェブサイトにアクセスすると、インターネットの狂騒の後では新鮮な空気のようです。「ああ、これは本当にシンプルなウェブサイトだ」と感じられます。ソフトウェア製品でも同じことが言えると思います。
では、AIを実装する際、ユーザーにAI機能を押し付けるのではなく、ユーザーから隠れて作業するAIエージェントを持つことを考えるべきですね。例えば、バックエンドでAIが作業を行い、ユーザーは何もする必要がなく、後で作業が完了していたり、何かが達成されていたりするような。基本的にユーザーにとって超シンプルにするけれど、UIを複雑にすることなく、基本的にどんなアプリにもAIを追加する方法がたくさんあるということですね。
はい、実際にもっと大胆な見方をすると、最終的に成功する製品は全てそうなるでしょう。世界の中規模から大規模な都市で無作為に10人を選んだとして、誰もAIに興味はありません。平均的な人が興味を持つのは、自分の生活が良くなること、問題が解決されることなどです。確かにAIは場合によってはその目的を達成する手段ですが、これには本当に興味深い並行例があります。
別の良い例は実際には暗号通貨です。暗号エコシステムの課題の一つは、テクノロジーを前面に出し過ぎて、人々の問題解決を後回しにしていたことだと思います。人々は実際にはブロックチェインインフラが解決する根本的な問題を持っていますが、テクノロジーには興味がなく、それが解決する問題に興味があるのです。
これは開発者にとってトラップです。フロンティアで構築していることや、AIやブロックチェーン、あるいは他のフロンティアテクノロジーを使用していることを人々に伝えたいという思いと、実際には顧客がそれを気にしていないという状況の間で綱渡りをしているようなものです。
基本的にプロダクトプロセスのどの段階でも、スタートアップのコアアイデアを選ぶ時や追加する機能を選ぶ時など、「これはどんな問題を解決するのか」「顧客は本当にこれを望んでいるのか」と自問すべきです。単に「クールな新しいAI機能を追加しよう」ということではありません。
そして、それをユーザーにどう伝えるかが次のステップです。これはAI機能だと伝える必要があるのか、それとも実際には、誰もAI機能だとは思わないものの、裏でAIが動いていて、ただ魔法のように動作する方が良いのか。これは期待値設定の問題の一部です。
ユーザーに「超知能的なAIがあります」と伝えると、期待値が非常に高くなり、その体験を提供できなければ「このプロダクトは最悪だ」となります。でも「これは本当にシンプルなツールです」と言って、たまたま裏でAIが動いているなら、「おお、これは本当に面白いプロダクト体験だ。こんなにできるとは思わなかった」となります。
これは実は非常に微妙ですが、AIエコシステムが自らを追い込んでしまった本当に難しい立場だと思います。多くのAIプロダクトがうまく機能しなかった理由です。とても素晴らしいデモや、分野の人々からのAGIについての野心的な発言があり、でも実際には基本的な質問に対するメールにも答えられないというギャップがあります。多くはただ、製品をどう位置付けるか、顧客にどうストーリーを伝えるかの問題です。
また、上位1%や0.1%の人々、つまり毎日5-10時間AIを使いこなしている人々にとっては、その価値を得るのはとても簡単です。でもそれを平均的な人に伝えると、彼らは無料版のChatGPTやGeminiに来て、ひどいプロンプトを入力し、AIがひどい応答を返すと、「AIはただのハイプだ」となってしまいます。
明らかに、彼らにプロンプトエンジニアリングの専門家になることや、どのモデルが何に良いかを知ることを期待することはできません。なので、多くのプロダクトの課題は、平均的なユーザーがどうやって最大限の価値を得られるかを理解することだと思います。現在、上位0.1%と平均的な人とのギャップは信じられないほど大きく、いくつかのプロダクトがこれを解決しない限り、おそらくそのギャップは広がるばかりでしょう。
はい、その通りです。これは本当に触知可能なプロダクトの問題だと思います。今日それが問題であることは100%正しいですが、私の希望としては、最終的には問題にならないということです。この問題を解決する合理的な方法はたくさんあると思うからです。
これは少し皮肉な例かもしれませんが、実践ではうまく機能しないかもしれません。プロダクト体験におけるプロンプトエンジニアリングの部分は、完全に解決可能なはずです。シンプルな見方をすれば、最も価値の高いユーザーを見つけ、プロンプトの分布を見て、彼らがどのようにプロンプトを作成しているかを見ます。
そして、モデル内にシンプルな分類層を作成し、優れたプロンプトの500の例を得て、そのように上手くプロンプトを書けない平均的なユーザーからプロンプトを受け取ったら、「このようなプロンプトを試してみてはどうですか」と提案するか、さらに良いのは、彼らの良くないプロンプトを、モデルの機能に合わせて詳細な情報を含む実際に上手く機能するバージョンに自動的に変換することです。
実際の良い例はDuolingoです。彼らはこのようなUXパラダイムでLLMsを先駆的に活用しました。空白のテキスト入力フィールドをユーザーに与えると、全ての間違いを犯す自由を与えてしまうという課題があります。多くのプロダクト体験では、自由形式の入力テキストフィールドを与えず、望む結果を得るために実際に必要なデータを提供するよう強制することができます。Duolingoは言語学習の多くの部分でそれを実現しました。
プロンプト分類器のアイデアは本当に良いと思います。なぜ主要なChatbotがこれをまだ実装していないのでしょうか？10倍優れた人なら2日でできそうに聞こえますが。
それは良い質問です。私のメタな見方では、多くの場合、特に立ち上がり段階のユーザーと、人々が使用している多くのプロダクトの間にかなりの断絶があると思います。
Whartonの教授で、インターネット上でたくさんのAI関連の発信をしているイーサン・モリックと話すたびに、AIラボはユーザーを教育し、支援することをもっとすべきだと言われます。
もしかしたら、人々は別の結果を得ているのかもしれません。実験を行ってみたら、実際にはモデルの出力に大きな影響を与えないということかもしれません。私にはそれは信じがたいですが、悪いプロンプトと良いプロンプトの間の翻訳層を作るのが本当に難しいのかもしれません。
これは人々が研究すべき興味深いテーマだと思います。また、オープンソースコミュニティがそのようなものを構築する良い例にもなると思います。もし何がそれを意味するのかについて合意できれば、誰もが使える本当に素晴らしいインフラになるでしょう。
オープンソースと言えば、最近のDeep Seek One は本当に大きなリリースでした。エッジに本当に近いモデルだと思います。クローズドソースのモデルよりも明らかに優れたモデルが登場すると思いますか？それともクローズドソースが常にリードし続けると思いますか？
ちなみに、私のAIツールvectalが無料になりました。O fre mini、Deep Seek One、そしてvectalが提供する他のAIエージェントに無料でアクセスしたい方は、vect.aiにアクセスして登録してください。
このモデルの状況について難しいのは、現在モデルには多くの側面があるということです。2年後を見据えると、開発者や消費者などがモデルを見て評価する際の次元がさらに増えると思います。
歴史的には実際にかなりシンプルでした。多くのベンチマークでのパフォーマンス、コスト、利用可能性（APIで利用可能か、重みが利用可能か、トレーニングデータを見ることができるか）などを気にし、そしてそれを行うコストプロファイルはどうかということでした。
モデルが単なる重みのアーティファクト、つまりファイルに入った数字の束から、このようなシステムアプローチに移行するにつれて、オープンソースモデルが独自のモデルよりも多くの機能を持つことができるかどうかを言うのは、さらに複雑になります。
なぜなら、独自モデルにはこれらのシステムが構築されており、システムが実際に機能を作り出していくのが見えるからです。これは少し皮肉な例で、完全に正しいわけではありませんが、モデルのイノベーションもあります。
Geminiの長いコンテキストは良い例です。モデルは100万トークンや200万トークンの長いコンテキストを処理するようにトレーニングされており、確かにそれにはモデルの作業が必要ですが、実際には多くのインフラ作業も必要です。
もしそれをオープンソースで利用可能にしたとしても、平均的なユーザーはもちろん自分のコンピュータで実行することはできませんが、洗練されたインフラプロバイダーでさえ、そのレベルのユーザートラフィックで長いコンテキストを実際の本番規模で動作させることは難しいでしょう。
検索も同様の例です。GeminiモデルはAPIとして検索機能を持っています。モデルが情報にアクセスできない場合、実際にインターネットを検索してその情報を見つけ、クエリに答えるために使用することができます。それはある程度モデルの重みに表現されていますが、その体験を実現するシステムも必要です。
そしてそれは続くと思います。オープンソースコミュニティの仕事は非常に重要です。私も初期のキャリアの多くをオープンソースに費やしました。イノベーションと知識共有のための美しいメカニズムだと思います。
ただ、これらの大規模なモデルシステムを構築する実践的な課題があり、それがオープンソースモデルと独自モデルの間に興味深い状況を生み出すことになるでしょう。
つまり、モデルだけではないということですね。どのアプリで実行されているか、ユーザーについてどんなデータを持っているかなど、ツールやコンテキストも重要になります。
明らかに、同じモデルを使っても、Gmailのような全てのメールを知っているものと、ローカルで切断された状態で実行されているものでは、全てのメールを持っているほうが有用です。モデルは大体同じになるかもしれませんが、大きな違いは全てのツール、AIエージェント、接続、データにあるということですね。hugging faceから生のモデルをダウンロードしただけでは単純に持っていないものです。
はい、その例は正しいですが、少し異なる言い方をすると、多くのイノベーションがあると思います。モデルのコンテキストウィンドウに様々な場所からのデータが表示されることで、モデルがより良く質問に答えられるようになるのは確かに事実です。
でもオープンソースモデルを使ってそれを行うことはできます。オープンソースモデルを取り、Gmail APIに接続し、その製品体験を構築して、同様のバージョンを得ることができます。
私の主張は、モデルが実際のインフラを必要とする機能をネイティブに行うようにトレーニングされるということです。例えば、モデルが仮想マシンを起動して研究を行ったり、何かを検索して結果を返したり、場合によってはあなたの代わりに実際にアクションを取ったりするような長時間実行されるワークフローを想像できます。
それは全て、単一のアーティファクトだったものを、つまりこれがモデルだったものを、本当にシステムにしてしまいます。そしてシステムになると、それを複製することを非常に難しくする複雑さの爆発が起こります。
誰かがそれを複製することは難しくなります。この世界の何が私を興奮させるかというと、差別化が容易になると思うからです。今日、私たちは非常に具体的なベンチマークでどのモデルが最高かという、りんごとりんごの比較をしようとしています。
それは有用で、人々はそれらの評価を行うべきですが、最終的には、モデルの周りにこれらのシステムを構築することで生み出される価値がとても大きく、この非常に具体的なことで最高のベンチマークスコアを持つモデルは何かということに多くの注目が集まる代わりに、人々はただより良い製品体験を構築することに向かうべきだと思います。
はい、でもその変化は既に見えていますね。私が注目している主要な人々は、ベンチマークをそれほど気にしていません。彼らはバイブス、つまりどのモデルがcursorの中で使用するのが良いか、どのモデルが良い検索製品を持っているか、どのモデルが良い画像を作れるかということをより気にしています。
多くの場合、ベンチマークがあっても、例えばClaude 3.5 Sonetは明らかにプログラミングで人々が好んで使用するモデルの一つですが、ベンチマークのトップにはいないことがよくあります。そこには断絶があります。
また、ベンチマークが次々と飽和しているのも見ています。なので、誰が何のモデルが最高かを理解し、はい、あなたの言う通り、実際にはより複雑になっていて、単純化されているわけではないと思います。
1年前はただLLMsがありましたが、今では推論モデルがあり、super fastな推論モデルもあります。例えばO miniのようなものです。AIモデルやシステムの異なるカテゴリーがますます増えていき、主にアプリケーション層やそれを有用にする方法を誰が理解するかということになるでしょう。
完全に同意します。これは私をこの分野で構築している人々に興奮させることの一つです。複雑さが増えれば増えるほど、誰かが差別化された製品体験を理解する角度が増えるからです。
この一連のツールをこの一連のモデルから、本当にユニークな方法で組み合わせる方法を見つけると、突然、他の誰も持っていないものを持つことになります。複雑さが増えれば増えるほど、構築できる異なるシステムのバリエーションが増え、したがって人々が構築できる差別化された製品体験が増えます。
これは18ヶ月前の「誰もがラッパー企業で価値は創造されない」というナラティブに戻ります。その世界観は、複雑さの曲線がどのように上がっていくかのニュアンスを欠いていたと思います。
その世界では、本当にモデルはこの薄いラッパーとして、あるいはこれらの企業はモデルの上の薄いラッパーとしてありました。システムにそれほど複雑さがなかったからです。システムがより複雑になるにつれて、それは非常に異なって見えます。単にユーザーの質問にトークンを吐き出すという世界とは異なります。
正直に言って、その意見は完全に間違っていると思います。大きなニッチでも中規模のニッチでも、例えば弁護士や医師など、どんなニッチでも、最先端のモデルの一つを取り、そのターゲット層に関連する超シンプルなUIに入れ、そのターゲット層向けにプロンプトエンジニアリングを行い、いくつかの顧客知識を与えて、超有用にすれば、数百万ドルのスタートアップに成長できます。
全てのニッチがこれを持つことになり、必要とすることになります。なので、「ただのラッパーだ」という考えは、非常に限定的な考え方だと思います。
はい、その通りです。良いことは、人々がようやくこれが真実だと理解し始めていることです。なのでうまくいけば、この議論に時間を費やすことが少なくなり、人々が物事を構築することに時間を費やすようになるでしょう。
なぜ他のAIモデルはコンテキスト長においてGeminiに比べてそんなに遅れているのでしょうか？GeminiはAIモデルは100万、200万トークンなのに、他のほとんどのAIモデルは64k、128k、せいぜい200kですよね。
素晴らしい質問ですね。2つの要因があると思います。一つは、長いコンテキストに関してDeepMindチームが行った本物の研究のブレークスルーがあります。それが一つの要因です。
二つ目は、このシステム対モデルの状況に戻りますが、他の人々が長いコンテキストを扱う能力を持っていたとしても、サムが「最終的には長いコンテキストのモデルを持つことになる」と話しているように、実践的な問題は、インフラストラクチャ層で長いコンテキストを扱うことが簡単ではないということです。非常に複雑で高価です。
これは歴史的に、Googleが検索やクラウドなどのために構築してきたインフラストラクチャを見ると、YouTubeなど、本当に複雑なインフラストラクチャの問題を大規模に解決するためのインフラストラクチャを構築してきました。これは実際にごく少数の企業だけが独自に解決できる問題です。
これは私を興奮させます。なぜなら、フレームワークレベルでは多くの場合、人々がモデルプロバイダーにアグノスティックであろうとする世界で、Googleが生態系で独自に解決できる問題は何かということを私たちは多く考えているからです。
私たちはそれについて多く考えています。検索は最も簡単で標準的な例です。Googleは素晴らしい検索インフラストラクチャを構築し、多くの人々にとってインターネットの入り口を支えています。私たちはその体験を開発者が利用できるようにし、Googleだけができるユニークな方法で提供しようとしています。他にも様々な角度から取り組んでいます。
これは本当に難しい問題だと思います。繰り返しになりますが、これらはGoogleが解決するのに適している難しい問題です。
インフラストラクチャについて何度も言及されましたが、AGIへの競争で決定的な要因になると思いますか？ハードウェアインフラ、エネルギープラントの設置など、インフラを制する者が勝者となるのでしょうか？それとも、ある企業が圧倒的に優れたアーキテクチャや圧倒的に優れたデータ、圧倒的に優れた人材を持つことになると思いますか？
課題は、それらの点で圧倒的に優れることが本当に難しくなっているということです。人材については、シリコンバレーでの人材の流れ方を考えると、これらの企業間での人材の流れは、カリフォルニアとシリコンバレーの生態系の最も美しいことの一つです。これによって本当に素晴らしい結果が生まれます。
データについても同じことが言えると思います。データが差別化要因になるのは難しいと思います。可能性はありますが。実際、2024年の推論モデル以前を見ると、モデルのトレーニング後のパフォーマンス改善のほとんどは、よりよいデータから来ていました。データ効率の向上、より高品質なデータなどです。
なので、より良いデータからまだ多くの興味深い結果が得られる可能性があると思います。インフラストラクチャに賭けないのは難しいです。インフラストラクチャレベルで勝つことから、本当に多くのポジティブな結果が得られるからです。
これも繰り返しになりますが、これが私をGoogleのポジションに興奮させることの一つです。私たちが持っているTPUインフラストラクチャ、つまりトレーニングだけでなく推論時にもGeminiモデルを実行するために使用するチップは、私たちのタスクに本当によく適しています。
アプリケーション層からシリコンまで全てをコントロールできることは、モデルを構築しトレーニングする際に本当に強力だと思います。これから本当にクールな結果が多く生まれると思います。
実際、今日でもこれが見えます。完全にではありませんが、Googleのこれらのインフラストラクチャの優位性のために、Geminiモデルは生態系の他のほとんどのモデルと比較して品質は本当に同等なのに、多くの場合20-30倍安価なのには本当の理由があります。これらのモデルのトレーニングとサービング費用に組み込まれたインフラストラクチャの優位性があるからです。
もしインフラストラクチャが、AIレースの勝者を決める主要な要因になると思いますか？それとも判断は難しいですか？
判断は確かに難しいです。なぜなら、当初これら全てを導いたものは何だったかを振り返ると、本当にアルゴリズムのブレークスルーでした。なのでアルゴリズムのブレークスルーに賭けたくないですし、データ効率にも賭けたくありません。
素晴らしいインフラストラクチャを持たずにインフラストラクチャレベルで勝つことは難しいと思います。でも可能だと思います。オープンソースの例は素晴らしい例です。インフラストラクチャレベルでは勝てないという制約があるため、データ効率レベルで勝とうとすることを強制されます。
多くの人々がそれを試みており、GemmaモデルやLLaMAモデルの多くのファインチューンは、データ効率レベルやデータ品質レベルで勝とうとしています。これを見るのは本当にクールです。
アルゴリズムの観点からもこれを見ることになると思います。コンピュートに数十億ドルを使う余裕がないので、人々は異なるアルゴリズムのアプローチを試さざるを得ません。
本当の答えは、勝つためにはそれら全ての組み合わせが必要だということだと思います。でも、次のTransformerを思いついて、本当のアルゴリズムの進歩によって突き抜けることも可能です。
実際、これが最も重要な結果になる可能性があります。インフラストラクチャで勝つには750億ドルの設備投資が必要だったり、砂漠のどこかにデータセンターを物理的に建設する必要があったりします。それは簡単ではありません。
アルゴリズムのブレークスルーも難しい問題ではありますが、もし得られれば、基本的に無料で、それが起こり、突然この狂ったような優位性を得ることができます。それは研究者や研究者グループによるものです。アルゴリズムの改善によってどれだけの価値が生み出せるかを考えるのは本当に興味深いです。
基本的な教訓は、物理法則自体を追い越すことはできないということですね。オープンソースが革新的なアルゴリズムを生み出しても、誰もがそれを持つことになり、結局は最高のインフラストラクチャ、最大のデータセンターを持つ者が最も活用できることになります。
TPUについて、GPUとどう違うのか簡単な言葉で説明できますか？ほとんどの人はTPUが何かも知らないと思います。難しい説明になるかもしれませんが。
良い質問ですね。これをより良く説明するビデオがたくさんあると思います。私もそれらのビデオを見る必要がありますね。
私の大まかな理解では、GPUは様々な目的のために作られた多目的なものである一方、TPUは常にAIワークロード専用に作られています。Googleは内部の問題を見て、非常に具体的な内部の問題があり、それらの問題を解決するためのインフラストラクチャをどのように構築するかを考えてきました。
ゲーミングやその他の様々な用途のために設計されているのではなく、本当にGoogleの内部問題を解決するために設計されています。それは他の人々の問題を解決するのにも本当によく機能します。なぜなら他の人々もAIの問題を持っているからです。でも実際の深いレベルではよく分かりません。ビデオを見る必要がありますね。
基本的に、AIトレーニングの行列乗算には優れていて、グラフィックスやゲーミングなどの一般化には劣るということですね。
2025年には、これは議論を呼ぶ質問かもしれませんが、人々はプログラミングを学ぶべきだと思いますか？
私の直感的な反応は、これは全く議論の余地のない質問だと思います。深く考えていない多くの人々が議論の余地があると考えているだけです。
まだプログラミングを学ぶべきです。これには2つの次元があると思います。一つは、プログラミングは世界を見る方法であり、問題を解決する方法を学ぶことです。基本的に、非常に厄介な難しい問題を解決することを学ぶということです。
実際、クリエイティブな幅を持ちながら、問題解決が強化フィードバックループとなる他の職業はほとんどありません。どれだけ優れていても、常に問題を解決し、バグを修正することになります。
これは、特にAIの世界で、人生で成功する可能性を持つ一般的なフレームワークだと思います。第二に、開発者やプログラミングを知っている人々は、その考え方に基づいて、AIをツールとして本当によく使用できるようになります。
未来は、ソフトウェアエンジニアのような多くの人々がAIを使って、本当にクールな製品やビジネスなどを構築できるようになると思います。はい、参入障壁は下がっており、歴史的にプログラマーのように見えない多くの人々がAIで構築することになるでしょう。
でも、常にもう少し深いレベルまで掘り下げて、フードの下を見る必要がある時があります。フードの下を見て何が起こっているのかを理解できる人々は、その文脈で不釣り合いに成功する準備ができていると思います。
もし「プログラミングを学ぶ」という定義が変わったらどうでしょうか？構文を覚えることではなく、あなたが説明したような問題解決や抽象的に考える能力に重点が置かれるようになるかもしれません。
平均的な人に「プログラミングを学べ」と言うと、彼らは構文、つまりコードの行、色、変数、それらすべてを理解することを考えます。でもあなたの言葉から理解すると、それは重要ではなく、考え方がより重要になるということですね。
はい、その通りです。実際、今日プログラミングができる人々にとって多くの並行例があります。私たちは皆、x86アセンブリ言語でプログラミングしているわけではありません。実際に何が起こっているかの上に抽象化のレベルがあります。
フードの下に入ってアセンブリやC、C++などで作業を行う開発者もいますが、抽象化レベルが上がるにつれて、開発者の数は指数関数的に増えています。今日、C++を使用している人々よりも、PythonやJavaScriptを使用している開発者の方がはるかに多いです。
それからCを使用している人々、そしてアセンブリを使用している人々という具合です。同じように見えると想像できます。最上位レベルでは人々は英語を使用し、英語が他の全ての上の究極の抽象化レベルになりますが、原則的に他のレベルの人々もまだいます。
C++コードを書く人々もいれば、Cコードを書く人々もいれば、Pythonを書く人々もいます。なのでソフトウェアエンジニアは存在し続けると思います。それらの人々はAIによって支援され、助けられることになります。
そして歴史的にはソフトウェアエンジニアでなければならなかった、最上位レベルにいる全く新しいクラスのAIビルダーが登場します。実際に、より多く構築するにつれて、それらの低いレベルを探索したくなる本当の具体的な理由がたくさんあります。
ハードウェアとソフトウェアの組み合わせがなければ不可能な本当にクールなことがたくさんあり、そのレベルの深さまで行かなければ不可能な本当に素晴らしい製品体験がたくさんあると想像できます。
はい、これがどのように展開されるのを見るのは興味深いと思います。でも特に今日、もし私が大学生で、大学を始めるところなら、コンピュータサイエンスを学ぶでしょう。人類の歴史の中で、コンピュータサイエンスを学ぶのに今以上に良い時期はありません。
今では全てのAIツールの恩恵を受けることができます。C++のポインターがどのように動作するのかを理解しようと深夜まで座っていた大学時代を振り返ると、これは恐ろしかったです。インターネット上の人々は役に立たず、助けにもなりませんでした。これらの質問や問題があって、でも今では24時間あなたの全ての愚かな質問を助け、より早く山を越えさせてくれる万能のAIがあります。
それは素晴らしいです。プログラミングを学びたい人にとって本当に素晴らしい結果です。はい、そのような理解があれば、「これは何のlintなのか」をチェックしてGoogleで検索する必要がなく、ずっと速く進めると思います。
AGI研究所の人々は理解しているのに、スタートアップの創業者が理解していないことは何ですか？
一つの誤解は、これらの研究所内のテクノロジーが外部世界が利用できるものよりも著しく進んでいると人々が思い込んでいることです。私はDeepMindとGoogleで私たちが行っていることについてしか話せませんが、私たちの戦略の本質的な部分は、新しい良いモデルが内部で利用可能になってから外部世界、特に外部の開発者コミュニティで利用可能になるまでの時間差をなくすことです。
それが理にかなう理由はたくさんあります。まず第一に、今日AIモデルで物を作るのは難しく、モデルの実際の能力を理解するのは難しいです。なので私たちは本当に一生懸命働いており、新しいモデルが準備でき、外部ユーザーに提供できるようにするために不釣り合いなほどの作業が必要です。
多くの場合、それは24時間のターンアラウンドタイムになることがあります。「このモデルが利用可能になり、リリースに必要な全てのテストを通過しました。これを外に出しましょう」というような感じです。それは信じられないほど速く起こります。
そのコストがあります。「実験的なGモデルをたくさん出しているので、時々混乱するし、モデルについてもっと知りたい」というフィードバックを常に受けます。これは私たちがそのギャップをなくそうとする代償です。
私たちは常に素晴らしい新しいモデルを持っているわけではありません。素晴らしい新しいモデルがあり、開発者にとって素晴らしいものになると思えば、できるだけ早く外に出して、人々が私たちと一緒にフロンティアにいられるようにします。
これは戦略の一部であり、私たちは自分たちのプレイブックを実行することに非常に焦点を当てています。生態系にはとても多くの騒動があるので、その事実に根ざしていることが重要で、開発者が素晴らしいものを作れるようにし、はい、フィードバックは聞いています。
実験的なモデルの異なる奇妙な名前で、より複雑で迷惑にならないようにもっと努力しますが、本質は開発者に私たちと一緒にフロンティアにいてほしいということです。
つまり、人々はAGI研究所が大量の新技術を蓄えていると思うべきではなく、むしろ彼らは持っているものをできるだけ早く一般に公開したいと考えているということですね。
はい、私自身のことしか話せません。他の人々は異なるプレイブックを実行しているかもしれません。分かりません。でも私たちにとって、開発者が最新のモデルを手に入れることは本当に重要です。
最後の質問は少し利己的ですが、あなたは製品に長けているので、AIの生産性アプリ、つまりAIタスク管理に焦点を当てたスタートアップを運営しているとしたら、どうしますか？AIエージェントをどのように組み込み、どのような機能を追加することを考え、どのようにスケールさせますか？
エージェント製品から常に欲しかったもの、そして歴史的に実際には行っていないと見てきたものは、AI製品の主要な問題は、基本的に全ての作業がユーザーにあるということです。
私がこれに何か有用なことをしてほしい場合、正しいコンテキストを全て取得し、そのコンテキストをモデルとアプリケーションに正しく入れなければなりません。そして、その全ての作業を行うまで、価値を感じることができません。
これは本当に難しいユーザーの期待の問題だと思います。なぜ私はあなたの製品に投資すべきなのか、なぜオンボーディングと全てのコンテキストを持ち込むのに必要な人間の時間に投資すべきなのか。それは、たくさんのAI製品を試して失敗した経験のある人にとって、主要な制限の一つになっていると思います。
私は単に無分別に全てのメールを新しいAIアプリにダンプしたくありません。なぜならこれを以前に試して、本当にあまり役に立たなかったからです。このものが有用である理由を理解しようとすることに非常に意図的です。
ここには本当に難しい課題があると思います。ユーザーに全ての作業をさせる前に、問題を解決したいのです。多くのクールな製品体験を構築できると思います。例えば、アカウントを作らずに、ただメールを入れるだけでどれだけの価値をユーザーに与えられるでしょうか？
もし私のメールを提供したら、オンライン上で私がやってきたことを調べて、「ところで、こんなことが見えました」と言えないでしょうか？ユーザーが全ての作業を前もってしなくても、AIツールがユーザーのために作業することを示すにはどうすればよいでしょうか？
これは再び期待管理の状況だと思います。AIツールを持つ者として、あなたの製品が誰かに価値を生み出すことを示したいのです。理想的には、ユーザーが全ての作業を前もってしなくても、それを示すことができます。
生態系の全ての製品を見ると、基本的に全ての人が「ユーザーよ、来て全ての作業をしてください。そうすれば最後に価値を提供します」と言っています。それは難しいです。
これの最高の例は実際には、テキストからアプリケーション開発を行う製品群です。Vercel.aiやLovables、V0などです。これらの製品のユーザーとして、なぜこれらが上手くいっているかというと、これを逆転させているからです。
ユーザーとして私が必要なのはアイデアだけです。私は価値を見て、「これは理にかなう、このものは全てのコードを書いており、私のために作業をしており、今やファイルアーキテクチャの7つのファイルの深さまで進んで私のために物を作っている」と分かります。
次に、私のために作業が行われているのを見たので、今度はこれに投資したくなります。他の多くの製品は、これの完全な反対です。ユーザーの前に価値を置き、ユーザーのために作業をすればするほど、より良い結果になると思います。
とても参考になりました。15個のメモを取りました。時間を取ってくれてありがとう、ローガン。アドバイスに感謝します。希望としては、人々がこれを価値あるものと感じてくれることです。
はい、素晴らしかったです、デビッド。呼んでくれてありがとう。