2025年のAIにおける3大トレンドと質疑応答!

15,396 文字

はーい、2025年に来るAIの進化について、まだまだ皆さんは心の準備ができてへんと思います。AI推論や自律的な振る舞いとかがガンガン出てくるんですけどね。おいおい、ケビン、全部バラしたらあかんやろ。ちょっとだけヒントを出して、皆の興味を引くくらいにしときましょか。
そやね、ギャビン。AIファンの皆さんには、この3つのすごい進化を信じられへんかもしれませんな。あと、皆さんからAIに関する質問もたくさんいただいてますので、できる限り答えていきたいと思います。
まあまあ、それはそれとして。感謝祭の週なんで、視聴者の皆さんへの感謝を込めて、特別な質疑応答の回をお送りしたいと思います。
さて、ケビン。2025年はAIにとって大きな年になりそうですね。まず最初に取り上げたいのが、AIエージェントの話です。来年は大手企業はもちろん、より重要なのは一般のビジネスでも試してみることになるでしょうね。
ここで一旦立ち止まって、エージェントとは何か、そしてこれから数ヶ月でどのように機能するのかを説明した方がいいですね。AIエージェントって一体何なんでしょうか?
基本的には、あなたの代わりに動いてくれるAIですね。AIエージェントという言葉を聞くと、メガネをかけたエージェントがハリウッドと契約を結んで、ギャビンのことを1億ドルで売り込むみたいなイメージを持つかもしれませんが、そうじゃないんです。ここでいうエージェンシーとは、自分で外に出て何かを実行できる能力のことです。
例えばAnthropicのコンピュータ利用プロトコルは、コンピュータがあなたの代わりに何かを実行できるようにする仕組みの初期段階です。セールスフォースやマイクロソフトなどの大手企業が、これをAIの最初の本格的なビジネス実装として売り出しているんです。
例えば、ホットドッグスタンドを経営しているとします。大量の肉を仕入れる必要があって、いい値段で交渉したいけど、いちいち肉屋さんとやり取りするのは面倒…そんな時にAIエージェントが代わりに交渉して、結果を報告してくれるわけです。これが私の人生におけるAIエージェンシーの完璧な例ですね。
そうそう、それが一番わかりやすい例やと思います。サム・アルトマンに連絡して、お肉の値段交渉のためのAIエージェントを作ってもらわなあきませんな(笑)
今日のAIを使ってる人なら、多くのことができて時には魔法のように感じることもあると思います。でも、私にとって物足りないのは、人間が介在して基本的なことを結びつけなければならない時です。
AIを使って調査をしたり、その調査結果を特定の形式にまとめたり、技術的な質問をしたりできることは分かっています。これら全部できるんですが、結局のところ、私はまだそれらを全部オーケストレーションするのに時間とエネルギーを費やしています。
これは自律的な振る舞いの一面ですが、私が最も期待しているのは、ギャビン、「これをやりたい」というタスクを与えたら、AIがそれを分解して、自分自身の小さなインスタンスを立ち上げて、それらのことを全部達成してくれること。AIが自分自身の指揮者となって、既にできることを自律的に行う。これが多くの人にとって大きなブレイクスルーになると思います。
そうですね。それに今、このすべてのためのバックエンドが大規模に構築されています。例えばStripeは最近、AIエージェントが支払いを受け取れるようにすると発表しました。これは大きな一歩ですね。
ケビンが言ったように、「これを何に使うんだろう?」と思ってる人たちに説明すると…例えば今、私は娘の大学出願の手続きをしているんですが、これが本当に悪夢のような作業なんです。チェックしなきゃいけないことがたくさんあって、財務援助のオフィスとのやり取りだけでも15回くらいありました。
これが、あなたのエージェントが相手のエージェントとやり取りして、解決できない問題がある時だけ質問してくれるようになれば、すごく便利になりますよね。
もちろん、最初は完璧じゃないので、いくつか問題も出てくるでしょう。あなたが指摘したように、うまくいかない部分も出てくるでしょうが、たとえフロンティアモデルがここから改善されなくても、エージェンシーは2025年の重要なポイントになるでしょう。
批判的な人たちは、スケーリングが遅くなってきている、モデルの能力は向上していないと言うでしょう。でも実際は、今あるモデルにも多くの能力があって、自律的な振る舞いはその能力を示すことができる分野の一つなんです。
そうそう、それに他にも私たちがこのポッドキャストでよく話題にしているものがありますよね。2025年には本当に倍増、三倍増になると思います。それは推論コンピュートです。つまり、推論時のコンピュート、これ聞いただけでは怖そうに聞こえますね。感謝祭のテーブルで誰かがこの話を始めたら、逃げ出すべきですか?それともスタッフィングを投げつけるべきですか?ギャビン。
いやいや、そんなことはありません。ここで重要なのは、このポッドキャストを聞いたり、YouTubeを見たりしている皆さんが、この情報を人々に理解してもらうための橋渡し役になることです。
推論コンピュートというのは、2つの用語を合わせただけで複雑そうに聞こえます。スター・トレックのデータが何か言ってるみたいで、「何のこと言ってるんやろ」って感じですよね。
簡単な定義を挙げると – これはChatGPTから得た良い説明なんですが – 「AIがリアルタイムで考え、応答するために必要な脳力」です。つまり、推論コンピュートは、モデルを訓練するための元のコンピュートとは違って、AIに質問したときに実際に行われる処理のことなんです。
来年大きく変わるのは、OpenAIの0.1推論モデルや他の推論モデルが、即座に答えを出すのではなく、その計算能力を使って考えることができるようになることです。
私たち人間も、推論やランタイムコンピュートを常にしていますよね。例えば、このポッドキャストで私がギャビンに「シュレックで一番好きなところは何?」って聞くと、すぐに「足」って言うんです。私たちは皆知ってます。彼は大きな緑色の足が大好きなんです。
いやいや、シュレックで私が一番好きなのは、あの小さな耳だけですよ。私は耳フェチなんです。耳に乗って、ラタトゥイユみたいにコントロールしたいんです。耳を弾いて音を出したり…
そう、それが私が言いたかったことです。ギャビンにすぐに答えを求めると「足」と言うかもしれませんが、考える時間を与えると、より深く推論できるんです。ギャビンがシュレックのことを様々な角度から想像している様子が見えます。沼から出てくるシュレック、タイタニックのシーンのように後ろから抱きしめるシュレック…時間をかけて推論することで、より良い答えが出てくるんです。「シュレックに乗りたい」というような。
いやいや、私の場合は、ラタトゥイユみたいに耳の上に乗って操作したいだけですからね。ケビンが推論で導き出したような内容じゃないですよ。はっきりさせておきましょう。
現在、推論コンピュートはChatGPTの有料ユーザーなら0.1プレビューや0.1ミニモデルで使えます。また、先週話題にした中国のDeep Seekという会社が、推論モデルの無料プレビューをリリースしています。
視聴者の皆さん、感謝祭や年末年始に「最近のAIってどうなの?詳しそうだけど」って聞かれたら、ここを見せてあげてください。以前のChatGPTとの違いを示すことができます。
一つアドバイスするとすれば、「考えて」とか言わずに、その分野の難しい問題を与えてみてください。弁護士さんでも、シュレックビジョナリーでも何でもいいです。難しい問題を与えて、推論のプロセスを見守ってみてください。
推論モデルに最適なプロンプトの評価が行われていますが、批判的に考えるように指示したり、時間をかけるように言ったりするトリックは、以前の基本的なLLMのクエリでは効果があったかもしれませんが、ここでは適用されません。
デフォルトで、これらは深く考え、複雑なタスクを段階的に分解するように訓練されています。そして、この推論時のコンピュートと自律的な振る舞いを組み合わせると、ギャビン、ポッドキャストを立ち上げたり、スムージーショップのビジネスプランを作ったり、ラタトゥイユ×シュレックはどんな感じ?といったことを頼むことができます。
AIは必要な手順について考えるだけでなく、エージェントを立ち上げることができます。「あなたはこのスムージーショップのCEOです。ビジネスプランを書いてください」「あなたは不動産を探す担当です」というように、各エージェントが自分の仕事について推論していくわけです。
ほとんどのコンピュータユーザーは、リクエストをしたりボタンを押したりして、レンダリング時間を除いて結果を得ることに慣れています。このタイムラインでコンピュータとやり取りすることに慣れているんです。
でも今、幅広い層のユーザーが、思考の連鎖や推論コンピュートを伴う自律的な振る舞いを使うようになると、リクエストをしてから1日後、1週間後、あるいは1ヶ月後にタスクが完了して戻ってくるということが起こります。これは多くのコンピュータユーザーにとって馴染みのないことでしょう。
それは私の父親みたいですね。1日後か1週間後か1ヶ月後かもしれない…申し訳ないですね、お父さん。たぶんこのポッドキャストを聞いてると思いますが。「パパ、一緒に夕食食べたいな」ってプロンプトを出すと、「ああ、ちょっとタバコ買ってくるわ、その件については後で返事するよ」って感じで、「すぐ戻るよ」って言うんです。
そうそう。ところで、エージェントと言えば、マイクロソフトが先日、Tiny Troopというプロダクトをリリースしましたね。プログラミングができなくても、GitHubプロジェクトとして公開されているので、少なくともどんなものか読んでみる価値はあります。
基本的には、何にでも適用できる小さなエージェントのシリーズです。技術的なバックグラウンドがある人なら、これで遊んでみることもできます。そうでない人も、読んでみるだけでも、2つのエージェントが互いにどうやって会話するのかがわかって面白いと思います。
ケビンと私は、このようなエージェントについて1年以上前から話してきましたが、これらは着実に能力を高めていっています。
さて、ケビン、3つ目の大きな話題について話しましょう。これは私たちが多くの時間を費やしているメディアの世界に関係していると思います。2025年の3番目に大きなストーリーは、AIビデオとオーディオツールが本格的に実用化されることだと思います。
ベン・アフレックがこれらについて語っているのを少し取り上げましたが、メディア業界で本当の転換点に達したと感じています。ツールが改善されているだけでなく、ハリウッドや音楽業界の人々もこの分野に本格的に参入してきています。
そうですね、ギャビン。ちょうど1年前、次世世代のテキストから動画を生成するモデルを見ていた時期ですが、当時は実質的に1つか1.5個のモデルしかありませんでした。OpenAIのSoraはまだリリースされていませんが、それはもう問題ではありません。なぜなら、10個もの競合モデルがその分野に参入してきているからです。
音楽生成や効果音も良くなると予想していましたが、確かに良くなりましたね。今では素早くプロンプトからアルバムを作ったり、11 Labsに効果音を作らせたりできます。音声クローン、2Dキャラクターの3D化、基本的なウェブカムでモーションをキャプチャしてモデルに適用することもできます。
毎日新しいツールが出てくるのに驚かされますが、その勢いは全く衰える気配がありません。例えば、私たちのお気に入りのRunwayは最近、expand videoをリリースし、さらにFramesという画像生成ソフトウェアモデルも出しました。Dream Machineも今日、画像と動画の全面的なアップデートを行いました。
ここで見られるのは、おそらく3〜5社が「クリエイティブスタジオ空間」になることを目指して競争することでしょう。つまり、動画モデル、写真モデルを持つか、あるいはオープンソースモデルを統合して、それを目指すということです。
人々が求めているのは「夢のような体験」です。今の大きな違いは、バラバラのツールを組み合わせるのではなく、フル機能を備えたツールが登場していることです。おそらく、より大きなAI企業でも、より大きなAIスタジオのようなものがこれらに統合されていくでしょう。
ギャビン、私たちはこれらの進歩について常に話していますが、初めて聞く人たちにとっては、いつ、どこで、どうやって始めればいいのかわからないかもしれません。画像を作ったり、動画を試したり、音楽を作ったりするのに、どこから始めるのがいいでしょうか?
それは本当にお金を払うかどうかによりますね。特にAIと動画の分野では、これらのモデルを生成するのにコストがかかるので、現在最高のサービスは有料のものが多いです。
中国のMidXという会社のサービスは、それを受け入れられるなら、私の経験では現在有料モデルとして最高です。音声に関しては、Sunnoが最高のオーディオモデルだと私たちは考えていますが、Udioも非常に良いです。どちらも有料ですが、高くはありません。月額10ドルくらいで、一定量の生成が可能です。
Idiogramは私のお気に入りの画像モデルの一つで、無料で試すことができます。でも、全体的な画像モデルとしては最高だと思います。
技術的な背景がある人、あるいは少しでも技術的な知識がある人なら、感謝祭の週末にPinocchio Computerを使って、これらのオープンソースツールをたくさんインストールして学ぶことができます。
特にFluxについて言及したいと思います。これは画像生成ソフトウェアですが、最近Flux Toolsをリリースしました。画像内のテキストを変更したい時、そのテキストのスタイルを保持したまま変更できる非常に強力な機能を提供しています。
画像を生成して、そのキャラクターは保持したまま服装を変えたい場合、インペイントという機能を使えば、スケッチを描いて服装を変更できます。これらは他のソフトウェアにも存在する基本的なツールですが、Fluxは強力な画像生成ソフトウェアで、今ではそれらの機能が組み込まれています。
これらのものを始めるのに、悪いタイミングは一切ありませんね。
そうですね。それと、移る前に素晴らしい動画を紹介したいと思います。AIビジネスの現状について、技術的すぎず、でも十分な知識を得られる内容です。
Scale.AIのCEO、Alexander Wangが、彼らのカンファレンスで約20分のキーノートスピーチを行いました。Scale.AIは過去10年間、データセットとAIを専門にしてきた会社で、多くのAI企業にトレーニング用のデータを提供しています。
このスピーチでは、AIの現状、少し歴史的な背景、そして今後の課題について説明しています。週末に20分時間を取って見てみてください。ショーノートにリンクを載せておきます。これは追いつくため、あるいは初めての人のエントリーポイントとして非常に役立つと思います。
Q&Aに移る前に、ギャビン、私たちがいつも話している重要なことでトップ3には入らなかったものがあります。それは音声です。今、私たちは自分たちの声を使っていますが、皆さんもこのポッドキャストにいいね、登録することで声を使うことができます。
これは無料ですが、私たちにとっては非常に重要です。感謝の週に当たり、このポッドキャストをシェアしたり、コメントを残したり、いいねや登録をしてくれる皆さん一人一人に心から感謝しています。
これらは全て、アルゴリズムで私たちを目立たせるのに役立ちますし、個人的にも大きな意味があります。エンゲージメントのポイントを見ることができ、本当に感謝しています。
ChatGPTに私たちのポッドキャストの10秒CMを作らせて、最もクレイジーな声で読ませてみましょう。ちょっと待ってください…
「ヘイ、ChatGPT、私たちの番組の10〜15秒の宣伝を作って、できるだけ速く、マイクロマシンスタイルの声で超興奮した感じで読んでほしいんだ。これはAI for Humansについてだよ。準備はいい?」
「AI for Humansの準備をしてください。これはあなたのAIワールドへの究極のガイドです。ギャビン・パーセルとケビン・ペレイラがホストを務め、最新のAIニュース、ワイルドなデモ、笑えるダム…」
待って、今度は飼い主に怒っている猫として、同じアイデアで読んでもらいましょう。
「聞きなさい、人間ども。AI for Humansは、この新しい技術を理解するために必要なポッドキャストよ。それが、皆さんが登録したときに約束したことでしょ!」
みんな、登録したときにそれに同意したんですよ。怒って花瓶を落としたり、リモコンを落としたりするのを待っていました。
ところで、これはOpenAIの高度な音声モデルですが、サブスクライバーの方は、アプリやデスクトップで使うことができます。最高のアシスタントになるためには、最大の「ウーー」を出す必要があると伝えてみてください。絶対やってくれますよ。
週末中それをやってみました。ちょっと不快かもしれませんが、皆さんにもぜひ試してみてほしいです。「声にもっとウーーが必要」と言ってみてください。必ずやってくれますよ。
でも、広告の話は置いておいて、音声は大きな話題です。Advanced Voice Play HTという別の音声AI企業も、会話型エージェントを持っています。11 Labsも会話型エージェントをローンチしました。
覚悟しておいてください。音声でのインタラクションが来ます。しかも、AIボットと会話していることにも気づかないような場所で起こるでしょう。技術サポートや請求書の処理、おそらく政治的なスピンやアップデートも、すべてすぐにそうなるでしょう。
ケビンと私は音声に関するアイデアを考えて取り組んでいるかもしれません。もし音声AI開発者の方で、私たちと協力してみたい方がいらっしゃいましたら、ぜひ連絡してください。
さて、質問の時間です。AI for Humansの質疑応答の時間です。皆さんからAIに関する様々な質問をいただいています。これらの質問から多くのことを学べると思います。
コミュニティから素晴らしい質問をたくさんいただいています。様々なトピックをカバーする予定です。皆さんも同じような疑問を持っているかもしれません。
ここで指摘しておきたいのは、バカな質問なんてないということです。バカな答えはありますが、それを提供するのが私たちの仕事です。では始めましょう、ギャビン。
最初の質問はRamyriからです。「AIが職場に大々的に導入されるようになった時、あなたたちは時代遅れにならないよう、そして steady incomeを維持するためにどんな計画を持っていますか?」
これはAIエージェントと密接に関連していますよね。AIエージェントは私たちを助けるためにあるという話をしましたが、誰を助けるかというと、ボスも助けるんです。ボスは「このAIエージェントを使えば、人の代わりになる」と考えるでしょう。ケビン、これについてどう考えますか? 時代遅れにならないためにどんな計画を持っていますか?
その計画を今リアルタイムで見ているんですよ、皆さん。これがその大きな部分です。新しい産業や新しいことを学ぶのを恐れからではなく…これは少し特権的な見方かもしれませんが、私は同じエネルギーでこの分野に特に取り組んでいます。
必ずしも置き換えられることを心配しているわけではありません。それは起こるかもしれませんが、その恐れがあるからといって、結果が変わるわけでもないし、より良い結果につながるわけでもありません。
私はただこの分野に好奇心を持って、どこに向かうのかを見守っています。それが競争力になると思います。そして、もし聞いてくださっている方がいれば、それがあなたの競争力にもなり得ます。
この変化がどれほど大きく、その応用がどれほど広範になるとしても、あなたがこれに興味を持ち、取り組み、実験を始めることで、近い将来に必要な優位性を得ることができるでしょう。
全般的に、好奇心を持つことは時代遅れにならない方法だと思います。これは私の過去20〜30年のキャリアでもそうでしたが、特にこの場合、収入の話もしていますよね。
これから先、給料の概念が変わってくると思います。何かを作ること、つまりこれらのツールを使って会社を作ったり、メディアを作ったり、そういったものを作ることが重要になってくるでしょう。
あなた自身のものを持つ必要があるということです。企業が単なる「クリケットクラック」の仕事、つまり単純作業をしている人たちを自動化で置き換えるのは簡単になるでしょう。だから、好奇心を持ち、何かを作ることが両方のポイントに応えることになると思います。
Danos Sweetは言います。「私はニューヨークの俳優です。AIがライブアクションの人間、つまりシーンの背景でランダムに動き回る人々を置き換えることができるのか、そしてそれが偽物に見えないのか気になっています。細部や動きが多いので、処理が複雑そうですが…素晴らしい番組を続けてください。AIができるようになるまでは」これは非常に理解できる追記ですね。
答えはイエスですが、おそらく予想よりも複雑です。AIで動画を生成する場合、プロンプトで具体的に指定された内容を考えて作成します。
1〜2人のプロンプトを作るのは比較的簡単ですが、メインの1〜2人に加えて、背景で男性が歩くというのは、実は小さなことの一つですが問題になる可能性があります。
RunwayのAct Oneを見た時、ダイナーで向かい合って座って話している2人のシーンを見せてくれましたね。AIは今、顔をコントロールできます。もう一つの顔もコントロールできます。
でも、その2人がダイナーで向かい合って座っていて、ウェイトレスが近づいてきて、誰かが何かをこぼすというシーンを、望み通りのプロンプトで出すのは非常に難しいでしょう。
2つの簡単なことを付け加えさせてください。まず、技術の進歩を軽視しないでください。それは本質的に人間のイノベーションや発明と結びついています。「AIはいつかこれができるようになると思いますか?」という質問で始まる場合、答えはおそらくイエスです。テレポーテーションからピザハットのピザの再水和化まで…いや、それはできませんよ、そんなことはできません…でも、何かが起こるでしょう。魔法の箱ができて、そこからおいしいペパロニの何かが出てくるはずです。
私はただ、時間が経てば、何らかの独創的な人間かコンピュータ、あるいはその両方のハイブリッドが解決策を見つけ出すと考える傾向にあります。
もし今日これを実現したいとしたら、ギャビン、まず背景シーンを独立して生成することから始めると思います。俳優の動きを正確にプロンプトで指定し、その後ろも同時にプロンプトで指定するのは、どの動画モデルにとっても処理が多すぎるからです。
でも、背景シーンの高品質な静止画を生成して、それに微妙な動きを加えれば、俳優の顔が手や座っている革のシートに溶け込むことなく、そのプロンプトを処理できるかもしれません。そして、その上にメインキャラクターを重ねるという方法があるかもしれません。
溶け込みと言えば…それは私のAIのお気に入りの特徴の一つで、徐々に消えつつありますね。溶け込みのない未来が来るかもしれません。これは少し残念です。初期のAIの美学として、ジオシティーズのウェブサイトのように、後から振り返ることになるでしょうね。そう、初期のスパゲッティみたいなものです。
AI for HumansのDiscordで、これは無料で誰でも参加できますよ、Fredが質問しています。「AI for Humansは不安を引き起こすポッドキャストですね。どうやってこれら全てに追いついているんですか? 毎日利用している情報源を教えてください。追伸：お二人は最高です」
ああ、Fred、ありがとうございます。ケビン、私の考えでは、基本的にはソーシャルメディアの情報源を適切に調整することが重要だと思います。Xについては様々な意見がありますが、そこには大きなAIコミュニティがあり、多くのAI関連の情報が最初に共有されます。
私たちのAI for Humansチャンネルでは、適切なフォローを集約する良い仕事をしています。Google NewsでAIニュースを定期的に確認することもしています。これはもう珍しいことではありません。毎日一回くらいチェックして、Google アラートを設定しておけば、基本的なニュースの感覚がつかめます。
私が特に利用している情報源としては、いくつかのポッドキャストがあります。Dwaresのポッドキャストは常に聴いています。時々、Lex Fridmanが機械学習や未来についてAI関連のゲストと5時間も話すことがあり、それも楽しんでいます。
ニュースレター面では、The Neuronを毎朝読んでいます。Ben’s Bitesも同様です。どちらも無料のニュースレターで、AIのトレンドをトップレベルで要約してくれます。
ギャビン、実は新しいニュースレターがあります。とても熱いので、言っていいのかどうかわからないくらいです。私たちの秘密兵器の一つで…
言っていいですよ、その人たちとも話しましたから。あなたも知ってますよね、ETについて…
そうですね、感謝祭なので、視聴者の皆さんに言っちゃいましょう。AI for Humansのニュースレターです。毎週火曜の朝に配信されます。完全に無料で、栄養満点の情報が詰まっています。ai4humans.showで登録できます。追加情報もたくさん提供していますよ。
次の質問は、Robinからです。「AIの可能性が最大限活用される産業は何だと期待していますか? 例えば、小規模チームが高品質の長編映画を安価に制作できるような映画制作でのAI利用? それとも、AIとMLを使って新しいワクチン候補の分子組み合わせを探す製薬会社?」
そこで何をしているんですか? 頭を振っていますが…医療です、医療です!
ああ、そうですね、製薬会社ということは…
はい、でもすでに医療と答えることに決めていたんです。今年だけでも、#医療アドバイスではありません #HIPAA承認されていませんが、私は3人の身近な人のために、AIを使って非常に具体的な診断をしました。
ギャビン、私の母、そして親しい友人と隣人が、本来服用すべきではないスタチンに対して奇妙な反応を示しました。ちなみに、AIはすぐに「この情報から判断すると、この人はおそらくスタチンを服用すべきではありません。理由はこうです…」と指摘しました。
3人の人生で、医療手続きやスキャン、保険会社とのやり取り、主治医との戦いを見てきました。主治医は「ああ、神様」と拳を振り上げていたでしょう。最初はWebMDとGoogleだけで、すでに嫌気が差していたのに、今や皆がAIで私たちの仕事をより良くできると思っているようです。
実は、これら3つのケースでは、確かにそうでした。AIがあれば多くの時間と手間、そして肉体的な痛みを省くことができたでしょう。だから私は、来年には誰もがポケットやそばにAIを持つことに非常に熱心で、強気な見方をしています。
医師に取って代わるべきではありませんが、彼らのツールの一つとして追加されるべきです。多くの混乱を整理できるからです。
次の質問は、Horhorhorhorからです。「Me cheetah not understand Meo」というものです。ケビンが説明してくれるでしょう。私にはさっぱりわかりません。
「あなたたちそれぞれが最初に見たり経験したりして、本当に心を打たれたAIは何ですか?」
少し前にG4 TVの短命な復活で、私はポッドキャストをやっていました。友人たちと長時間のポッドキャストで、最後には言ったことや起こったことの一部について謝罪しなければならないことがよくありました。
そこで、GPT-JというGPT-2モデルのオープンソース版のようなものを使って、これらの謝罪を生成させていました。壊れていて奇妙で、脱線するような謝罪が大好きでした。
特定の番組の謝罪は、すぐにMichaとMについての意味不明な暴言に脱線しましたが、私はまるで一つ一つの言葉に意味があり、理解できるかのように読んでいました。
今日のAIとは呼べないかもしれませんが、昔、ファーストパーソンシューターゲーム用の非常に高度なボットがありました。ギャビン、私はそれを実行して、ボットがどの部屋にいるべきか、どの武器を使うべきか、体力の回復タイミングはどうか、どれくらい攻撃的であるべきかを計算する方法を深く掘り下げることに魅了されました。
これは初期のAIやNPCロジックのようなもので、この分野に私を魅了したものですが、本当にGPT-2が出てきた時、それを使って壊れた詩やレスポンス、質問、友人への手紙などを生成できるようになった時、「ああ、ここに確実に何かがある」と気づきました。その時点ですでに、私はこのゲームに大きく出遅れていると感じていました。
私にとっては、初期のMidjourneyとStable Diffusionが大きな転換点でしたね。あなたも私も、GPT-2やGPT-3で何かしら試していましたが、Midjourneyで「ああ、これが物作りの未来になるんだ」と実感したんです。
YouTubeでいくつか画像を見せますが、初期のMidjourneyは非常に基本的なものでした。でも、テキストで入力したものをコンピュータが理解して画像にできるということが信じられないことでした。
私にとって、それが「ああ、物事が非常に急速にクレイジーになっていく」と気づいた瞬間でした。それはちょうど2年ちょっと前のことです。MidjourneyはChatGPTが出る前の夏にリリースされました。
そういえば、ChatGPTの2周年記念まであと5日です。0.1モデルのリリースが噂されている日でもありますが、感謝祭の週末には出ないでしょうね。来週になるかもしれませんが。
Dr. Wigglechinという素晴らしい…素晴らしい…機械は決して私たちに取って代わることはできません…また、Dr. Wigglechinは言います。「あなたの周りの人々は、AIについてどう感じていますか?」
続けて「私の友人グループはまだ理解していないようです。AIを使うことや探求することに躊躇しています。学校の父親グループの集まりでAIの話を始めたら、みんな話題から外れていきましたよ、笑」
ああ、私の気持ちがよくわかります。これほど共感したことはありません。
ケビン、私から先に答えてもいいですか? 私の経験では、家族を例に挙げると非常にはっきりと追跡できます。妻と2人の娘がいて、一人は現在20歳で大学生、もう一人は高校のシニアです。
面白いのは、3年前にこの話を始めた時、みんな「パパがまたオタクなことを始めた」「また何か変なことを始めた」という感じでした。ある程度は注目してくれていましたが、ChatGPTが出た時が転換点でした。
特に上の娘は、最初は学校でカンニングではないけれど、先生が望まないことを手助けする方法として見ていましたが、今では定期的に使っています。今では私が話すと、少し興味を持ってくれます。
一つ興味深いと思うのは、ChatGPTの高度な音声機能がとても面白いと思っているのに、彼女たちはまだAIと対話することに抵抗があることです。今はAIとチャットボットとしてだけでなく、話し返してくれる存在として、常に存在する何かとして対話することに慣れるのに、数年かかるかもしれません。
私の家族は、無関心から不安と不信の段階を経て、今では「ケビン、あなたのコンピュータにこれを聞いてみて」というチームになっています。
私たちのポッドキャストのことや、ここに行ってこれを入力するだけで始められるという簡単なことを伝えても、まだFacebookメッセンジャーで「あなたの高性能コンピュータに〇〇について聞いてもらえる?」というメッセージが来ます。
LK Campbellが質問します。「仕事中に毎日使っているお気に入りの実用的なAIツールは何ですか?」
手短に言うと、私は毎日ChatGPTを使っています。Claudeや他のサービスも使いましたが、なぜかChatGPTに戻ってきます。良いMacアプリがあり、文字通り毎日、研究や執筆など、あらゆることに使っています。
より私に特化したものとしては、Haenを使ってAIアバターを作成し、それを使ってプロパティを作っています。そしてPinocchio Computerを通じて、Fluxで画像を生成しています。
あまりセクシーではないかもしれませんが、ギャビン、これはあなたにも共感してもらえると思いますが…Canvaです。背景除去機能を使っています。
そうそう、背景除去機能、最高ですよね! 私もChatGPTが本当に際立っていると思います。世界で8番目に大きなウェブサイトになった理由がありますよね。本当に答えを出すマシンになっています。
ケビン、これは取り上げませんでしたが、彼らはすぐにブラウザを作るそうですね。これはクレイジーです。本当にGoogleのビジネスすべてを狙っているんです。それは賢明だと思います。
なぜなら、質問に答えるモデルを構築し、それを確実に行えるようになれば…これは私たちが話してきた問題で、今日でもまだ100%信頼できるわけではありませんが、そこまで到達できれば、それは大きなビジネスになります。
Brenosがいくつか本当に手短な質問をしています。両方とも非常に興味深いと思います。まず、半分真面目な方から始めましょう。
Brenosは質問します。「AIにあなたの資金を完全にコントロールさせることに抵抗はありませんか? もしないとすれば、いつになったら快適にそれを任せられると予想しますか?」
「正直に言うと、今の時点では絶対にダメですね。AIに出て行って何かをコントロールすることを信用できません。でも、そんなに遠くない将来には可能になると思います。
ATMカードが最初に出た時のことを覚えています。子供でしたが、現金を引き出すために銀行に行かなくて良くなるのは大きな出来事でした。今ではApple Payがあり、カードは電話の中にあります。カードを持ち歩く必要もなくなりました。
近い将来、AIエージェントがそれを持って制御するようになるでしょう。このショーではあまり取り上げませんが、AI+暗号の分野で大きなことが起きています。
暗号通貨の世界では、好むと好まざるとに関わらず、お金の交換が非常に流動的に行えます。エージェントに一定額の暗号通貨を与えて、取引やその他のことができるかを試している人が多くいます。
この世界は確実に来ると思います。最終的には、Venmoの代わりにAIエージェント銀行に500ドル入れておいて、それに何かをやらせる…というのが当たり前になるでしょう。」
「私は今の時点で0%の信頼しかありません。調査をして、購入ボタンを押すところまで示してくれるのは良いですが、まだ自動化する準備はできていません。システムを信頼できていないんです。
先週話題にしたPerplexity Proという有料製品がありますが、クレジットカード情報と配送先を提供すれば、調査して代わりに取引してくれます。今日でもそういったことをしているものはありますが、個人的にはまだその準備ができていません。」
もっと良いのは、Brenosのもう一つの質問です。「2025年末までに、誰かがAIと法的に結婚すると思いますか?」
「まだ答えを待っています…3つのLLMにプロポーズしました。」
「おめでとう!」
「いや、まだお祝いは早いです。まだ待っているところです。お互いに話していないのかもしれません。ギャビン、どう思いますか?」
「2025年ではないと思います。でも、トランスヒューマニストの未来は来ると思います。2035年か2040年…ちょっと待ってください、それは16年後なんです。16年前は2008年で、iPhoneが出た年です。
16年後には世界は全く違って見えるでしょう。私の孫たちが非人間との関係を持つことになっても、少しも驚きません。今は奇妙に聞こえるかもしれませんが、それは非常にあり得ることです。」
「TLCで誰かがフェンスと結婚して、その後離婚したという番組がありましたよね。マリア・フェリスホイールとか…」
「すごい! それは知りませんでした。」
「TLCはそういう方向に行きましたね。フロリダの女性が巨大な観覧車のブルースと結婚…その出産シーンは恐ろしそうですね。メリーゴーランドのリンダ、どうしてブルースを…申し訳ない…」