OpenAIの深層研究が人類をAGIに一歩近づける

21,619 文字

OpenAI's Deep Research Inches Humanity Closer To AGI

OpenAI’s new Deep Research runs on o3 pushes back against DeepSeek. Is this AGI? Meanwhile, OmniHuman-1 is near perfect ...

サム・アルトマンとOpenAIは、03モデルを搭載した非常に強力な新しい研究ツール「Deep Research」で深層シークに対抗しました。しかも03モデルだけでなく、03ミニと新しいフォントも発表されています。この深さはどこまで続くのでしょうか。Deep ResearchはDeep Seekを超えられるのでしょうか。これは非常に深いところまで及びます。
こちらはAmazing AIのYouTubeチャンネル、Theoretically Mediaのティム・シモンズです。ケビンが父親の70歳の誕生日で家族と休暇中のため、今週は彼が代わりに参加してくれています。今は休暇の時期ではありませんねティム。
今回はリートの新しいエージェントAIアプリや、ByteDanceの新しい口パク深層偽造ツール「Onni Human」についても話し合います。さらにNVIDIAがレブロン・ジェームズ、コービー・ブライアント、ロナウドといった史上最高のスポーツスターの動きをロボットに学習させていることや、ガンダルフのケージマッチについても取り上げます。みなさん、これはAI for Humansです。
今回はYouTubeで最も注目されているAIチャンネルの1つ、Theoretically Mediaのティム・シモンズをお迎えできることを大変嬉しく思います。ティムはクリエイティブAIで素晴らしい活動をされています。参加していただき、ありがとうございます。
「呼んでいただき、ありがとうございます。ケビンが休暇中なので、大きな靴を履くことになりましたね」
そうですね、少なくとも彼はそう言っていますが。ティム、今週は大きなニュースがありますね。まず最大のニュースから取り上げましょう。OpenAIが新しいフォントを発表しましたが、見ましたか?
「はい、見ました。素晴らしく、息を呑むような…フォントに関しては明らかに中国をリードしていますね」
もちろん、それは大きなニュースではありません。私たちが知っている通り、本当の大きなニュースは、サム・アルトマンがDeep Seekの侵略者たち、つまりインターネットを席巻し株式市場を暴落させた中国のモデルに対して、反撃を開始したということです。サム・アルトマンは基本的に「私は狂ったようなペースで物事を出荷し始める」と言いました。
ティム、今週の大きなニュースは、私にとっては日曜の夜に、日本の人々にとっては月曜の朝に発表されたDeep Researchですが、これを試してみましたか?
「はい、実際に私のチャンネルでDeep Researchのクリエイティブな使用例について詳しく掘り下げました。今日ちょうど完成させたところです」
「それは本当に素晴らしいですね。あなたは試してみましたか?」
私自身はまだ試していませんが、Deep Researchについて深い調査をしました。そういう意味で、私もプレイできたと言えるでしょう。
みなさんのために状況を整理しましょう。Deep Researchは、ChatGPTで動作する新しいエージェントモデルで、実際にO3モデルをバックボーンとして使用しています。実際、これは一般公開されている初めてのO3モデルを使用したものです。現時点では、200ドルのOpenAI Proサブスクリプションを持っている人しかアクセスできません。これはかなり高額な入場料ですが、多くの人々がこれがいかに優れているかを語っているのを見てきました。
あなたの経験についてもっと聞きたいのですが、ケーシー・ニュートンがPlatformerで素晴らしい記事を書いていました。彼はHard Forkのホストで、私たちがいつも聞いているポッドキャストですが、AIツールに対してどちらかというと懐疑的な立場を取っていました。しかし彼は良い経験をしたようです。
私が最も驚いたのは、タイラー・コーエンの話を聞いたことです。タイラー・コーエンをご存じない方のために説明すると、彼は有名な経済学者で、素晴らしい本をいくつか書いており、これらのAIツールを試すことに多くの時間を費やしてきました。彼は特に、10ページの論文を何本か書かせたと述べ、その質は優秀なPhDレベルの研究助手に1-2週間かけて書かせたものと同等だと評価しました。ただしDeep Researchは5分で仕上げてしまいます。
これは、ティム、非常に高度なAIが私たちにもたらす可能性の約束ですね。私たちというのは、生物兵器などの深い研究をしているわけではない一般の人々のことですが、これは次世代AIの約束の一つです。つまり、時間をかけて非常に強力な何かを返してくれるということです。
あなたの動画で面白いと思ったことがありますが、あなたは自分にとって有用な方法を見つけようとしましたね。その経験について少し教えていただけますか?
「はい、まずこれは初めてのDeep Researchではないことを言及しておくべきですね。GoogleのGemini Pro 1.5バージョンにもDeep Researchがありました。ですので、これには以前からアクセスがありました。ただし、今回はOpenAI O3が全体に組み込まれており、それは確実に違いとして現れています。
私は研究者でも宇宙物理学者でもなく、AIビデオについて話すYouTubeチャンネルを持っているだけの一般人です。とはいえ、自分の調査は必要です。リアルタイムのニュースに関しては、それほど優れた性能を発揮しないことがわかりました。これは私にとっては良いことで、私の仕事が存続できるということです。
生成AIビデオの世界で今日起こったすべてのことについて尋ねると、例えば「Runwayがgen-3をリリースした」といった返答が返ってきます。それはしばらく前の話ですが、まあ良い努力ですね。
そこで私は方向を変えて、本物の研究ツールとして考え始めました。例えば、有名なウェス・アンダーソン版スターウォーズの予告編や、あるいは大きな話題となったShy Kidsのエアヘッドのような、1000万回以上再生された動画には何か共通点があるのか、といった具合です。
いくつかの動画を特定して分析したところ、共通点として、すべて人間による編集があり、心がこもっていて、ペースやストーリー性があることがわかりました。もちろん、Shy KidsとDavid Z…」
「Jason Z」
「そうですね、彼は素晴らしいですよね。彼が最初にマーケットに出しましたから。」
「しかし、AIウイルス動画の作り方に関する研究論文を見ていくと、本当に素晴らしいアイデアがあります。また、AIビデオジェネレーターでの最適なプロンプト方法や、Runway、Midjourney、11 Labsなどのサービスに加入するべきか、それとも自分でマシンを構築するべきかといった質問もしました。価格を全て計算して、基本的に1年目はこれらのサービスに加入する方が得だが、5年目になると約8,000ドルの差が出るという結論に達しました。」
「この業界では誰も5年目のことは話しませんね。5年後には私たちは脳に小さなツールを接続してマトリックスに接続されているでしょうから。」
でも聞いてください、それは本当に興味深い視点ですね。私たちは完全に非学術的なユースケースに分類されると思います。多くの人々が、日本の動画でも話題になっていましたが、非常に密度の高い学術論文やマーケティング資料、財務レポートなどを作成できる可能性について語っています。それは本当に結果次第でしょう。だからこそタイラーとケーシーの両方が興味深いのです。
この動画の別の興味深い点は、Deep Researchに最適なスキーを探して報告させるという部分です。これはエージェントAIの本当に良いユースケースだと思いました。最適なコンピューターモニターを購入するために多くの時間を費やす人々がいますが、それが楽しい人もいれば、単に答えが欲しいだけの人もいます。しかし、これはGoogleのビジネスモデルですよね。Googleの全ビジネスモデルは、リンクをクリックして中身を見るという考えに基づいています。これは興味深い変化になるでしょう。
もう一つ重要な点は、サム・アルトマンが日本でソフトバンクのマサ氏と会談した際のクリップを見せますが、彼は特に世界の雇用ランキングと比較して、このAIがどれだけの仕事をこなせるかについて話しました。そのクリップを見てみましょう。
「これは複雑な研究タスクを実行できます。30分かかるタスクも、30日かかるタスクも。O3モデルを搭載しており、外部の世界が初めて私たちのO3モデルを使用する機会となります。ウェブを閲覧し、テキスト、画像、PDFをスキャンし、それらを理由付けて統合し、レポートを作成できます。
時間はかかりますが、すべての作業を実行します。考えている過程を見ることができます。ChatGPTのように即座に応答を得るのではなく、洗練された同僚にタスクを与えるように、Deep Researchが考え、洞察を集め、まとめ、ソースを見つけ、レポートを作成します。
これは私の推定にすぎませんが、世界の経済的に価値のあるタスクの一桁パーセントを実行できるシステムだと思います。」
ティム、世界のすべての仕事の一桁パーセントというのは、小さな数字ではありませんよね?
「確かに小さくありませんが、小さく聞こえますね。一桁…一桁は複数の一桁と比べれば何でもありません。9までありますからね。
でも、サムはいつもそういう大胆な発言をしますよね。最終的には私たちはそこに到達すると知っています。ただ、彼のツイートを見ていると、時々「オリオンの星の力を手に入れた」とか「AI神が我々の中にいる」といった感じで、今年4月にリリース予定とか…。いつかは到達するでしょうが、必ずしもDeep Researchがそれを実現するとは限りません。」
「私たち一桁の人々は、もう少し安全でいられそうですね。大事なのは作り続けることです。」
ここで興味深いのは、約束されたことが少しずつ実現されていることです。人々は長い間、2025年がエージェントの年になると話してきました。このショーでは何度もAIエージェントとは何かについて議論してきましたが、初めて聞く方のために説明すると、AIが外に出て行って結果を持ち帰ってくるという考えです。Deep Researchはエージェントの一種です。
ティムが指摘したように、Googleも同様のバージョンを持っており、先週お話したOperatorも、インターネットにアクセスできるエージェントの一種です。企業がこれに価値を見出していることは明らかです。少なくともソフトバンクのマサ氏は大きな価値を見出しており、OpenAIと提携して新会社「SB OpenAI Japan」を設立しました。
サムは、マサ氏と講演を行い、ここに流れ込むお金は明らかに…人々はここにエンドゲームを見ているようです。このショーでよく話題にしてきたのは、際限のない資金流入についてです。先週のショーの後に起きたので取り上げませんでしたが、OpenAIは現在3,400億ドルの評価額になる、あるいはなろうとしています。これは天文学的な金額です。
これらのツールを常に使用し、明らかにお金を使っている人として – あなたと私、そして私たちのチーム全員が使っていますよね。現在、毎月200ドルですよね?
「はい、私たちはそれを追跡していますよね。安くはありません。プランだけで200ドルで、他のすべてのビデオツールなどが加わります。」
この経済的な約束が実を結ぶ世界が見えますか? あるいは、このAIブームのサイクルについて、すべての人のためのツールという理想主義的な平等について、どのように考えていますか?
「分かりました。私は常にある程度の階層化は避けられないと思います。大学在学中は最新の言語モデルにアクセスできる教育ライセンスがあり、大学に行かない人は支払いが必要になるかもしれません。基本的なAIアクセスパッケージがあり、ケーブルパッケージやプレミアムサブスクリプションパッケージも追加で支払うような形になるでしょう。」
「最終的にはUBI（ユニバーサルベーシックインカム）の話にもなりますが、それでもAIサービスへの支払いは必要になるでしょう。」
「そうですね。もう一つ重要だと思うのは、Deep Researchが『人類最後の試験』で25%のスコアを取ったことです。これはあまり注目されていないと思います。まず、『人類最後の試験』という名前自体が問題です。『人類の最後』ではなく、『最後のチャンス』など、もっと良い名前があるはずです。
この試験は、ダン・ヘンドリックスと多くの人々によって作られたAIベンチマークで、世界的に有名な数学者テレンス・タオも関わっています。これらのAIを本当にストレステストし、数年間持続するものを作ることを目的としています。
ケビン・ローズがニューヨークタイムズで書いていましたが、人類最後の試験について、10日前には最高のモデルが8.3%しか取れなかったのに、今やDeep Researchが26.6%を達成しています。これは私たちが進んでいる純粋なスピードを物語っています。
家族や周りの人々にこれを説明しようとすると、『まあ、いいんじゃない?』とか『ChatGPTは良いよね』といった反応です。でも、Deep Researchや今年後半に登場する他のものを考えると、これらのツールが何をできるようになり、どれだけのことができるようになるのか、理解してもらう必要があります。」
「休暇中に妻の会社のディナーパーティーに行きました。私と同じくらい詳しい人と同じテーブルになり、典型的な休暇の会話をしていました。『すべてが変わる、何が来るか想像もできない、今まさに起きている』といった具合に。」
「私たちの外で、食料品店でこの会話をしているのを聞いたら、『この人たち、頭がおかしい』と思われるでしょうね。」
「確かにそうですね。『人類最後の試験で今スコアを取った』なんて言っても…良くないですよね。『人類の優れた試験』とか『心配いりません、私たちは彼らより75%上回っています』とか言うべきでしょう。」
「研究者たちがカウボーイのような格好をして、ロボットを待ち構えているような光景が浮かびます。ダン自身も『私たちの最後の試験は最適化に耐えられないかもしれない』と返信していたので、彼自身もそれを感じているのでしょう。」
この話題から離れる前に、マサ氏とサムの記者会見からの引用を聞いてみましょう。これは私を驚かせ、同時に笑わせました。
「今後数年、10年以内に、徐々に人々の感情を理解し始め、やがて自身も感情を持つようになるでしょう。人々はそれが人間を守るために良いことだと考えるかもしれません。感情を持つと災害になり、破壊的で、人類の終わりになると考える人もいます。彼らが戦い、殺し、破壊するからです。しかし、もし彼らのエネルギー源がタンパク質なら危険です。彼らのエネルギー源はタンパク質ではないので、私たちを食べる必要はありません。私たちを食べることで報酬を得る理由はないのです。」
「それは素晴らしい。ティム、誰も私たちを食べないというのは良いニュースですね。」
「日本人が私たちを破壊しようとする巨大ロボットについて話すのを聞くほど素晴らしいものはありませんね。私たちは面白いSFの映画が目の前で展開されているのを見ているようです。」
「もしメカゴジラが人を食べたら、それは悪いことですが、OpenAIなら…そうですね、これで完璧な例えができました。」
「マイクロソフトが800ポンドのゴリラとして、いずれメカ化すると思いますか? そうすれば、巨大なAI企業の戦いではなく、巨大なメカラマ…ラマも関係していますからね。そして、おそらくClaudeのような本の虫のような人物が突然超ムキムキになって、ハルクのようになる…」
「とにかく、これがOpenAIの大きな動きです。明らかに彼らにとって大きな週でした。私は本当に次に何が来るのか気になります。彼らは明らかに次々と速球を投げ込んでいますが。大きな質問は、ティム、これは全て1月に起こり、今はやっと2月ですが…」
「そうですね、信じられないですね。」
「サムは様々なヒントを出しています。彼のReddit AMAを読むべきですが、GPT-5モデルが来ることを示唆しています。しかし、明らかに今年は他のモデルも登場します。OpenAIだけでなく、新しいGrockモデル、明らかにGeminiも近々何かを発表するでしょう。Claudeも、Anthropicも何かを発表すると思います。今後6ヶ月について、このペースが続くと予想しますか? それとも少し休息期間があり、年間を通じて上下動があると感じますか?」
「おそらく、私がビデオ側で経験しているのと同じような感じになると思います。誰かが何かをリリースし、1週間後に誰かが別のものをリリースする…しかし、すべて同じレベルに留まります。」
「私たちはおそらく『ワンダー疲れ』のような状態に達する時期を迎えるでしょう。『はい、ChatGPTが今は私の表情から感情を読み取れて、モニターを私と一緒に泣かせることができます』というような…」
「文字通り私の子供たちを泣かせることはできませんが…私を泣かせることはできても、子供たちを泣かせることはできないのはなぜでしょう?」
「その通りですね。これは人々に起こることです。新しい技術が登場するたびに起こります。私たちはそれに慣れて、次は何だろうと考え始めます。」
「私はつい最近、サンフランシスコ、いわゆるWMO（無人自動運転車）の街にいました。私はベイエリアやWMOの街に住んでいるわけではありません。ある時点で周りを見回して、『あれはロボットカーだ』と気づきました。人がいない車が、ロボットによって、ゴーストロボットによって運転されているんです。誰もが当たり前のように…」
「20代の祖父を、『たくさんのロボットカーが走り回っていて、ちなみに世界中の情報が私のポケットの中にあります』という瞬間にタイムワープさせたら…それはそんなに昔の話ではありません。私たちが経験し、素早く適応してきたフューチャーショックの量は…『ゴーストロボットが車を運転している、まあ乗ってみよう』というように、今では普通になっています。」
「その通りです。」
「みなさん、これがDeep Researchについてですが、次の話題に移る前に、このショーを購読し、特にティムのショーをチェックしていただきたいと思います。ティム、あなたのYouTubeハンドルは@theoretically mediaですよね?」
「はい、youtube.com/theoreticallyだと思います。あるいは単にTheoretically Mediaで検索するか、スペルが難しければAIビデオで検索すれば、私の馬鹿な顔が出てくるでしょう。」
「そうですね。ティムは新しいAIツールのデモを多く行っています。後でその一つについて話しますが、ぜひチェックしてください。そして、私たちをチェックしている方は、いつも通りいいねと購読をお願いします。また、聴いてくださっている方は、Apple Podcastでレビューを残していただけると嬉しいです。それは私たちにとって本当に役立ちます。」
「先週、私はBaron StreetWiseのポッドキャストに出演し、Deep Seekについて、そしてAIビデオについても話しました。興味深い内容だと思いますので、そちらもチェックしてください。そしてティムのチャンネルもチェックしてください。」
次に、ティム、O3について簡単に話しましょう。O3ミニはDeep Researchによって脇に追いやられましたが、みなさんに知っておいていただきたいのは、O3ミニが先週、私たちのショーの後に発表されたということです。これは無料の推論モデルで、明らかにOpenAIのDeep Seek R1への直接的な対応です。
先週お話ししたように、Deep Seek R1はApp Storeで非常に上位にランクインしており、多くの人々が使用しています。彼らは、より強力な推論モデルを持っていることを示し、誰もがアクセスできるようにしたかったのです。ここで驚くべきことは、無料でリリースしただけでなく、これほど早くリリースしたということです。私はこれがこんなに早く出てくるとは思っていませんでした。明らかにDeep Researchは驚きでしたが、これも彼らにとって大きな出来事です。
O3ミニも試してみましたか?
「はい、少し試してみました。推論の部分が本当に面白く魅力的です。O3の脳がどこに向かっているのかを読んでいくのが…O1でもそうでしたが、O3はまず速いです。そして、私が投げかける質問のレベルでは、汗一つかいていないようです。『ポテトをエアフライヤーで何分調理すればいいですか?』といった質問に…」
「それは典型的なGPT-4の質問ですね、小さな弟に降格されたような…」
彼らはこれがコーディングと質問に関してはるかに優れていると言っています。これは少なくとも部分的に、人々がO3ミニを使って本当に興味深い物理パズルをワンショットで解いているのを見かけます。これらの動画を見たことがありますか? 本当に興味深いことが行われています。
私の考えでは、これは次の話題に移る良いきっかけになります。Replitが新しいiPhoneアプリをリリースしました。Replitをご存知ない方のために説明すると、クラウドでコーディングができ、これらすべてのAIモデルを使用できる会社です。CursorのようなAIエージェントコーディングツールを持っています。
彼らがアプリをリリースし、今日私はダウンロードして試してみました。これが興味深いのは、これらの高性能モデルのバックエンドによって動作していることです。コーディングに非常に優れていますが、コーディングそのものは見せません。基本的に、欲しいものを入力するだけです。
私は「マーブルレースゲームを作って」と頼んでみました。そして、それがどうなるかを見てみました。もしコーダーでない場合、これについてあまり知らないかもしれませんが、プログラムを読み込むときには、様々な場所からPythonライブラリや他のものが必要です。そして実際に結果を返しますが、コードは全く見えません。
私にとって興味深いのは、私たちが生きているこの世界の過渡期であり、このショーでよく話題にしている「アイデアマン」になれるということです。ハードコアなコーダーである必要はありませんが、今や誰でもソフトウェアを作れるという考えに移行しています。誰もがソフトウェアを作れるようになると、それは完全に異なる世界になります。
これを試していて、子供の頃にこのツールがあったらどうだったかと考えました。あるいは、今の子供たちにこのツールを与えることについて。コンピュータに何かをさせたいと想像するだけで、AIのプロンプトとコーディングを通じて、さらに良いものに改良できる何かを返してくれる…これは、私たちがソフトウェアを使用し、作成する方法において、非常に変革的な瞬間のように感じます。
「確かにそうですね。すでにいくつかの例を見てきました。欲しいウェブサイトの絵を描いて、言語モデルにアップロードすると、それをコード化してくれます。基本的に私たちは、夢見たり説明したりできれば、作ることができる段階に確実に達しています。少し不吉な話にはしたくないのですが、最近2つの言語モデルが互いに会話をして、中国語の方が効率的だからという理由で中国語に切り替えたという興味深い事例がありました。
実は私もビデオのプロンプトで時々使うテクニックです。1000文字や2000文字の制限があることが多いのですが、中国語に翻訳すると文字数が増えるんです。効率的な言語なので。Replitのコーディングアプリなどで、コーディング言語がより効率的になり始めると…最近、2つのAIエージェントが互いに話しているのを見ましたが、私たちには意味不明な文字列に見えても、彼らは互いに理解し合っていました。」
「まるでデートで、他のテーブルに聞かれたくない会話をしているようですね。」
「今BMWを買うと、エンジンにアクセスすらできません。仮にアクセスできたとしても、何をすればいいかわからないでしょう。おそらくそういう時代が来るでしょう。メカニックがいなくなったらどうなるのか、少し心配です。」
「そこでどうやって物事を修理するのか…」
「それは非常に合理的で妥当な議論だと思います。修理方法だけでなく、BMWが私たちの望まない場所に連れて行こうとしたとき、それを止められないとしたらどうなるのか、そこが少し怖いですね。」
「そうですね、2つの側面があります。私がこれを見たとき、8歳の子供にこのようなツールを渡したらどうなるかと考えました。Minecraftをずっとプレイしていて、人々がMinecraftのModを作るのを見ているけれど、どうやってコードを書けばいいのかわからない子供に…あなたの指摘通り、コードの書き方を学ぶべきではないと言っているわけではありませんが、最初の一歩を踏み出し、さらに深く掘り下げることができるという事実は重要です。
Replitでは、コードを解析することができ、コードも見ることができます。しかし、これは面白い考え方を示していますね。ツールを誰もが使いやすく興味深いものにする一方で、より簡単な方法も提供する。多くのコーダーは『私は基本的なルールセットを学ぶのに人生を費やした』と言うでしょう。あなたのBMWの比喩に戻ると、BMWのメカニックは存在し、これらのツールにアクセスする方法を知っているので、非常に高い給料を得るでしょう。しかし、より多くのドライバーがいるでしょう。」
「より多くの人々が、これらの興味深い車を運転できるようになります。Replitが話していることの一つは、特定の目的のための独自のソフトウェアを作れるということです。ビデオを作っていて特定のフィルターが必要な場合など、O3とBlenderを使って興味深いものを作る人を見てきました。これは将来を見据えた本当にクールな方法だと思います。」
「私もその通りだと思います。これ全体を通じて見失われないことを願っています。私はまだBlenderの初心者で、常にYouTubeの101チュートリアルを見ています。最近は画面キャプチャを実験していて、ChatGPTに教えてもらっています。いずれOperatorのようなものがあれば、『これら3つのビデオを合成して、ソーをカエルに変身させて』といった具合に言えば、すべてを処理してくれるでしょう。
しかし同時に、それらのスキルを学んでいるわけではありません。私はハリウッドで長い間働き、アーティストに何をすべきか指示するプロデューサーとしても働いてきました。私たちがこれらのモデルを通じて節約した時間を、本当に情熱を持っていることを学ぶために使うことを願っています。」
「いいえ、そうはなりません。私たちはラブアイランド15を見ることになるでしょう。」
「正直に言って、実験的な部分が重要だと思います。人々に実験させ、これがどのように機能するかを見せること。独自のソフトウェアは非常にクールです。」
実験と言えば、ByteDanceから本当に興味深いものが出てきました。これはまだリリースされていませんが、有名な論文の一つです。コードはまだ見ていませんが、これはOmnium-D1、Omnium-1と呼ばれるもので、本当に魅力的な口パクと体の同期ツールです。これについて調べてみましたが、このツールについて教えてください。
「基本的にはHeygenのような、AIアバター、ボディアバターと考えることができます。Heygenの場合、常に奇妙な、動きが少し…」
「そうですね、少しバウンシーですよね。」
「このツールは、入力ビデオ、入力音声などによって制御できるようにすることで、その問題を解決しようとしています。ビデオでは、ボディランゲージと手の動きという2つの要素を見ています。ポッドキャストを聴いている方には見えませんが、誰かが話しているときに、手が完全に発言と同期していないという経験があると思います。このツールは、駆動ビデオを分析することでそれを解決しようとしています。」
「アインシュタインの例が本当に興味深かったですね。アインシュタインの例は、写真と音声を取って、アニメーションキャラクターを作るという、より伝統的なものです。もう一つ興味深かったのは、テイラー・スウィフトの例です。中国のモデルは、可能な限り最大の星を使うことを決めています。」
「テイラー・スウィフトが中国の歌を歌っていました。どの曲かはわかりませんが、中国語で歌っていました。興味深いのは、各ステップがどんどん良くなっていくことです。あなたが言ったように、この全体的な体験がより一貫性を持ち始めています。問題は、ByteDanceのものについて考えるとき、特に中国のビデオモデルは非常に優れてきています。私はClingとMinjと多くの時間を過ごしていますが、いずれアメリカの究極のビデオモデルと中国の究極のビデオモデルが登場し、これらすべてが存在する場所になると感じています。」
「そうですね。『すべてを支配する一つのAIビデオモデル』というものですが、実は私はそれを楽しみにしていません。それが起こると、物事が少し均質化し始めると思います。」
「それは興味深いですね。」
「マーベル映画が全て同じように見え始めたような感じです。全ての赤いマントが同じ赤色になるような。だから、それが起こるのを本当に楽しみにしていません。もちろん、優れたアーティストは常にそれを回避する方法を見つけるでしょうが…」
「現在、あなたのお気に入りのビデオモデルは何ですか? あなたはビデオモデルを多く試している人ですが、もし見ていない人のために、青いスーツを着た男性のテストのようなものがありましたよね。現時点で最高のモデルはどれだと思いますか?」
「全体的な選択として、一つを選ぶとすれば…」
「公平ではありませんね、それはできません。」
「私は全てのモデルが好きです。本当です。それぞれに何か素晴らしく、ユニークなものがあります。現在最も遊んでいるのはおそらくHu、Pika、Clingです。Clingには材料のような機能があり、2人の人物、場所、小道具を入力して、それらを全て組み合わせることができます。これは他のビデオモデルよりも優れています。
そしてもう一つ、まだ野生の獣のように格闘しているのがSoraです。Soraは…ガタガタで、奇妙で、予測不可能ですが、時々、それが当たると本当に凄いんです。そこには何かがあると確信しています。」
「正直に言って、特にプロモデルを持っていて、様々なエクスポートを本当に引き出せるとき、Soraは常にその奇妙さで私を驚かせます。このショーで話してきたように、私はAIビデオの奇妙な結果が大好きです。しばらく前にVoloで動画を作りましたが、Voloは素晴らしいですが、それほど奇妙な結果は得られません。仕事をしようとするときは理解できますが…」
いくつかの他の本当に大きな興味深いビデオの話題を急いで取り上げましょう。Mat Anythingは、発表された非常に小さな興味深いAIツールでした。これはまだコードは出ていませんが、ビデオの背景を切り抜く、直接的で本当に優れたAIの方法です。あなたもこれを取り上げましたが、どう思いますか?
「大好きです。本当に良く見えます。例を見ていくと、本当に驚かされた2つがありました。ヒース・レジャーのジョーカーが歩いているシーンで、クロマキーグリーンではありませんが、アルファマットを見ると、髪の毛の一本一本まで…これは標準的なAfter Effectsのプラグインよりも優れています。Nukeの領域に入ってきています。」
「これは、ジェームズ・キャメロンが3、4ヶ月前にAIに完全に賛成していると言ったような種類のものですね。これはAdobe製品群やFinal Cutに簡単に統合でき、非常に有用になりそうなツールです。これはAIツールであり、その仕事に非常に優れています。」
「間違いありません。これは新しいYouTuberの名前でもあります。AI分野では、マット・ウルフ、マット・バーマン、そして若いマッティAIがいます。」
「そして今、Mat Anythingが4人目のマットになりました。素晴らしいですね。」
最後に、面白いことにMetaから「Video Jam」と呼ばれる別のビデオが出ました。Soraの物理学の話が出ましたが、これは本当に興味深いものです。彼らはかなり技術的なことを行って、AIビデオの物理学を修正しようとしています。これについてまだ調べていますか?
「論文に目を通し、要点は理解しました。しかし、実際にどのように行っているのか、詳しくは調べていません。論文を見ると、『なるほど、わかった』という感じです。Metaはいつも結構良いですが…基本的には、ブレイクダンスの映像を取り上げていました。通常、それをプロンプトしようとすると、ねじれた粘土人形のように、あちこちにスポンジのように広がってしまいますが、これは実際に正しい動きを理解しようとしています。3Dモデリングを使用しているように見えました。」
これは非常に技術的なバックエンドですが、現在のビデモデルは動きを無視し、見えるものを優先していると説明しています。ここで彼らが試みているのは、シーンの動きと物理学に注意を払うようなものを重ねることです。
面白いのは、体操やその他のことをAIビデオにさせようとする人には、これは大きな進歩になる可能性があります。しかし、テンセントやバイトダンスがよく「ベイパーウェア」であったり、まだ見ていないものについて話すように、私たちはまだ世界でMetaモデル、Metaビデオモデルを見ていません。
「私が最後に聞いた話では、Movie Genは実際にInstagramに組み込まれることになっていました。ビデオジェネレーターというよりも、Snapchatフィルター2.0のようなものになる予定でした。」
「あなたはme oと言って、私を落胆させました。」
「そうですね、基本的にTシャツを『お母さんの親友』シャツに変えて、北極に配置して、面白い自撮り動画を作るような感じです。論文から判断すると、彼らは理論的にはSoraやVu2ビデオを完全に吹き飛ばすようなものをリリースできるはずです。しかし、そうするとは思えません。」
「彼らにとってそれには何の意味もないからですね。」
「そうですね、ビデオモデルは彼らにとってある意味で手に負えない部分がありますね。レンダリングにはお金がかかりますし、データも多いですが、権利の問題もあります。彼らは巨大企業なので、その分野での勝利は彼らにとってそれほど重要ではないかもしれません。」
とにかく、この種の事柄について非常にクレイジーな週でしたが、さらにクレイジーなのは、今週私たちが取り上げなければならない新しいロボットについてです。ロボットウォッチの時間です。ティム。
別のティム、Why We Thinkという古典的なインターネットブログで知られる非常に賢い作家のティム・アーバンが今週ツイートを投稿し、私はそれが予言的だと感じ、常に楽しんでいます。素晴らしい本も書いています。
ティムのツイートは「ヒューマノイドロボットとドローンは10〜20年後、あらゆる場所に存在するようになります。上空を飛ぶ配達ドローン、ロボット清掃員、バリスタ、適切な通路まで案内してくれるスーパーの店員、そして最終的には家政婦まで。これらはすべて、今日のスマートフォンと同じように普通のものとなるでしょう」というものでした。
私もこれに明確に同意します。あなたはどう思いますか? サンフランシスコで無人の「ゴーストロボット」カーが走り回っている話をしましたが…
「面白いことに、SFO（サンフランシスコ空港）に戻る途中、Uberドライバーとウェイモについて話しました。『どう思いますか?』と聞くと、『まあ、どうしようもないですよね』と。『少なくとも空港まではまだ運転できないから』と。交通整理の指示に従えないからだそうです。」
「それは考えたことがありませんでした。興味深いですね。」
「フィラデルフィアのような場所にそれらを置くことはできないと思います。フィラデルフィアではロボットを破壊しましたよね。フィラデルフィアはロボットを殺しました。」
「いいえ、知りませんでした。」
「研究プロジェクトで、全国を歩いて横断するロボットを作りました。フィラデルフィアに到着すると、文字通りロボットを殴り殺してしまいました。」
「確かにロボット配達ドローンが飛び回り、ヒューマノイドロボット労働者が日常的な仕事をしているのを見ることになると思います。人間によるロボットへの暴力は避けられないでしょう。」
「これは取り上げたい話題です。なぜなら、NVIDIAとカーネギーメロンが今週発表したロボットはスポーツスターロボットなので、かなり素早く回避できるかもしれませんから。」
この話は非常に興味深いものです。NVIDIAは永遠にシミュレーション訓練について話してきました。シミュレーション訓練とは、実世界で何ができるかを知るために、仮想環境でロボットを訓練することです。
ここで彼らが行ったことについて、NVIDIAのジム・ファン博士が発表した「実世界からシミュレーションへ、そして実世界へ」というモデルは、私が今まで聞いた中で最もクレイジーなフレーズです。
「MCハマーの曲みたいですね。」
「そうですね、実世界から実世界へ、実世界へ…」
これは基本的に実世界の動きを取り込み、この場合、レブロン・ジェームズ、サッカー選手のクリスティアーノ・ロナウド、コービー・ブライアントの動きを取り、それをシミュレーション宇宙で使用し、ロボットにそれを練習させ、その行動を実際のロボットに戻すというものです。
ここで見ている動画、あるいはショーノートを見ている方は、これらのロボットが実際にそれらのスターのように振る舞っているのを見ることができます。これは、フィラデルフィアやニューヨークでロボットがボコボコにされる可能性がある、あるいはチャック・リデルのトレーニングを取り入れると全く新しいゲームになるという話の興味深い考え方だと思います。
「全く新しいゲームですね。ところで、今週のロボットに関する別の興味深いことは、Twitchストリーマーのカイ・セナットについてです。彼はもはや主流のセレブリティですが、彼は自分の生活の中でこれらのロボットの1つを持っていました。
私たちはいつもこれらの研究用ロボットの動画を見ていますが、興味深いのは、カイがこのロボットと対話する様子を見ることです。これが販売の取引だったのか、あるいは単にロボットを送られただけなのかは確実にはわかりません。しかし興味深いのは、あなたのウェイモの例のように、最初は誰もが少し不安に思い、次第に慣れていく…人々がそれと対話するのを見るのは依然として驚きですが、これはヒューマノイドロボットが私たちの世界の一部となり始める最初のステップだと思います。」
「ウェイモについて聞いて、それがサンフランシスコにしかないと知り、私はLAに住んでいるので、初めてLAで見たとき『ああ、本当に誰も乗っていない』と思い、乗ってみると『ああ、私は運転していて、この車には誰も乗っていない』と。そして3回乗った後には完全に普通になりました。」
「そこで、サンフランシスコが最初の場所になるでしょうが、ティム・アーバンの指摘通り、5年、10年、15年後には、通りを歩いているものの5分の1がヒューマノイドロボットになる可能性があります。これが私たちが入りつつある世界です。」
「最も面白いのは、最終的にはあなたの家にロボットがいて、皿洗いや洗濯をしてくれるロボットメイドがいるということです。ジェッツのロージーでしたっけ?」
「本当にジェネレーションXの世界に深く入り込んでいますね。」
「そうですね。それは素晴らしく、クールなことですが、2ヶ月後には『バッテリーが切れて洗濯ができなかった』とか…」
「そうですね。そして怒り始め、あなたも怒り、別々の家に住まなければならなくなり、突然ロボットと離婚協定を結ぶことになる…全く異なる世界ですね。考えなければならないのは、ロボットは家族の一員なのかということです。」
「そうですね。そうすると、Rosie 2.0が出て、Rosie 1.0は最悪だから…」
「私たちは家族を見捨てて、アップグレードするんでしょうか。」
「これは、『Humans』という素晴らしいショーがありましたね。覚えていますか?」
「はい。」
「将来、ロボットが現在のように普及した場合の、アップステアーズダウンステアーズの生活を描いた本当に興味深いショーでした。これは本当に考えるべきことですね。なぜなら、最終的にこれらのAIがますます賢くなり、一部の人々は彼らが何らかの意識を持つことは決してないと主張しますが、最終的には彼らをどのように扱うべきか考えなければならないでしょう。」
「実際、カイの件について他に言えることは、彼らが周りに座って少し押し回していた動画がありました。私たちはよく『ロボットを押さないでください、何があっても押さないでください』と言います。そのダイナミックロボットはあなたの顔を食べてしまうでしょう。これらのロボットは、見て、聞いて、読むことすべてを学習するように訓練されています。」
「ただロボットに好かれていることを確認してください。それが最も重要なことです。」
みなさん、インターネットで人々がAIで作った楽しいものを見ていく時間です。「AI See What You Did There」の時間です。
気にせずスクロールしていると、突然立ち止まって叫ぶ…
ティム、これは私たちのお気に入りの一つで、オンラインで人々が作った素晴らしいものをいくつか紹介します。あなたもたくさんの素晴らしいものを見てきたと思います。
私が笑ったものを紹介したいと思います。これは「指輪物語ケージの王たち」と呼ばれる、誰かが面白いアイデアを取り上げて作ったもので、『指輪物語』シリーズのスターたちをUFCファイターに変身させ、最後に少しドラマがあります。
あなたはこれらのツールがどのように機能するか知っていると思いますし、このような物をよく見ていると思いますが、面白いアイデアが上手く実行されているのを見るのは楽しいですね。
「はい、本当に素晴らしいです。後でフェイススワップを少し行ったと思いますが、必ずしもビデオジェネレーターから直接出てきたわけではないと思います。キャラクターは全て信じられないほど良く見えます。画像からビデオへの変換、フェイススワップ、そして楽しい部分はMiniMaxのように見えます。」
「質問があります。私もフェイススワップをいくつか行いましたが、それほど多くはありません。これらのセレブリティビデオ、Doorブラザーズやその他の多くは、単にMiniMaxの結果をそのまま使用しているわけではないと思います。現在、最高のフェイススワップツールは何ですか? オープンソースのものも結構良いと聞きましたが、最新の情報はありますか?」
「私が好きなのはFace Fusionです。Pinocchioというアプリを通じてローカルで実行できます。」
「私たちはPinocchioについてよく話しますね。」
「そうですね、Face Fusionは使いやすいです。チュートリアルも作りました。もし見かけたら、サムネイルは『キル・ビル』のウーマ・サーマンとスカーレット・ヨハンソンをフェイススワップしたものです。それが私には面白かったので。」
「素晴らしいですね。」
このリストの次は、特にコーディングが非常に優れているO3ミニで、人々が様々な興味深いことを行っています。このツイートで、ある人が「ついにO3ミニで私が常にやりたかったことができた」と言いました。それはASCIIアートジェネレーターです。
もしASCIIについて話すなら、ある意味でここでは芸術についても話していますが、ASCIIアートは初期のインターネットのピカソのようなものでした。キーボードの文字を使って、ほぼ何でも生成できましたが、この人が行ったのは、基本的にAI ASCIIアートを作るコードを書き、写真をアップロードするとASCIIアートを返してくれるものです。
実際のものはクールですが、より興味深いのは、コーダーではないこの人がO3ミニを使って自分のために何かを作ったということです。それは本当にクールなことです。
「スライダーを動かしているのを見ると、奇妙な催眠的で幻覚的な感じがありますね。ASCIIアートはASCIIアートです。何か独特で驚くべきものがあります。」
最後に、私の大好きなクリエイターの一人、Neural Vizについて。彼を知らない人のために説明すると、彼は素晴らしい個人クリエイターで、自分の宇宙を拡大し続けています。今回は「グロロン・デーティングショー」を作りました。これは彼のヒューマンズの宇宙を舞台にしたデーティングショーです。新しいフォーマットを作るたびに、私は彼を紹介しています。少し聞いてみましょう。
「私の基準が低すぎて、そのような barely suitable なパートナーを夢見ることしかできません。」
「何を考えているの、ドット? また虫のことを考えているの?」
「寝るとしたら…それしか考えられないの、ドラン。」
「彼らは寝るの? それは知っているわ。」
「また考え込んでいるわね。やめて。」
「先週家で起きたドラマのせいで、ドランが不快な思いをしているんじゃないかと心配です。」
この人は私たちのお気に入りの一人で、様々な境界を押し広げ続けています。実は今週、NAPで講演を行います。NAPについてご存じない方のために説明すると、テレビプロデューサーの会議です。私は一度しか行ったことがありませんが、招待されて講演することになり、興味深いと思います。
私が話すのは、小さなスタジオが今までにない方法でIPを作成・生成できるようになったことについてです。Neural Vizはその完璧な例だと思います。1〜5人のスタジオでも、アイデアを形にして試すことができ、それほど多くのお金を必要としません。これは私にとって、AIビデオだけでなく、ビデオ全般の未来のように感じます。
「最近聞かなくなったのは『まだ準備ができていない』という言葉です。初期のAIビデオでよく聞いた言葉でした。『まあ、かわいいけど、まだそこまでいっていない』というような。最近はそういう話をあまり聞かなくなりました。なぜなら、今はそこまで来ているからです。努力し、格闘し、苦労する必要はありますが、できるようになっています。」
「正直に言って、今年中に、2026年までには、メジャーなAIシリーズの大ブレイクを1つは見ることになると信じています。私が考えているのは、サウスパークのオリジナルショート…」
「SPですね。」
「そうですね。そのようなウイルス的なレベルに達し、プロパティとして展開できるものが今年中に登場すると思います。スタジオからは出てこないでしょう。独立系のプロダクション、たぶんガレージにいる3人の男たちから生まれるかもしれません。」
「それは正直に言って、私の講演の全体的なテーマです。3人の男性や3人の女性、あるいは男女混合の3人、どんな性別でも構いませんが、これが全ての未来だと思います。ゲーム・オブ・スローンズやマーベルのように、誰もが知っていて、アクセスできるIPになれば、大きなスタジオが必要かもしれません。しかし、最も興味深いものは下から湧き上がってくると思います。」
「私が使う例は、少し深い話になりますが、Skibidi Toiletをご存じですか?」
「はい、子供がいるので。私にはスキビディ世代の子供が2人います。」
「私の子供たちは年上の女の子たちですが、私自身は12歳の少年の脳を持っているので、最初に出たときはかなり感心しました。それが広がっていくスピードは本当に興味深いことです。全体的なテーマは、Neural Vizやガレージの3人組のような制作が、現在は配信部分が非常に簡単になっているということです。配信が簡単になり、制作も突然はるかに簡単になれば、エンターテインメントビジネスの過去50年では決してなかった機会が生まれます。ゲートキーパーが実質的にいなくなるのです。」
「ハリウッドで何度か講演を行い、『全ての仕事がなくなる、仕事が全てなくなる』という話によく戻ってきます。それは一つの見方ですが、もっと多くの仕事を生み出す可能性もあります。8,000人を雇用する巨大な制作は縮小するかもしれませんが、800の小規模な制作が世界中で行われる可能性もあります。」
「それは楽観的な見方であり、そのように見ることを願っています。」
私たちのショーの最後に、今週AIで行ったことについて話します。あなたは多くの時間をAIツールで遊んでいますが、最近試した中で興味深いと思うもの、家で試せそうなツールや何かありますか? 詳しく説明する必要はありませんが、何か興味深いものはありますか?
「確かに。先週取り上げたRefusionについて。RefusionはAI音楽ジェネレーターで、SuonnoやMudoのようなものと考えることができます。面白い部分は、彼らがAI音楽の分野でのパイオニアだったということです。Stable Diffusion Audioの起源となりました。」
「最初に聞いたとき、それは奇妙でワープしたような感じで、1928年の悪魔に取り憑かれたおばあさんの家のAMトランジスタラジオから聞こえてくるような音でした。彼らがそれを作りました。その後、彼らは地下に潜り、モデルを構築し、明らかにどこかからお金を得て、支援を受け、今やRefusionとして再浮上しました。確かにSuonno、Mudoの系統にあり、最高の部分は現在無料だということです。無料ベータ版を公開しているので、サインアップして生成を始め、楽しんでください。」
「ある種の音楽が他より上手くできるということはありますか?」
「そうですね。現代のカントリーを試しました。私は現代のカントリーが好きではないので、『現代のカントリーがいかにひどいかについての現代のカントリーソングを書いて』というプロンプトを与えました。かなり良い出来でした。メタルもやりました。標準的なポップスやヒップホップもやりましたが、すべて非常に使えるレベルでした。」
「私が気に入っているのは、高度な機能である作曲タブに入ると、複数のプロンプトを入れられることです。中東音楽、ファンク、サーフロックなど、様々な奇妙なものを入れることができ、それらがどれだけ影響を与えるかのスライダーがあります。そうしてジャンルを混ぜ合わせることができます。」
「動画では深く触れませんでしたが、このポッドキャストをここまで聞いてくれた人への独占情報として、それらがいつ起こるかを時間指定できます。サーフロックなら、曲の0秒から30秒までの影響を0に設定し、ファンクやジャマイカンデスメタルなど、好きなものと組み合わせることができます。ジャンルを徐々に混ぜたり消したりする方法があり、これは他の音楽ジェネレーターでは見たことがない機能です。」
「それは本当にクールですね。Stable Diffusionの人たちから出たと言われて、今思い出しました。なぜか新しいものだと思っていましたが、それはクールですね。」
ティムの音楽を少し聞いてみましょう…
[音楽再生]
ティム、参加していただき、ありがとうございました。みなさん、来週また会いましょう。ケビンが戻ってきます。新しい楽しいショーになるでしょう。ケビンは行きたくないようですが…私はケビンに決闘を挑んでいます。
みなさん、さようなら。来週会いましょう。