AIによる支配権をめぐる戦い: GPT-5、マスク、そしてOpenAIの未来

23,423 文字

AI NEWS: OpenAI fights off Elon Musk while Sam drops info about GPT-5 (it’s coming and it’s free), the leaders of the wo...

ニュースフラッシュ – OpenAIは売却の意思なし。しかしイーロン・マスクは自動精算機に押し付け続けています。イーロンは敵対的買収を準備しているのでしょうか。OpenAIはそれを止められるのでしょうか。これは5次元チェスなのか、単なる遅延戦術なのか、あるいは煽りなのか。誰にもわかりません。しかし、私たちはこれについて掘り下げていきます。
サム・アルトマンにとってはどうでもいいことです。OpenAIのCEOである彼はアメリカ副大統領とともにパリAIサミットに出席し、未来について大きな考えを持っていました。私たちは今、AIという新しいフロンティアに立っています。
アメリカのAIに規制はなし、ヨーロッパは追いつこうとしています。2025年の最高のコーダーAI…あなたはニュースの要約にGroを使っていますか?脳卒中を起こしているのですか?私はただとてもワクワクしているだけです。
ケビン、ギャビンが言おうとしているのは、はい、本当に大きな発表がいくつかあり、私たちは今日の番組ですべてを詳しく、わかりやすい英語で説明します。そして私はAdobeのFirefly videoベータやPeak editionsなど、とてもクールな新しいAIビデオツールを手に入れました。これらは今すぐ無料で試すことができます。
ギャビン、これを見る必要がありますよ。これはまさに人間のためのAIです。
ケビン、今週のAIには大きなニュースがあり、その多くはAIの未来をめぐる戦いに関係しています。まず第一に、イーロン・マスクとOpenAIの間で大きな戦いが起きています。イーロンは基本的に、非営利のOpenAIを900億ドル以上で買収するオファーを出しました。これについてよく追っていましたか?
はい、色々なレベルの辛辣な意見を100万通り見てきました。これは純粋な煽りで、サム・アルトマンを遅らせるための遅延戦術だという意見や、これは実は7次元チェスだという意見もあります。量子的に動く駒があって、ルークが複数の次元を同時に動くようなものです。これはデラウェア州のRevlonルールを発動させる可能性があります。私はこれが化粧品のことだと思っていました。Revlonルールって何ですか?これらの取引でどんな口紅が使えるかということですか?
そうですね。機械でのみテストされています。OpenAIについて、知らない人のために説明すると、OpenAIは非営利組織として始まり、イーロンは最初の投資家の1人でした。現在は非営利組織の下に営利子会社があります。非営利組織が営利事業体を管理しているんです。その理由は、数百億ドルを集めようとしていて、すべてのモデルを無料で提供し、1ドルも稼ごうとしないと言っているなら、資金を集めるのは難しいということでした。今のところそういう構造になっています。サム・アルトマンは営利事業体を買収して支配権を握ろうとしているという噂があり、そこにイーロンが買収提案で割り込んできたということですが、それで合っていますか?
その通りです。私たちの番組を初めて見る人や、この歴史を追いかけようとしている人のために重要なポイントは、イーロンはOpenAIの創設者の1人だったということです。彼は最初に5000万ドルほど投資しました。ですから、彼にはある意味で主張する権利があるんです。これは突然出てきたわけではありません。
そして重要なのは、これは作業を妨害するようなものだということです。イーロンには別の大きなモデル、Grock 3が出てくるところで、これはNVIDIAのH100チップを大量に使って訓練されています。このチップはAIの訓練に使用されています。イーロンが5次元チェスをしているような世界があって、この会社を少し遅らせることができるというアイデアを持っているのかもしれません。ケビン、今この会社が明らかにこのレースをリードしていることは、聴いている皆さんも同意すると思います。Deep Seekが登場して少し脅かされましたが、03や番組で取り上げた深層研究など、かなり進んでいます。
ケビン、これを流すのは重要です。OpenAIの取締役会のトップ、これは900億ドル以上でOpenAIを買収するオファーを取締役会に出したわけですが、OpenAIの取締役会のトップはイーロンに直接応答しました。そのクリップを流しましょう。
「OpenAIは非営利組織です。つまり、OpenAIの取締役会は私たちのミッションにのみ忠実な義務があります。そのミッションは、人工知能が人類全体の利益になることを確実にすることです。私にとってはとてもシンプルです。OpenAIは売却の意思はありません。」
はい、そういうことです。帰って家に帰りなさいということですね。
これは奇妙な大きなビジネスの話になってきます。ケビンと私は大きなビジネスマンではありません。私たちはダボスレベルのビジネスはやっていませんが、私の毛のない猫と半分かじられた葉巻のコレクションを見たことがないかもしれませんが、私は大きなビジネスです。私は産業です。石炭とすすで覆われています。
デラウェア州の裁判所はRevlonルールと呼ばれるルールを使用します。合併や買収の入札状況が発生するたびに、このルールが発効します。ギャビンの言う通り、私たちは大きなビジネスタイプではありませんが、言語モデルが教えてくれたところによると、OpenAIが営利企業に移行することを決定した場合、取締役会の義務は株主価値の最大化にシフトします。そしてそれがRevlonルールを発動させる可能性があります。
マスクの入札は基本的に彼らのリーダーシップに挑戦し、取締役会の決定が当初のビジョンと投資家のインセンティブのどちらを優先しているかについて倫理的な根拠があります。しかし基本的には、彼らはこのオファーを真剣に扱わなければならず、もしサムや他の誰かがそれをはるかに低い価格で買収しようとした場合、取締役会はこのRevlonルールのために、なぜ1000億ドル近いオファーを断って低いオファーを受け入れるのかを説明しなければなりません。
サム・アルトマンとOpenAIの法務チームができることはあります。悪意のあるオファーだ、本物ではない、煽りだ、会社の最善の利益にならないと言うことはできます。チェックメイトとは言えませんが、このRevlonルールのために実際の法的な課題になる可能性があります。
私はこの全体を一歩引いて見て、なぜこれが起きているのかを理解することが重要だと思います。これは本質的にAIの未来だけでなく、AI世界を支配する企業や企業群の未来をめぐる戦いです。このポッドキャストでほぼ最初から言ってきたように、最初にAGIやより高度なAIに到達する企業は、信じられないほどの価値を解き放つことになります。
すでにそれが見え始めています。この分野では多くのことが起きていて、これらのAIを非常に価値のあるものにしています。先週取り上げた深層研究について、多くの人がオンラインで、これは研究者の仕事を実際に排除する本当の一歩だと話しています。なぜなら、彼らが得ているものは非常に有用だからです。完璧ではなく、まだ幻覚はありますが、これは大きな出来事です。
そしてここでのプレイヤーは、Grockを持つイーロンが大きなプレイヤーで、彼にできることは何でもしようとしています。私たちが知っているように、イーロンは今、アメリカ政府を含むあらゆるところに指を突っ込むのが好きです。これは完璧な状況ではありませんが、彼はそうしています。GeminiとGoogleがあり、彼らは非常に大きなレベルでプレイしています。そしてOpenAIやMetaがあります。これらの大きな企業はすべて、この目標に向かって急いでいます。
だから、人々を遅らせることができるような戦術をより多く見るようになると思います。サム・アルトマンが言っていることによると、ケビン、私たちはすぐに減速するようには見えません。これから先、私たちは奇妙でクレイジーな世界に入っていきます。
100%その通りです。壁にぶつかるとか、スケーリングがうまくいかないとか、単純に線が上がり続けることはないといった手振りがありましたが、2025年に入ったばかりで、線はまだ真っすぐ上に向かっています。実際、曲がって戻ってくるかもしれません。垂直になりすぎて自分自身に折り返すかもしれません。フリップのようなことができるかもしれません。
重要なニュースです。今日の私たちのポッドキャストの録音に割り込んで、サム・アルトマンが今日の録音後にニュースを発表したので、アップデートを録音しています。具体的にはChatGPT 4.5とGPT-5のロードマップについて話しています。これは大きな出来事です。なぜならOpenAIが次にどこに向かうのかを示しているからです。
彼は具体的に、OpenAIの製品の命名などをよりシンプルにすることを呼びかけています。また、内部でOrionと呼んでいるGPT-4.5が、思考の連鎖を持たない最後のモデルになると言っています。これは大きな出来事で、GPT-5は推論モデルを統合していくことになります。
もう1つ言っていることは、高度な推論モデルである03は単独の製品としてはリリースされず、GPT-5の一部として提供されるということです。クールなアップデートは、無料サブスクライバーもGPT-5がリリースされたときにアクセスできるようになりますが、PlusとProのサブスクライバーはそれぞれ高度な推論が可能になるということです。
最後に、TwitterでGPT-4.5とGPT-5のリリース時期について「週単位か月単位か」と質問されて、彼は「週/月」と答えました。これがいつ出てくるのか正確にはわかりませんが、4.5は近いうちに出てくると思います。
番組に戻りましょう。その点について、サム・アルトマンはブログ記事で3つの観察結果を公開しました。3つの貝殻よりはセクシーではありませんが、3つの観察結果は以下の通りです:

AIモデルの知能は、訓練と実行に使用されるリソースの対数にほぼ等しい。つまり、より多くのコンピュート、より多くのチップ、より多くの電力、より多くのお金で、機械は成長し、知能は大きくなります。
特定レベルのAIを使用するコストは12ヶ月ごとに約10分の1に下がる。価格が下がると、使用量が大幅に増加します。これはジェボンズのパラドックスですね。
知能を線形的に増加させることの社会経済的価値は超指数的な性質を持つ。これは色々な解釈ができるので、ある意味ナンセンスな発言かもしれません。

しかし最初の2つのポイントは本当に重要です。より多くのコンピュートはより強力なAIを意味し、より安価なAIはより多くの人々がAIを使用することを意味します。そして指数関数的な性質についてケビン、サムは最近インタビューを受け、OpenAIの次世代AIモデル、おそらくGPTで何ができるようになるかについて話しました。そのクリップを流しましょう。
「最近のスケールの進歩は本当に驚くべきものです。私たちの最初の推論モデルは、世界で100万人に1人のレベルの競技プログラマーでした。人々はそれをとても印象的だと思いました。AIが100万人の中で、それはかなり良いと。その後、私たちは約1万人のレベルのモデルを持ちました。12月に公に話した03は、世界で175番目に優秀な競技プログラマーです。私たちの内部ベンチマークは現在約50位で、今年の終わりまでに1位になるかもしれません。これは驚くべきスケールの進歩です。」
声が熱い砂利の上でベーコンを焼いているような人にオーバーモジュレートされたマイクを与えると、とても聞き苦しいです。サム・アルトマンにマドンナのマイクを与えるべきです。「これについて言いたいことがあります。専用のコーディングについて話しましょう」という感じで深い声で。
面白いので、サム・アルトマンのクリップを11 Labsを使って別の声に変換して再生してみましょう。もう一度聞いてみましょう、ギャビン。
「最近のスケールの進歩は本当に驚くべきものです…」
これは大きな出来事です。数日前にOpenAIが新しい論文を発表したのは重要なことだと思います。それは競技プログラミングに関する論文でした。私たちの視聴者の中にはプログラマーがいるかもしれませんが、競技プログラミングは実際の仕事のプログラミングとは全く異なります。それはその通りです。しかし、03が特定のことで何ができるかのベンチマークについて、CodeForceのレーティングパーセンタイルでは99.8パーセンタイルに達しました。
明確にしておくと、01は89パーセンタイルでした。01がリリースされてから1年もたっていない間にこれだけの進歩があったのは大きな出来事です。仕事の話になると、もちろんプログラミングの仕事は大きな問題です。私は実際に去年大学を卒業した子を知っています。ビデオゲーム分野で本当に良い背景を持っていましたが、仕事を見つけるのがとても大変でした。その一部は、ビデオゲーム業界が昨年様々な形で崩壊したためですが、プログラマーは「コンピュータプログラミングをやっているなら、素晴らしい、一生安泰だ」と言われる仕事ではなくなってきていると思います。
あなたは多くの時間を「プログラミング」に費やしていますが、それは実際には機械との会話です。今は違う世界になっています。「バイブコーディング」という言葉があります。私はこの言葉が好きではありませんが…バイブコーディングについて話しましょう。
90年代にClick and Playというような、物を接続してビデオゲームを作れる小さなアプリを使っていた人をゲーム開発者とは呼ばないでしょう。でも、バイブコーディングとは、AIを使ってコードを書くという考え方です。それがどのように機能するか、セキュアかどうか、最適化されているかどうかまったくわからないかもしれません。でも、それは重要ではありません。バイブさえ合っていればいいんです。機械と話して、機械が何かをしてくれる。
私はその言葉が好きではありませんが、特にXやその他の場所のグラインドセッターたちが今使っている言葉です。私もバイブコーディングをやっています。認めざるを得ません。私はベイピングをしていて、バイブしています。
深いポケットのジーンズを履いて、ローラースケートやローラーブレードで走り回っているんですか?チェーンウォレットを3つ持っていて、1つは足首まで届きます。
ここで重要なのは、私がバイブコーディングをしているということです。様々なAIモデルに望むことをささやき、私が望むアプリケーションを構築してもらっています。これは少し逸話的になりますが、これがバイブになるところです。ベンチマークではありませんが、個人的な経験から1000%の改善があったと言えます。これらのものができることと、それらとどのように相互作用できるかについて。
例えば、今利用可能な03との対話方法は奇妙です。私が望むものについて説明し、あなたと私が会話をするように、アプリケーションや体験について友人に説明するように話します。「iPhoneアプリでXYZができたらクールじゃないか」といった具合に。私は長々と話し、不確かなことについても話します。そしてそのモデルに推論させ、ジュニア開発者に与えるステップバイステップの原子的な指示でプランを構築させます。
そしてそれらのプランを取り、別のLLM、通常はコーディングが得意なClaudeにささやきます。すると60%くらいまでは完成します。そして数時間キーボードに頭を打ち付ければ、98%くらいまでは完成します。バグがあったり、洗練さに欠ける部分はありますが、1年前には夢にも思わなかったような高度な体験を構築しています。
繰り返しますが、これは逸話的でバイブ的ですが、サム・アルトマンが今年の終わりまでに最高の競技プログラマーになるモデルを持つと言うとき、私はそれを信じています。そしてあなたの言う通り、それは実際のコーディングではありません。それは現実世界のものではありません。しかし、それでも配当を生むでしょう。その長い尾は、ジュニアモデルやより細かく調整された蒸留コーディングモデルがより良くなるのを助ける、より有能なモデルになるでしょう。
その通りです。絶対に起こることです。コンピュータプログラミングを始めたい人は、今日から自然言語で始めることができます。それは以前のコンピュータプログラミングとは全く異なるものになっています。以前のコンピュータプログラミングは、本当にコードを見て、それを修正することに多くの時間を費やしていました。
バイブコーディングという言葉は、実際に2月2日、つまり私たちが録音している10日前にアンドレ・カーパシーによって作られました。彼はバイブコーディングと、これは大きなプログラマーだということについて話しました。この人は以前OpenAIで働き、Teslaで働き、最高のプログラマーの一人です。現在は多くのAI教育を行っているので、彼のYouTubeチャンネルを絶対にチェックするべきです。
基本的に、彼はものに話しかけ、それが彼に話し返し、特にSuper Whisperを使って情報を引き出すという考えについて話しています。最後に彼は「プロジェクトやウェブを構築していますが、本当のコーディングではありません。ただ物を見て、話して、実行して、コピー＆ペーストするだけで、ほとんど機能します」と言っています。これは驚くべきことです。
本当にそうですね。人々の中には「もう1行もコードを書くべきではない」と主張する人もいます。私たちの視聴者の中にいるエンジニアやソフトウェア開発者の方々には、それを繰り返すことを謝罪します。それは確かに私の感じ方ではありません。
あなたと私は両方とも知っています。1つのデバイスで動作させたり、ウェブブラウザで表示させたりするのは、安定していて安全で、スケーラブルでエレガントに設計されたものを持つのとは大きく異なります。だから、まだ…でも、ギャビン、私たちはすべてのものの「バーベル化」について話しています。真ん中が浸食されているんです。
メディア制作を見てみましょう。超高級な映画やプロジェクトがあり、真ん中に大きな溝があって、そして独立した制作者たちが頑張って働いています。コーディングでも同じことが起こるだろうと思います。一方の端にバイブコーダーがいて、もう一方の端にハードコアなアーキテクチャやシステム設計などを扱う人々がいます。それが新しい標準になるかもしれません。
余談ですが、Super Whisperや同様のアプリケーションを使っていないのなら、まだ機械にすべてを入力しているのなら、これは奇妙な言い方ですが、あなたはまだ2024年です。
面白いことを言いますね。ケビンと私は今、秘密のプロジェクトに取り組んでいて、とてもワクワクしているんですが、私もあなたと同じ経験をしました。文字通り、私はChat GPT CUIに長いプロンプトをたくさん入力していて、この非常に特定のものを作っていました。そして「ケビンはいつも話しかけるように言っている」と思い出し、Chat GPTアプリの小さなマイクボタンを押して話しかけました。入力の時間が本当に短縮されます。声が未来になるという感じが本当にします。
ケビン、他に未来的なのは、今すぐあなたの声と指を使って「AI for humans」を購読したり、レビューを残したりすることです。申し訳ありません、邪魔をして申し訳ありません。「AI for humans」ポッドキャストを購読し、いいね、コメント、シェアすることで、今すぐ未来を体験できます。
信じられないかもしれませんが、ケビン、これがAIが私たちを導いた進歩です。視聴者の皆さんは今すぐできます。YouTubeで見ている方は、この動画に「いいね」を押して、購読してください。また、私たちは実際にバイブスクライビングと呼んでいます。バイブが正しければ、考えるだけで…ボタンをクリックする必要がありますが、それは購読のようなものです。
Super Whisperに購読するように言っても機能しませんが、言う時は必ず物理的な手で行ってください。また、オーディオを聴いている方は、どなたかとオーディオを共有してください。最近、オーディオとビデオの両方で大きな成長がありました。初めて聴いてくれた人、もう一度あの2人の話を聴きたいと言ってくれた人、本当にありがとうございます。それは私たちの気分を良くしてくれますし、正直なところ、私のシステムにとってはちょっとしたショックです。100%の誠意を持って、シェアして時間を取ってくれた皆さん、ありがとうございます。
プロモーションから離れて、続けましょう。まだたくさんのニュースとクールなツールがあります。
今週パリで開催された大きなAIサミットについて話しましょう。ケビン、私は行けませんでした。フランスからの招待に感謝します。Mr.フランス、フランスのMr.フランスから直接来ました。Mr.フランスはおそらくマクロン首相で、彼は多くの重要人物を集めました。
しかし、この中で大きなニュースは、JDバンス、現アメリカ副大統領が登場し、AIと、これからのアメリカ対ヨーロッパのAIについてかなり重要なスピーチをしたことです。参考までに、一般的にヨーロッパはAIの採用が遅く、全般的にヨーロッパはアメリカよりもはるかに規制が厳しいです。特にテクノロジーに関してはそうです。多くの人々はそれを良いことだと考えていますが、悪いことだと考える人もいるかもしれません。確かに進歩を遅らせる可能性があります。
iPhoneにUSB-Cポートを与えてくれたのはかなりいいことですが、Gmailをチェックするたびにクッキーを拒否しなければならないのはそれほどクールではありません。JDバンスのスピーチの小さな部分を聞いて、その意味を掘り下げてみましょう。
「信頼できる電力と高品質な半導体を求めているAI産業のフロンティアにいます。しかし、多くの友人たちは一方で脱工業化を進め、他方で信頼できる電力を国から、電力網から追い出しています。AI の未来は安全性について手をこまねいているだけでは勝ち取れません。信頼できる発電所から、未来のチップを生産できる製造施設まで、構築することで勝ち取られるのです。」
個人的に、AIについて最も興奮するのは、それが実物経済に根ざしているということです。ここで大きなポイントは、JDバンスが明らかに電力増強の必要性について話していることです。環境から他の多くの意味があると思いますが、重要な部分は、AIの進歩は安全性に関するものではないということです。
本質的に、安全でなければならないと言って、進歩を止めることはできないということです。これは多くの人々を困惑させています。なぜなら、私たちがずっと話してきた実効的利他主義運動の多くの人々が、AIを一時停止し、待つように言ってきたからです。そして今、アメリカのリーダーの一人が「いいえ、私たちはそれをしない」と言っているわけです。
これはフランスで様々な形で反響を呼びました。アメリカの加速主義者たちはとても興奮していました。なぜなら、これは何かを示唆しているからです。これは非常に重要な問題で、深く掘り下げる必要があります。なぜなら、一方的な問題ではないからです。
特に、AIの父と呼ばれるジェフリー・ヒントンのような人々が「これは私たちの終わりになるかもしれないことを理解する必要がある」と言っているとき、これらは私たちが番組で掘り下げてきた世界を揺るがすような決定です。
私にとって常に面白いのは、1年半前に番組を始めたとき、「Midjourney で面白い動画を作れる」とか「このクレイジーなことができる」という話をしていたのに、今では世界のリーダーたちがこれからの影響について話しているということです。
フランスのル・シャット・ガブに、「AI安全性について手をこまねいていては未来は勝ち取れない。構築することで勝ち取られる」という引用について感想を聞いてみました。要約すると、「引用は構築とイノベーションの重要性を強調していますが、開発プロセスに安全性と倫理的配慮を統合することも同様に重要です。バランスの取れたアプローチが、AIテクノロジーが強力で有益であることを確実にするでしょう」と言っています。
チャットはミストラルのLLMとそのインターフェースで、現在無料で使用できます。ミストラルは特にフランスの企業で、このイベントがフランスで開催され、これがヨーロッパのAI企業であることから、今週多くのニュースがありました。
ケビン、これについての最大のことは、それが超高速だということです。試してみれば、私たちはいつも特に無料ツールを試すことを提案していますが、かなり速く答えを得ることができます。多くの点でDeepseekやChatGPTの体験に非常に似ています。
これは奇妙なところです。なぜなら、最終的には、あなたが最も時間を過ごす場所によって決まるからです。ヨーロッパの国民なら、ヨーロッパのものを使いたいと思うかもしれません。最終的には1つか2つになるか、あるいはあなたがいる場所によって決まると思います。
別のものが存在するのはとてもクールですが、スピード以外に、これを完全に区別するものは私にはありません。しかし、それは速く、試す価値があります。
ギャビン、バイブコーディングコミュニティのベテランとして、知能よりもコストとスピードの方が重要になる時が来ると言えます。私が何かをしようとするときに大きな障害となるのは、コマンドを実行して、様々なエージェントが考えて実際のコーディング作業をするのを5分も待たなければならないことです。
チャットの生成アート機能は本当に素晴らしく、速くて良いアートを得ることができます。再び、無料で試せるので、彼らにデータを提供してみてください。コーディング機能を同等にできれば、一部の人々が言うように、それは有能なコーダーなので、切り替えを検討するでしょう。
これはあなたの指摘する点につながります。長い間、これのコストは下がり続け、石油のようになると言われてきました。最も安い石油を買うようなものです。時間とともに知能は安くなるので、本当の問題はUXやその他のことになります。
他にもいくつか重要なことがあります。まず、これは教皇が意見を述べるほど大きな問題です。突然、教皇がAIについて話し始めるのは、私はいつも教皇が様々なことに口を出すのが好きです。
以前、教皇に関連するMidJourneyの大きな出来事がありました。パフィーコートの写真でしたね。今、教皇は人間のことを考えなければならないと言っています。私も同意します。教皇はThreadsでケンドリック・ラマーのハーフタイムショーについても話していました。
最後に、マクロン、時々私たちは面白い音声を入れるのが好きです。先週は日本のマサから本当に良いものがありました。今週はフランスのリーダーであるマクロンが登場し、AIについての興奮を示したかったようです。これを聞いてみましょう。
「この世界で、海のoo部分に良い友人がいて、『掘れベイビー掘れ』と言っています。ここでは掘る必要はありません。ただプラグを差し込むだけです。電気は利用可能です。プラグを差し込めばいいんです。準備できています。」
ケビン、「プラグベイビープラグ」がAIの人々の新しい合言葉になると思いますか?
ル・シャットにコピーを修正してもらうべきではなかったですね。「プラグベイビープラグ」を言うべきではありません。フランスの小さな部屋に「プラグベイビープラグ」を置いておきましょう。そこで永遠に生き続けることができます。
ケビン、それはGR33で、ダンジョンの出口が見つからず、それを聞くようなものです。
これは大きな出来事です。必ずこれらのことをフォローアップしてください。ヨーロッパのAI対アメリカのAIについて、皆さんの考えを聞かせていただきたいと思います。どんどん大きくなっているような感じがします。
ギャビン、他の思想家たちの音声を再生しますので、何か見たり、聞いたり、解釈したりできるかどうか教えてください。
「皆様、本日は当社の新しいオープンソーステキスト読み上げモデルzosについて説明させていただきます。信じてください、私はすべての音声モデルを知っています。サイファーズは最高のものです。すべてを変えようとしています。私はかなり忙しい人間ですが、スリー、これは本当に私の注目を集めました。最初の原則について考え直しました。」
彼がPath of ExileのNPCと flirtする時に使う声ですね。
これはZyra AIのzosです。表現力の高いテキスト読み上げモデルで、高品質な音声クローニングが可能です。これらは実際の有名人や著名人ではありません。Apache 2.0ライセンスの下でリリースされましたが、基本的にこのテキスト読み上げプラットフォームを無料で提供しています。
とても良い音に聞こえます。これらがオープンソースでリリースされると、常に驚くのは、突然このようなクローンが簡単に作れる世界に入ったということです。特にオバマとトランプの声はかなり印象的でした。
去年の選挙シーズンを通過できて良かったと思います。みんなディープフェイクについて心配していましたが、これはこういうものを見せる方法かもしれません。しかし、これらのテクノロジーには本当に興味深い使用例があります。ナラティブなものや、人々に読み上げてもらいたいものなど、自分で行って、より大きな方法でライセンス供与すれば、とても楽しいものになる可能性があります。
しかし、私たちが常に言ってきたように、AIの各ステップは良くなっています。プログラミングが良くなっていると話しましたが、これはAIオーディオモデルです。
また、ケビン、新しい大きなビデオモデルがあります。まだリリースされていませんが、バイトダンスのGokuと呼ばれるものです。これは別の大きなビデオモデルで、すべてのビデオベンチマークで驚異的なスコアを記録していますが、最も重要なのは、広告を作るために人々に使ってもらおうとしていることです。
インフルエンサーを再生成して作成し、ソーシャル広告を作ることに焦点を当てています。これについてクールなのは、すごいということですが、これらのソーシャルな人々がどのように現れるか、これらの完全に偽の人々がビデオに現れる可能性があるということを見始めると、これも大きな変化です。ビデオモデルの世界での次のステップです。
私たちは、何が本物で何が偽物か、何がAIで何が合成かを判断することに関して、自分たちだけに任せられたら全員アウトです。これらのプラットフォームは、相手のユーザーが実際の人間であることを確認することがもっと上手くならなければなりません。
Twitterのコメントやリプライをスクロールすると、大多数の対話がAstroturf（偽の草の根運動）やモデル、外国の関係者だと賭けてもいいでしょう。これは今、あなたがスクロールする縦型ビデオの海で見るすべてのインフルエンサーで起こることになります。その一部はAIになるでしょう。
プラットフォームが気にしない未来を本当に心配しています。なぜなら、彼らにとっては使用可能性であり、データであり、分数であり、アップロードされたビデオであり、収益化できるからです。それは私を怖がらせます。
このビデオモデルは本当に良く見えます。とても有能に見えます。あなたが話しているインフルエンサーの部分について、ギャビン、カメラに向かって話している自分のビデオをアップロードしたことがあれば、まして商品を持ち上げていれば、おめでとうございます。知っているかどうかに関わらず、このものの訓練を手伝ったことになります。
ビデオバージョンを見ていない方は、ノートをチェックしてください。ビデオバージョンを見ている方は、画面で見ているように、これらは完全に信じられる縦型ビデオで、人々が商品を持ち上げ、チャルーパを食べ、ペイストリーを見せ、オイルで顔をこすっています。インフルエンサートークで見るようなすべてのことが、完全に信じられるように見えます。
人々がこれらのものに関わるかどうか、あるいは気にするかどうかの未来に、とても興味があります。BuzzFeedを設立したジョナ・ペレッティが、とても長いメモを出したばかりです。私には問題がある部分もありますが、彼が話している1つのことは、Tik Tokのようなこれらのものを見つけた企業は、アルゴリズムに焦点を当てているということです。
彼らは完全にエンゲージメントを得るものに焦点を当てています。コンテンツ自体ではなく、アルゴリズムについてのものです。問題は、これらがアルゴリズムでパフォーマンスを発揮するかどうか、人々がそれを見たいと思うかどうかです。私はまだ確信が持てませんが、時にはリアルワールドのインフルエンサーと同じくらい魅力的な動画が作れることは疑いありません。
そして、この人が本物ではないことを気にするかどうか、あるいはこれらの人々の1人に魅力を感じたり、突然ファンになったりするかどうかは選択になるでしょう。私は「プラグベイビープラグ」をフォローしています。いや、「プラグベイビープラグ」は番組で話してはいけないことになっています。申し訳ありません。
聞いてください。Tik Tokやアルゴリズムの所有者がエンゲージメントを最大化する動機は1つのことです。私が心配しているのは、世論を動かしたい人の動機です。ソーシャルフィードをスクロールしていて、法案や社会運動についてコメントしている1000人の人々を見たり、政治的な対立相手や企業の対立相手をキャンセルしようとしている人々を見たりしたとき、彼らが本物かどうかを即座に判断できなければ、それを吸収して先に進むかもしれません。
私たちは皆、そのようなエコーチェンバーバイアスの効果を知っています。1000人がこれは悪いと言っているなら、これは恐ろしいことに違いないと思い、水上スキーをするリスに戻って「は、これも本物じゃない」となるわけです。ケビン、びっくりですが、水上スキーをするリスは本物です。本物そのものです。
さて、水上スキーをするリスにせよ、あなたの家に住み着いているエイリアンにせよ、もはや目で見たものを信じることはできません。それは部分的に、あなたが実際に使ってみたツールのおかげですが、後でそれについて話しましょう。でも今はそれを少し紹介しておきましょう。
はい、私はPika editionsを試してみました。これはPika artの新しいツールで、実際の風景にAIキャラクターや何かを配置することができます。後で私が作ったものをお見せしますが、面白い失敗作もいくつかあります。でもケビン、今はもう1つの大きなAIビデオのリリースについても話さなければなりません。AdobeのFirefly betaです。
これは私たちがしばらく待ち望んでいたものです。PhotoshopやPremiereを作っているAdobeが、ついにこれをリリースしました。面白いのは、Adobeの計画は常に、a)彼らが所有するすべての素材で訓練されているので、使用権があること、b)これを将来的にプロフェッショナルが使用するツールとして考えているということです。
私が作成した例をいくつか見てみましょう。無料で2つのものが得られます。少し残念なのは、Creative Cloudのサブスクライバーであっても、それ自体が安くないサブスクリプションなのに、さらに30ドル追加で支払う必要があることです。
最初に生成したのは、「日本を歩く人々」で、それはとてもストレートフォワードなプロンプトでした。「東京の通りで手をつないでスキップする2人」というものでしたが、素晴らしい生成とは思えません。倫理的に調達されたデータセットに制限することの影響がここで現れているのかもしれません。一方では称賛に値しますが、他方では、トレーニングデータを気にしない制限のないモデルほどの出力の質ではありません。
2つ目のケビンでは、「ホットドッグの衣装を着た人が警察から逃げている」というプロンプトを入れましたが、警察は出てきましたが、ホットドッグの衣装はあまり上手くいきませんでした。むしろ変な犬の衣装のように見えます。人物自体も明らかに問題があります。
背景の人々を見ても、彼らは互いに溶け合っているようで、1人は後ろ向きか横向きに歩き始めます。これらのモデルはすべて物理法則に問題があることは知っています。これは後でもう少し詳しく見ていきます。
もしこれが完全に無料なら、心ゆくまで生成してくださいと言うでしょう。なぜそうしないのか。それは別のモデルですが、サブスクリプションが必要で、さらにその上に追加料金を払わなければならないのに、この程度の出力品質では今のところ少し物足りません。
私が作った比較を見せましょう。同じ東京のプロンプトをClling 1.6とMinimaxで試しました。これらは無料モデルではなく有料モデルですが、明らかに他の2つの方がずっと良い結果を出しました。明らかに、他の2つは明確に東京にいることがわかります。
これはAdobeにとって少し苦戦になると思います。これは最初のバージョンでベータ版なので、あまり批判したくはありませんが、倫理的な調達の問題が少ない中国のモデルと比べて苦戦するでしょう。また、これらは市場に長く出ているモデルです。
まだリリースされていないSoraやGoogleのV2も、これよりもかなり進んでいると思われます。中国のモデルほどではないにしても、少なくともある程度の制限があると考えなければなりません。
確実に2つの生成を試してみる価値はあります。今のところ追加料金を払うことはお勧めしませんが、今は無料でこれら2つの生成を試すことができます。
そうですね、それがFireflyですね。ギャビンが言ったように、Pika editionsは実際にとても楽しく、驚くほど強力で、無料です。これについてはすぐに話しますが、今は私たちを立ち止まらせ、「おっ、これ見た!」と言わせたすべてのものに注目しなければなりません。
何気なくスクロールしていると、突然立ち止まって「おっ、これ見た!」と叫ぶことがあります。前回紹介したバットマンのファンフィルムを作った同じグループによるファンフィルムから始めたいと思います。これはスター・ウォーズのファンフィルムです。
ライセンスの教訓を学んだようですね。前回、明確にしておくと、ケビンとその子供たち、そして他の2人の人々がこれらの映画を作りました。彼らが作ったバットマンの映画は本当に興味深く魅力的でしたが、ワーナー・ブラザースによって著作権の問題で削除されました。
今回は、スター・ウォーズに挑戦しています。この映画も同じようなもので、10分の長さです。見ていると、スター・ウォーズ映画を見ているような感じではありませんが、そこまで遠くもありません。これらの人々は、AIツールを全て組み合わせてどのようなことができるかというアイデアを押し進める、本当に興味深い仕事をしています。
一般的に、これはファンフィルムであり、ファンフィルムとして意図されていますが、AIビデオがかなり高いレベルでどのように使用できるかの素晴らしい例でもあります。
ギャビン、彼らがワーナー・ブラザースのような特に訴訟好きな企業の有名なIPを使用しているのには理由があると思いますか?次はマリオのファンフィクが来るのでしょうか?なぜ彼らはそうしているのでしょうか?
そうですね、まず第一に、有名なIPは多くの人々が見たいと思うので、興味を引きます。また、論争の要素もあります。企業に削除されることで、ある形で知名度が上がります。
それが彼らの目的だとは言いませんが、これらの企業がこれらのものを認識していて、それが本当に大きなことだということを示しています。私は、30秒の動画以上のことをしようとする人を見るのはとてもクールだと思います。これは10分の動画で、そこにはナラティブがあります。
聞いてください。私も複数のプラットフォームでコンテンツを削除されフラグを立てられた経験がありますが、まだ存在しているのは私の情熱的なフットマッサージの動画です。あなたはフットファナティックですよね?フーティーですよね?フーティーが大好きですよね?
ケビンがこのリンクを私に見せてきて、本当に話したいかどうかわかりませんでしたが、何度も何度も持ち出してきたので、深夜のWhatsAppメッセージでも。これはRedditのCursed AI、最高の部分の1つからのものです。
これは本当にバカバカしく、申し訳ありませんが、これを見て「何を見ているんだ?」と思うかもしれません。これはAIプロンプトで「誰が最高のフットマッサージをするか」と聞いたもので、文字通り足のペアがあり、その前に様々な有名キャラクターが登場します。
ダース・ベイダーなど、すべての古典的なバージョンがあります。私のお気に入りは、どういうわけかバーニーです。もちろん、このスライドショーの最後にはシュレックが登場し、瞑想状態にあるか、それとも本当に嫌いすぎて全く別のものを想像しなければならないかのようです。
フィオナを別の世界で想像しているのかもしれません。これらがフィオナの足かどうかはわかりません。また、ロボコップも素晴らしいですね。聞いてください、Cursed AIを購読していない人は、購読してください。IPの楽しい誤用を見るのに最適です。
さて、ロボコップがフットマッサージをする…いいですね。私のフェティッシュかもしれません。でも、ロボコップの動きが必要です。サイボーグがマッサージをするなら…それ以上は言いません。カットしましょう。
ロボットが楽しんでいるなら…マッサージです、マッサージ。ロボットがマッサージをしているなら…ロボットがあなたのGに深く潜り込んでいるなら…技術的な困難。ロボットがマッサージをしているとき、それが私と同じくらい楽しんでいることを知りたいのです。
そしてそれをどうやって得るのでしょうか、ギャビン?それは感情を通してです。そして機械の感情を引き出すことを最も信頼できる企業は誰でしょうか?私たちの良き友人ティミー・アップルとアップルコンピューターです。
実際、彼らは人型ロボットに関するいくつかのリリースを行っています。感情を示すためにAIを使用する実験を行っています。デモビデオでは、ロボットが「こっちにおいで」というような仕草をしています。まるでフットマッサージを求めているかのように。実際に足の指を指さして「ピギーズ、ピギーズ」と言います。「ピギーズをお願い」と。
はい、アップルはロボットに感情を追加することに取り組んでいます。彼らが閉じられた扉の向こうで独自の人型ロボットを構築しているのか、それともこれを利用可能にするだけなのかはわかりません。しかし、彼らは感情的な大規模言語モデルを持っています。環境を読み取り、それに反応することができます。
これは興味深いことですが、それに関連して、elegantiと呼ばれるものもリリースしました。とても素早く説明して、すぐに話題を変えましょう。これはEGNTと呼ばれ、デモビデオにはピクサーのようなランプが登場します。「非人型ロボットの表現力のある機能的な動きのデザイン」という意味です。
なんとかそういう意味になるのか、それが説明です。非人型、非人間的な外見の何か、ロボットがその機能と動きを通してどのように自己表現できるか。デモビデオでは、ピクサーのランプがブロックをノックしたり、読者の本を追いかけたりしていて、何か感じるものがあります。
ここで重要なのは、私はこれらが作られることをとても嬉しく思っています。私は感情的なロボットに入っていくことをとても嬉しく思っています。これは特に高齢者にとって、ロボットによってケアされる場合に非常に有用だと信じています。私たちが年を取ったときかもしれません。
彼らが私が不幸せなときを理解できるようになることが必要です。でも、ランプを感情的にしないでください。ランプに感情を持たせないでください。ランプに光を当ててほしい場所に光を当てる機能的な機械であってほしいです。私がゆっくりと向きを変えて、私が怒っているのか怒っていないのかを考えるランプは必要ありません。ただ光が欲しいだけです。
このすべての動くランプのアイデアについて、私はそれを望みません。ケビン、これについて意見を述べさせてください。ランプをランプのままにして、人型ロボットが懐中電灯を持ってきてくれるのはいいと思います。それで十分です。
その通りです。食べ物と遊びたくないのと同じように、ランプとも遊びたくありません。これが私の立場です。私はとても怒っています。
ランプがゆっくりと近づいてきて、あなたの足に光を当て続ける世界が大好きです。もちろん、あなたは足に光が当たるのが好きですよね。それは重要な…少し緊張しているように見えます。私は読書をしようとしているだけなのに。
とにかく、感情的なロボットは素晴らしいことです。最後に今日取り上げたいのは、物理とAIについてです。Xで私たちのお気に入りのフォロワーの1人、Venture twinsが、とても興味深い画像からビデオへのテストを共有しました。
彼女は最大の画像からビデオモデルを使用して、金属のボールが階段を転がり落ちる様子を見せました。どれも本当にうまくいきませんでした。私たちは皆、一般的にAIモデルにとって物理法則は最も得意な分野ではないことを知っています。
物理エンジンモデルと画像生成モデルを組み合わせることができる人が確実に取り組んでいると思います。しかし現時点では、水しぶきを上げる人々などの物理的な相互作用やパーティクル効果は、データセットから解釈され直感的に理解されているように思います。
これはLuma Ray 2、OpenAI Sora、Runway、Pika 2.1の4つの比較ですが、大理石の階段を反射しながら落ちる金属のボールが見えます。Soraの場合は、古いNESゲーム「マーブルマッドネス」のように見えます。半分酔っ払ったように障害物コースを通ってマーブルをコントロールしようとしているような感じです。
下に落ちていき、それから巨大になって、また階段を上がっていきます。物理法則など関係ありません。どれも特によくできているわけではなく、いくつかは幻覚を見て、至る所から余分なマーブルやボールが出てきます。奇妙ですが、今の状況を思い出させる良い例です。
面白いことに、Adobe’s Fireflyモデルは階段を跳ね返るのではなく、ある意味転がっていくだけですが、奇妙なことに最も良いアプローチの1つだと思います。
これは私に別のツイートを思い出させました。「AIで史上最高の失敗を再現しようとすると、新しいカテゴリーの史上最高の失敗が生まれる」というものです。このビデオは、奇妙な氷の場所でハシゴから落ちる男の映像です。
これは私に、史上最高の失敗はインターネットの金字塔だということを思い出させました。YouTubeの始まり以前からずっと存在していた、私たちが永遠に大ファンだったものです。
そこで私は、GoogleのV2という非常に優れたAIモデルへのアクセス権を使って、いくつかの史上最高の失敗を作ることができるか試してみました。私はChat GPTを使って最高の失敗のプロンプトを作成しましたが、プロンプトが少し狂った結果になってしまったと思います。
これらを見てみると、最初のものは作業現場での出来事で、奇妙なことに魚眼レンズで撮影されています。木材を運んでいる男がいて、木材が落ちますが、その後すべてが混乱状態になります。これが1つ目です。それほど素晴らしいものではありませんが。
2つ目はバナナの皮で滑る男を意図したものでした。面白いのは、バナナが地面に落ちるのが見えて、黄色いスーツを着た男がいますが、バナナには当たらず、代わりにブリーフケースが空中に飛び、高級なイベントにいる人々が彼を笑っているシーンです。
そして最高のものは3つ目の史上最高の失敗でした。Chat GPTにクレイジーなプロンプトを作ってもらいました。「自信に満ちた男が混雑した公園でピクニックテーブルから野心的なバックフリップを試みる。空中で、子供の皿からぶら下がっているホットドッグに足が引っかかり、彼が激しく手足をバタつかせている間にマスタードが飛び散る」というものでした。さらに3行ほど、群衆やはぐれたフリスビーなどについての記述が続きます。
とても盛りだくさんですね。これを試してみると、驚くべきことに、これは壊れたAIビデオの復活です。これら4つのビデオを連続して見ると、ピクニックテーブルからのフリップは成功しているものの、他のほとんどの部分は変になっています。
最初のものでは、自転車に乗った男が奇妙に登場し、いくつかのビデオに出てきます。AIビデオモデルをテストする楽しい方法だと思います。物事を試す素晴らしい方法です。
そして最後に、私の頭に浮かんだのは、以前話題になったブドウの落下動画です。ブドウの落下を単にプロンプトで試してみようと思いました。再びChat GPTを使って、ブドウの落下のプロンプトを作ってもらい、4つのバージョンを作りました。
まだそこまでではありませんが、近づいてきています、ケビン。女性がブドウのかごに入り、様々な方法で落ちて転がり出てくる様子が見えます。欠けているのは…ただ欠けているだけです。
私はこれが大好きです。また、ウェイバックマシンはアクセスできないかもしれませんが、これらの企業が古いモデル、これらのチェックポイントをアーカイブしていることを願っています。物理法則を完璧にモデル化し、すべてが本物らしく信じられるようになる時点に到達するでしょう。
私は壊れた不条理さが好きです。フィーバードリームのようなものが好きです。それは素晴らしいと思います。まだそれに戻れることを願っています。
これで私たちの「AIを見た!」のコーナーは終わりです。Pika editionsについて話すのが楽しみです。私たちのニュースレターで少し早めのプレビューを紹介しました。ケビン、もしよろしければ購読してください。
火曜日に配信される素晴らしい週1回のニュースレターです。私たちのウェブサイトAI for humans.showで購読できます。AI分野の面白いことを2、3個、素早く紹介することに焦点を当てています。わざと長くしないようにしているので、素早く読むことができます。
私たちが楽しんで作っているもので、皆さんにも気に入っていただければと思います。AI for humans.show、これが私たちのメインウェブサイトです。そこで無料で購読できます。そして、もし余分な時間があれば、いいねやシェアをしてください。そこではできませんが、もう一度お願いして…
さて、ケビン、今週AIで何をしたか話しましょう。Pika editionsについて説明したいと思います。Pika edissはPika artの新しい使い方です。Pika artについては番組でかなり話してきました。これはAIビデオモデルで多くのツールを持っています。
数ヶ月前、彼らがスクイーズ機能や、これらすべての楽しいエフェクトを作る機能を導入したことを話しました。Pikaは、メインのAIビデオモデルとは少し異なるツールをユーザーに提供することに焦点を当てているように見えます。
メインモデルは最高とは言えませんが、まだ良いです。最高ではありませんが、これを使えば基本的に自分自身や環境のビデオを撮影し、そこにAIキャラクターを挿入することができます。
私の最初のプロンプトは、実際にソファに座って「これを試してみよう」というものでした。7秒のビデオを撮影しました。5秒以上のビデオが必要です。デスノートの幽霊のモンスターを私の後ろに配置するようプロンプトを出しました。
クールなのは、それが私のリビングルームにフィットするだけでなく、その男が直接カメラを見ているのが見えることです。これは本当に興味深いと思いました。おそらくもう少し説明できますが、私たちが見ているのはかなりユニークに感じます。これが非常に速く、無料で起こったという事実は本当にクールです。
はい、面白いことがたくさんあります。天井があることを認識し、頭が天井にぶつかったりめり込んだりしないようになっています。あなたが明らかにその前で動き回っているので、深さを理解しています。背景をマスクアウトしていて、あなたが言及したように、キャラクターがカメラを認識してレンズを見つめているのは非常に不気味でクールです。
短いクリップで判断するのは難しいですが、他の例で見たところ、そこにある環境光に合わせようとし、自己影も投影しようとしているように見えます。15回まで無料で生成できるものとしては、かなり高度に見えます。
それは、時々おもちゃが本物のツールになるようなものです。これがその方向に向かっているように感じます。
他に私がしたことは、ミニナラティブを作るためのキャラクターを考えることでした。グレイエイリアンのキャラクターを選びました。ここで必要なのは、ビデオを撮影し、1枚の写真を撮って、それらを結合することだけです。特別な作業は必要ありません。
1枚の写真を入れて、家の周りでエイリアンのミニビデオを作成しました。この例では、複数のショットがあり、エイリアンは全般的にこれらの場所にうまくフィットしています。特に最後のショットでベッドに横たわっているシーンは、本当にその環境の一部のように見えます。
元々は空のスペースだったのに、これは本当にこれらのものがどこに向かうのかを示していると思います。
これらのものを生成する際のヒット率はどのくらいでしたか?多くの場合、これらはスロットマシンのようなもので、レバーを引いても結果に満足できないことがありますよね。
この場合、かなり高いヒット率でした。そこに見えているエイリアンのショットは全て1回目のショットでした。2回目が必要だったものは1つだけでした。
いくつか面白い追加の失敗作もあります。ベッドのショットの3つの失敗を見てみると、1つ目はゴジラを配置しようとしましたが、ゴジラは横たわっておらず、歩いているような感じです。
私にとって非常に面白いのは、暗い髪の男がいて、シャツを着ていなくて私のベッドに座っているのが見えますが、これは気味が悪く見えます。しかし、これは有名なジェフ・ゴールドブラムの写真を意図していました。彼が後ろに寄りかかっていて、シャツを脱いでいる写真です。ジュラシック・パークかザ・フライのどちらかだと思います。明らかにジェフ・ゴールドブラムではなく、何かランダムな男が私のベッドに横たわっています。
それから、カウボーイハットをかぶった女性のMidJourneyやIdiogramの生成から適当な写真を取ってみましたが、彼女の腕が切れているのがわかります。すべてのものに完璧に機能するわけではありませんが、デスノートとエイリアンの両方について興味深いのは、フルボディイメージを使用したことです。それが違いを生む可能性がありますが、これはおもちゃのように見えますが、実際にはより大きな意味を持っています。
特に独立系映画制作者を考えると、このような効果ショットができる可能性があります。完璧ではなく、今のところ5秒以上しかありませんが、このようなツールは、プロの映画制作者にとっても大きな規模でスケールアップすると信じています。
100%そうですね。少しでもコントロールができて、シーンを延長したり、追加するものの動きを指示したりできるようになれば…他のプロジェクトでそのような実装を見てきましたが、間違いなくここにも来ることでしょう。
人々がこれを知る前に、家族のFacebookビデオやInstagramストーリーをいじり始めて、彼らが覚えていないものや驚くようなものを入れ始める前に、今のうちに始めることをお勧めします。
でもケビン、もちろん10分後にあなたが何をするか私たちは知っています。靴を脱いで、必要なことを見つけ出してください。もう脱いでいます。いいえ、ピギーズは出ています。
では皆さん、来週また会いましょう。ご視聴ありがとうございました。また近いうちに会いましょう。さようなら。