先週のAI #185 – ムービージェン、ChatGPTキャンバス、SB 1047の拒否

15,027 文字

Last Week in AI #185 - Movie Gen, ChatGPT Canvas, SB 1047 Vetoed

Our 185th episode with a summary and discussion of last week's big AI news! With hosts Andrey Kurenkov and guest host Ga...

AIの歌手: ようこそ、未来のエピソードへ。ようけ深く掘り下げていこか。賢いもんが正しいって言うてるけど、テイラーはいつまでたっても映画ジェンみたいやないな。ゲームを変えて、大きな飛躍をしてる。先週のAIや。みんなで解説したるで。
アンドレイ: みなさん、こんにちは。先週のAIポッドキャストへようこそ。いつもの通り、このエピソードでは先週の最も興味深いAIニュースをいくつか要約して議論します。
いつも言うてるけど、このエピソードで取り上げへんかった話題や、このエpisodeに関連するリンクは lastweekin.ai で見られるで。
わいはホストの一人、アンドレイ・コレンコフや。スタンフォードでAIを勉強して、今は生成AIの仕事をしてるんや。
ご存知の通り、ジェレミーはまだ育児休暇中やから、今回も別のゲストホストを呼んでるで。実は、また来てもらったゲストホストなんやけど、自己紹介してもらおか。
ギャビン: みなさん、こんにちは。ギャビン・パーセルです。AI for Humansっていうポッドキャストとユーチューブ番組の半分を担当してます。うちの番組は、いわゆるメインストリームの娯楽系の視聴者向けにAIの神秘のベールを剥がすようなことをしてるんやけど、その過程で面白い創造的な実験もいっぱいやってるんや。
パートナーのケビン・プレイヤーと一緒に1年半くらいやってるんやけど、アンドレイ、そろそろ専門家になりかけてるんちゃうか?
アンドレイ: そやな、間違いなくそう言えるわ。特に研究や技術的なこと以外の、AIのトレンドの分野ではな。
ギャビン: そうやな。創造的なことに関しては、それがうちの得意分野やと思うわ。うちら二人とも創造的な経歴があってな。わいは長いことテレビの仕事をしてたし、ケビンもテレビの仕事をようけしてた。だから、創造的なツールを使って変な実験をいっぱいして、みんなに楽しい使い方を見せてるんや。
アンドレイ: そのとおりや。あんたの経歴はクリエイティブで、エンターテインメントもあるしな。このポッドキャストと比べたら、間違いなくもっと面白いと思うわ。
ギャビン: いやいや、このポッドキャストは技術的な詳細を知るために聞いてるんや。時々、うちらの番組で言い換えたりすることもあるしな。どっちもそれぞれ使い道があるんやで。
アンドレイ: そうやな。わいもあんたらの番組のファンやで。AIの共同ホストとか小さな実験とか好きやわ。リスナーの皆さん、面白そうやと思ったら、ぜひチェックしてみてな。
ギャビン: うちらの番組のことをもっと知りたかったら、AI for humans.showってウェブサイトに行ってみてな。そこからYouTubeやポッドキャストへのリンクが全部あるで。
アンドレイ: せやな。YouTubeで検索したら、きっと面白い動画がいっぱい見つかるで。
ほんで、ニュースに入る前に、コメントに返事しとこか。YouTubeで面白い訂正があってん。隠しメッセージを平文に隠すのは「stenography」やなくて「steganography」やって。暗号学者が言うてたんやけど、わいも知らんかったわ。おもろいな。
もう一個、またスケジュール通りになって、タイムワープみたいにならんようになったってコメントもあったな。うまいこと続けられるかどうかは分からんけどな。
Apple PodcastでもExtant PensisとNerd Planetから素敵なレビューをもらってん。Apple Podcastの名前っていつも面白いな。
全てのレビューとコメント、いつもありがとうな。YouTubeやうちらのサブスタックなんかでもどんどんコメントしてな。
ほんじゃ、ニュースに入っていこか。今週はギャビンにとってええ週やな。クリエイティブなことや、みんなが使えるツールに関するニュースがようけあって、技術的なオープンソースの話はあんまりないからな。
ツールとアプリの話から始めるで。わいにとって今週一番大きなニュースは、メタがムービージェンっていうAI動画生成ツールを発表したことやな。これはほぼソーラやと思うわ、メタ版のな。
実はただの動画生成やないんや。論文のタイトルは「ムービージェンXR: メディア基盤モデルのキャスト」っていう、ちょっとかわいいタイトルやねん。
動画を生成するだけやなくて、動画編集もできるんや。特定の方法で動画を修正したり、オブジェクトを入れ替えたりもできる。動画のためのオーディオを生成する別のモデルもあるし、使い方の例もようけ示してるわ。
詳しく言うと、このモデルは16フレーム/秒で16秒の動画を生成できるんや。現在のモデル、ランウェイのジェン3、ソーラ、クリング1.5、ルマラボと比較してるけど、全部圧倒してるわ。話しながら編集で映像を入れてみるわ。
めっちゃええ感じやと思うわ。ギャビン、どう思う?
ギャビン: めっちゃええ感じやな。でもソーラと一緒で、まだ試せへんのがなあ。これとソーラの両方について重要なとこやと思うわ。わいはこういうツールをようけ使ってきたからな。特にランウェイのジェン3、あとルマとクリングとミニマックスも使ったことあるわ。クリングとミニマックスは中国のモデルやけど。
うん、すごそうやな。ソーラが見せたもんや他の動画モデルが見せたもんと全然違うのは、インペインティング機能やな。ここで見せてるインペインティング機能は、使い方を考えたらめっちゃ革新的やと思うわ。
AI動画を使うときに一番かっこええクリップの一つは、砂漠みたいな景色を走ってる男の映像やねん。そこで男を変えたり、周りの景色を変えたりできるんや。今のAI動画では難しかったことやねん。今はスロットマシンみたいな感じやからな。「さあ、何が出るかな?」みたいな。画像から動画を作る場合でも、何が出てくるか分からへんのや。
これをもうちょっとコントロールできるようになったら、すごいことになるで。今のところ見せてる例を見ると、ブログの一番上にすごいのがあるわ。泥んこの中を泳いでるカバの赤ちゃんみたいなんがあって、ここで見せられるけど、めっちゃかわいいんや。
これについて面白いと思うのは、あんたはどう思うか知りたいんやけど、ランウェイも言ってるし、ソーラも言ってるし、ムービージェンもそうなんやけど、AI動画を単なる動画のシミュレーターやなくて、世界のシミュレーターとして考えてるってことやな。これについてはようけ言えることがあると思うわ。
ちょっと技術的な話になるかもしれんけど、LLMが言葉を学習する代わりに、もうすぐ画像や動画を学習するようになって、さらには現実世界とか、現実世界がどんな感じかとか、物理法則がどう働くかを学習するようになるって考え方やな。そうなったら、もっと大きくて面白いモデルができるんちゃうかな。
こういう高度な映画生成モデルは、そっちに向かう一歩やと思うわ。ゲーマーとしては、環境に入って「XYZをプレイしたい」って言って、「こんな感じに見えてほしい」って言えば、それができるのが究極の目標やな。めっちゃかっこええ使い方やと思うわ。
まあ、そのビデオゲームを作るのに地球の資源の半分くらい使うかもしれんけどな。でも、次の方向への面白い一歩やと思うわ。
あと、ケビンとわいがよく番組で話すんやけど、エンターテインメント業界でも、AIを絶対に使わへん人たちがようけおるんや。わいらはそういう人たちにも、ちょっと興味ある人たちにもいつも言うてるんやけど、これは止まらへんで。だから、これらをツールとして知っておいて、オープンに構えておいた方がええで。これからもっとクレイジーになるだけやからな。
アンドレイ: そやな。ビデオで学習するっていう一般的な考え方は、これらのマルチモーダルモデルの未来にあるみたいやな。OpenAIのGPT-4.0は音声と画像で学習したし、ビデオもそういうもんの一つになりそうやな。
ビデオで学習すると、テキストの推論能力も上がるかどうかはまだはっきりしてへんけど、ありえんこともないし、そうなりそうな兆しもあるしな。
そやな、ビデオはまだAIのフロンティアの未来であり現在やな。
あと、言うたみたいに、これはリアルタイムやないってことは言っとかなあかんな。ソーラと一緒で、ビデオを生成するのに時間がかかるんや。だから、ランウェイのジェン3とかルマとか、実際に使えるツールと比べるのは完全に公平やないな。
部分的には、まだ早すぎるって言うてるからリリースしてへんのやと思うわ。遅すぎるとかな。これはもっとプレビューみたいなもんやな。
ギャビン: ソーラがどうなってるか、めっちゃ気になるわ。ソーラはもう知られてからしばらく経つけど、調べてみたら、OpenAIの中では多分1年くらい前からあったんやないかな。
まだ何も形で出てへんのが驚きやわ。もしかしたら、「もうサーバーが01で燃え尽きそうやから、今は動画モデルを出す余裕がない」って感じかもしれんけどな。
でも、サムの新しい出荷方針を見てると、今年の選挙後、年末までにはソーラが出ると思うわ。OpenAIが遅れを取ってるように見えたくないと思うからな。
あと、あんたも多分フォローしてると思うけど、ソーラには画像モデルもあるらしいんや。だからDALL-Eをアップデートして、DALL-E 4にするか、ソーラとして出すのが簡単な方法かもしれんな。
これはもうすぐ来ると思うわ。これ(ムービージェン)はもうちょっと先の話のような気がするけど、メタがこういうことにめっちゃ金をつぎ込んで、いろんなことをしてるってことやな。これからメタは大きなプレイヤーになるで。
ほら、LLAMA 4もそんなに遠くないし。そのくらい良いオープンソースモデルがでかくなったら、ゲームチェンジャーになると想像せなあかんな。
アンドレイ: そのとおりや。オープンソースの観点から言うと、LLAMAモデルみたいにこれの重みをもらえるんかって質問があったんやけど、今のところ重みはないし、オープンリリースの約束もないんや。
でも、それは驚くことやないと思うわ。これは実際、Googleとかほかのライバルがまだ持ってへんもんやからな。大規模言語モデルとは違って、競争上の優位性として、自分たちだけで持っとくのは理解できるわ。
ギャビン: これについてもう一つ言いたいことがあるねん。ズッカーバーグが画像モデルについて言うてたことにぴったり当てはまるんや。強調してたのは、自分の写真を撮って、それをビデオクリップに入れられるっていう考え方やったんや。
オープンソースでそういうことができるものはようけ見てきたし、フェイスフュージョンみたいなツールもオープンソースであるしな。これはメタがやりたいことの大きな側面やと思うわ。
わいが思うに、メタが本当にやりたいのは、InstagramとかWhatsAppとかFacebookみたいな自社のアプリでこういうツールを使えるようにすることやねん。
ズッカーバーグにとっては、絶対的な最先端を行くことよりも、他の人たちの足を引っ張って、みんなをメタのアプリに引き込むことの方が重要やと思うわ。
だから、これは別の取り込みツールやと思うんや。おばあちゃんが300人の戦士みたいになって剣を振り回す動画がバズったら、それはめっちゃええことやろ?
まあ、300っていう映画の著作権の問題があるから、正確にはそうはならへんやろうけど、おばあちゃんをギリシャの戦士にして、誰かを崖から蹴り落とすことはできるかもしれんな。
アンドレイ: そうやな、著作権のある素材を使ったんかどうかって面白い質問やな。公開されてるデータとライセンスのあるデータで学習したって言うてるから、多分アイアンマンになることはできへんやろうな。まあ、誰にも分からへんけど。
ギャビン: 中国のモデルなら全然平気やけどな。
アンドレイ: そうやな、そのとおりや。
ええ指摘やな。実は、めっちゃ長いブログ記事の最後に、こんなこと書いてあってん。「リールで1日の生活を自動的に動画にして共有したり、テキストプロンプトで編集したり、友達の誕生日に合わせてアニメーションの挨拶を作ってWhatsAppで送ったりすることを想像してみて」って。
ギャビン: そうそう、そこやな。もうはっきり言うてるわ。JibJabをぶっ潰すつもりやな、アンドレイ。JibJabをぶっ潰すんや。JibJab覚えてる?
アンドレイ: 覚えてへんわ。
ギャビン: JibJabは昔のアプリでな、聞いてる人で覚えてる人おるかもしれんけど。最初は踊るエルフの顔を自分の顔に置き換えるアプリやってん。それから他のキャラクターもできるようになってな。簡単に共有できる素材を作れるアプリやったんや。これがメタの本領発揮やと思うわ。
アンドレイ: なるほどな。面白いのは、先週GoogleのVoがYouTubeに来るってニュースを取り上げたやろ。スナップもこれをやってるしな。これは全ての創作ツール、クリエイティブツールの標準的な動きになりそうやな。多分TikTokもすぐに自分たちのを出すんやないかな。
ギャビン: そやな。後で話すピカの話もこれに関係してるな。
アンドレイ: ほんで次のニュースはOpenAIの話や。新しいキャンバス、ChatGPTインターフェースを発表したんや。これは文章やコーディングプロジェクト向けにカスタマイズされたもんやねん。
普通のChatGPTの体験の上に乗っかってる感じやな。まだチャットボットと話してるんやけど、文章やコードを書くためのワークスペースみたいなもんやと思えばええわ。
そのワークスペースで直接文章やコードを生成できて、選んだ部分をモデルに編集させることもできるんや。だから、行ったり来たりしてテキストチャットのインターフェースだけでやりとりするんやなくて、実際に作業中の下書きがあって、それを編集するのにAIと協力してるみたいな感じになるんやな。
これはAnthropicのアーティファクトや、カーソルってツールに似てるな。カーソルはコードの中でチャットせんでも、AIにコードを修正させられるインターフェースやねん。
これは新しいユーザー体験のパラダイムになりそうやな。チャットボットとのやりとりをもっと流れるようにする、かなり重要な一歩やと思うわ。ただチャットインターフェースで行ったり来たりするんやなくてな。
ギャビン: めっちゃ面白いと思うんは、プログラマーにとっては特定のところを変えられるのが大事やと分かってるんやけど、わいみたいに文章を書くのに使う人間にとっては、文書全体を何度も生成し直さんでもええようになるのがすごくええんや。
セクションごとに生成できるようになるんや。LLMを使ってこういうことをするときに一番イライラするのは、「これを試して、あれをして、別のバージョンを出して」って言うたら、別のバージョンを出すときに、変えてほしくない部分まで変わってしまうことがよくあるんや。
これのええところは、例えば何かの応募用紙を書いてるとしたら、その一部分を選んで「この部分を手伝って」って言えば、他の部分はそのままで助けてくれるんや。これは使い勝手の面で大きな進歩やと思うわ。
もう一つ、これが示唆してるのは、エージェントが何かをやってくれるようになったときのことやな。「この文書を出して、この行を変えて」って言うたら、今までよりずっと具体的にできるようになると思うんや。
こういう風に分解できるってことは、ある意味、ステップバイステップやけど、特定のもんの中でのステップバイステップってことやな。分かる? これは何かを修正したいときに大きな助けになると思うわ。
アンドレイ: うん、全く同感や。カーソルっていう似たようなツールをコーディング用に使ってきたけど、テキストの一部を強調表示して、AIにそこで正確に何をしてほしいかを伝えられるのはめっちゃ便利やねん。
例えば、段落を強調表示して「この段落をもっと簡潔にして」って言えるんや。ほんま、同じ内容を何度も出力し直すよりずっといい体験やわ。
ギャビン: コーディングでもそうやな。バグは特定のセクションで起こるもんやから、そこを修正する能力が大幅に向上するってことやな。
アンドレイ: そうそう。退屈なことを早くできるようにもなるんや。例えば、リストに関連する数字のリストがあって、リストの一部を取り除いたら、全ての数字を1ずつ減らさなあかんってことがあるやろ。
今までは一つずつやらなあかんかったけど、これからはその部分を強調表示して「全ての整数を1減らして」って言えばええだけや。
ギャビン: それめっちゃええな。
アンドレイ: せやろ。だからバグ修正に役立つだけやなくて、今まで自分でやらなあかんかった退屈なことをやってくれるんや。
ギャビン: ところで、これとかアーティファクトとかってカーソルのビジネスを脅かすことになると思う? カーソルがやってることって、これと同じなん? それともカーソルにはまだまだ成長の余地があると思う?
うちの番組でよく話すんやけど、OpenAIやAnthropicみたいな会社が次の一手を発表するたびに、スタートアップをつぶしてしまうような感じがするんよね。カーソルは今めっちゃ資金調達できてるけど、独自の特別なものがあってこれからも続けていけると思う?
アンドレイ: カーソルに関しては、間違いなくそうやと思うわ。だってカーソルはコーディングだけに特化してるし、プログラマーがコードを編集するプログラムに統合されてるからな。
ChatGPTは別モンやし、ファイルシステムにはつながってへんからな。だから本当のゲームチェンジャーにはならへんと思うわ。
でも、創作文章用のアシスタントとかがあるやろ。そういうのには大きな挑戦者になる可能性はあるな。
ギャビン: なるほどな。
アンドレイ: 次はOpenAIの別の話題や。これはちょっと使いにくいかもしれんけど、開発者向けのもんやな。OpenAIが開発者デーってのを開いて、ソフトウェアエンジニア向けの新しい開発をいくつか発表したんや。
特に面白いのはリアルタイムAPIで、アプリでほぼリアルタイムの音声から音声への体験ができるようになるんや。多分、GPT-4.0でリアルタイムで音声を生成できるようになったのと似たようなもんやと思うわ。今度は音声をリアルタイムで修正できるようになるんや。
それ以外にも、いろいろ発表があったんやけど、詳しくは話さんでもええかな。コストを下げたり、画像関連のファインチューニングを導入したりしてるんや。これは結構重要で、テキストモデルと同じように、画像に関連することをファインチューニングできるようになるんや。
ちなみに、会社があって独自のデータや使用例があるなら、ChatGPTを自分たちのケースに合わせてカスタマイズするために料金を払えるんやで。
他にもいろいろあるけど、一番の目玉はこの音声から音声へのサービスやな。
ギャビン: うん、リアルタイム音声APIについては、ちょっと掘り下げてみたんや。実はケビンとわいで、音声を使ったアイデアを実際に試してるところやねん。今は秘密にしとくけど、めっちゃワクワクしてるわ。
これはめっちゃ面白いな。少なくとも今世の中に出回ってるものの中では、OpenAIの高度な音声が最先端って感じがするわ。
面白いのは、これを既存のアプリや新しいアプリに組み込めるってことやな。今はめっちゃ高いけどな。確か、数字は覚えてへんけど、普通の消費者向けアプリで定期的に使おうと思ったら、4分の1ドルくらいかかるんやないかな。
でも、こういうのはどんどん安くなっていくもんやしな。1年後には、めっちゃ安い音声から音声へのサービスが、ポーズなしで使えるようになるかもしれんな。OpenAIの高度な音声アプリを使ったことあるなら分かると思うけど、話しながら聞いてくれて、すぐ返事してくれるのがめっちゃすごいんや。
わいの個人的な意見やけど、これからどんどんこっちの方向に進んでいくと思うわ。音声が誰にとっても大きな入力手段になるんやないかな。今まではSiriとかAlexaで音声を使うのに慣れてきたけど、本当に基本的なことにしか使ってへんかったやろ。
でも今は、Whisperとかそういうツールのおかげで、言うたことを本当に正確に文字に起こせるようになったから、本当に何が欲しいのかを正確に伝えられるようになってん。そして、このやりとりが起こって、AIのエージェントが現実世界で本当に役立つようになったら、「ねえ、この人にこの内容でメールを書いて」って言うたら、そのまま書いてくれて、ちらっと見て「よし、送って」って言えば送れるようになるんや。
これはAIができる本当に魅力的な使い方やと思うわ。もっと大きな話をすると、これは社会をめっちゃ変な方向に変えると思うわ。10年後くらいには、みんながこういうAIに話しかけるようになって、人間扱いするようになると思うわ。時間をかけて話すことになるからな。
これは、目の前にあるデバイスとのやりとりの仕方も変えると思うわ。メタの新しいメガネと組み合わせたら、キーボードのない世界が見えてくるんや。変な話やけど。キーボードは長いこと入力デバイスとして使われてきたからな。
すでに携帯電話では小さな画面で入力することに慣れてきてるし、みんなそんなことできへんと思ってたのに。でも、これからは音声が主な入力手段になると思うわ。そういう基盤を作ってるように感じるんや。
アンドレイ: そうやな、ある程度はそう思うわ。キーボードについては、プログラマーとしてはちょっと過激すぎる気がするけど。
ギャビン: でも、AIに「XYZをやって」って言って、ちょっと調整するだけでええようになったら、そんなにクレイジーな話でもないかもしれんな。
アンドレイ: せやな。音声がAIとのやりとりの主な方法になるってのには絶対同意やわ。実際、ある程度はもうそうなってるしな。これから何年かの間に、確実にそうなると思うわ。
面白いのは、携帯電話では音声を文字に変換する技術がずっと前からあったってことやな。タイプする代わりに何か言うだけで効率的にできたのに。わい個人的には、なんかそういう習慣に変えられへんかったんやけど、スマートグラスとか他のもんが出てきたら、みんな公共の場で独り言を言うようになるかもしれんな。
ギャビン: 一番変なのは、電話で話すんやなくて、AIと話してるのを見かけるようになることやと思うわ。めっちゃ奇妙な光景になるで。
アンドレイ: そうやな。面白くなりそうやな。
次はOpenAIから離れて、ちょっとしたスタートアップの話や。Black Forest Labsがフラックス1.1プロとAPIをリリースしたんや。
ちょっと思い出してもらうと、Black Forest Labsはめっちゃ新しい会社で、あの革命的な画像生成モデル、Stable Diffusionを作った人たちが立ち上げたんや。今や画像生成モデルのリーダーで、もしかしたら最高のモデルかもしれんな。
人々に遊んでもらったときに、Xのグロックでそれが分かったんや。で、ここでフラックス1.1っていう次のバージョンが出たわけや。画像がマジで驚くほどええんや。
今まで写真みたいなリアルな画像でも、AIで作ったって分かるところがあったけど、今はそれを見つけるのがめっちゃ難しくなってきてるんや。
モデルのアップデートと一緒に、開発者向けの有料APIもリリースしたんや。だから、すでにあるアプリ以外で自分のアプリを作りたい人は、APIを使ってフラックスを使えるようになったんや。
ギャビン: うん、フラックスが最初に出たときは本当に驚いたわ。わいの中では、Stable Diffusionの代わりになるって感じやったな。Stable Diffusionはちょっと下火になってきてるし、ジェームズ・キャメロンたちが何をするか見てみないとわからんけどな。
でも、わいはいつもフラックスで一番ええ結果が出るんや。面白いのは、今のフラックスは、確かに数個のプログラムで定期購入して使えるようになってるけど、多くの場合、使った分だけ払うシステムになってるんや。FallやReplicatorみたいなサーバーシステムで使うとき、めっちゃすごいんやけどな。
わいが一番うれしいのは、画像モデルを前に進めてる会社がもう一つあるってことやな。あと、ビデオモデルについてちょっと予告してたよな。フラックス1.0を出したときに、ビデオモデルのことも言うてたんや。
もしランウェイのジェン3モデルより良いオープンソースのビデオモデルを出せたら、それはめっちゃワクワクするな。ランウェイとかルマとか、今すでに出てるモデルの中では、ジェン3が一番ええ感じやと思うわ。
面白い会社やと思うわ。おもろいことしてるし。これがまた、色んな可能性を開くんやな。グロックにも使われてるし、これはしばらく続いてるけど、他の画像モデルではできへんことができるようになるんや。クリエイティブなアイデアで遊びたいときにはめっちゃ面白いで。
ドア兄弟の作品見たことある? トランプとヒラリー・クリントンとカマラが便利店に入っていく動画を作った人たちや。みんなが嫌がったやつやけど。あれはある意味アート作品やと思うんやけど、ああいうのはオープンソースのモデルで作られてるんや。
閉じたモデルでは有名人の画像を生成させてくれへんからな。まあ、Midjourneyはちょっと近づけるけどな。Midjourneyは一番変なとこあって、ほぼ目的のところまで行けるけど、完全にはいかへんのや。
アンドレイ: Black Forest LabsとFluxは確かに設立されてからめっちゃ早く出てきたな。これはただ良くなっただけやなくて、めっちゃ速くなったんや。生成速度が6倍速くなったって言うてるで。
クリエイティブなプロジェクトをやってる人や、ただ遊んでる人にとっては、これはゲームチェンジャーやな。6倍って、すごいわ。
ビデオに関連したものを出すのを見るのが楽しみやな。彼ら、ちょうど資金調達して、ようけ金集めたところやし、驚かへんわ。
ギャビン: ほんま? いくら集めたん、気になるわ。
アンドレイ: 正確な数字は覚えてへんけど、数千万ドルくらいやったと思うわ。
ギャビン: ほな、しばらくはやっていけるな。ええことや。
アンドレイ: 次は、なんか生成するんやなくて、別のツールの話や。マイクロソフトがコパイロットに音声と視覚を追加して、今までで一番大きなデザイン変更をしたんや。
新機能がようけ追加されてるんや。バーチャルニュースキャスターモードがあって、ユーザーが見てるものを見る能力があって、自然な会話のための音声機能もあるんや。これはOpenAIの高度な音声モードに似てるな。
このデザイン変更は、モバイル、ウェブ、それに専用のWindowsアプリ全部に適用されるんや。正直、コパイロットのことすっかり忘れてたわ。
ギャビン: いや、Windowsユーザーはようけおるで。それに、この前ベストバイに行ったら、PCでめっちゃ宣伝してたわ。みんな必死で売り込んでるんや。
わいから見たら、これはOpenAI… マイクロソフトはOpenAIに大きな投資してるやろ。確か利益か会社の所有権の49%くらい持ってるんやないかな。OpenAIがツールを発表して、それをすぐに落としたみたいな感じに見えるわ。つまり、OpenAIのものを全部コパイロットに入れたんや。
みんな覚えてるかもしれんけど、ムスタファ・スレイマン、PiのCo-founderやった人が、今マイクロソフトのAI部門のトップになってるんや。これは大きな一歩やと思うわ。コパイロットをもうちょっと使いやすくて、色んなことができるように作り直したんやないかな。
わいはコパイロットを、こういうもんの一般向けの入り口みたいに考えてるわ。まあ、ターゲットがどんな人たちなのかは分からへんけど。コパイロットを使ってみた企業がようけあって、あんまり役に立たへんかったっていう話もあるしな。
これで、特にいくつかの場面ではめっちゃ役立つようになると思うわ。ちなみに、Appleのインテリジェンスはまだ出てへんのや。わいは新しい電話持ってるけど、まだアクセスできへん。今月末にやっと出るらしいわ。
コパイロットはOpenAIのパワーを使ってるから、めっちゃ強力なサービスなんや。実際、思考の連鎖みたいなのもあるんや。何て呼んでたか忘れたけど、明らかにGPT-1の何かがコパイロットに入ってるんや。
全体的に見て、これは納得できるわ。マイクロソフトはOpenAIの大きな部分を持ってるから、マイクロソフトの世界では別のブランドで製品を出すんや。多分、みんな使うようになると思うわ。これで多くの人の目に触れることになるやろうな。
アンドレイ: そうやな。わいはMacを使ってて、Windowsはあんまり使わへんから忘れてしまうかもしれんけど、西側ではめっちゃ目立ってるし、マイクロソフトの製品全部で使えるんやろうな。
同意やわ。Piの消費者向けの影響が少し見えるな。確かに、もっとスタイリッシュになって、ChatGPTみたいな他のチャットボットよりもっと親しみやすくなってるように見えるわ。テキストボックスだけやないからな。
ギャビン: 本当にほしいのは… わいの部屋の上にWindowsのゲーミングPCがあるんやけど、前はAIのために使ってたんやけど、今はクラウドでやることが多くなってしばらく下ろしてへんのや。
でも、エージェントが自分で操作できるようになったら… わいのPC上で何かやってくれたらええのにな。インターネットのことやなくてもええんや。例えば、「このソフトウェアをアップデートして」とか、もっと簡単なこととか、「このソフトウェアを承認して」とか、「このファイルを削除して」とかできたら、めっちゃ便利やと思うわ。
マイクロソフトが一時期そういう方向に行こうとしてたのは知ってるんやけど、役立つ方法を見つけるのが次のステップやと思うわ。話しかけて変なことを言わせるのはかっこええけど、今のところ使い道があんまりないんや。ファイルを操作したり、何かをやってくれたりするまでは、そんなに強くならへんと思うわ。
アンドレイ: うん、全く同感や。次のステップは、例えば「このフォルダの中の画像ファイルを全部削除して」とか、「各ファイルの名前からこの小さなテキストを取り除いて」みたいなことやと思うわ。わいがやらなあかんかった退屈な繰り返しの作業やな。そういうのはもうすぐAIがやってくれるようになるやろうな。
最後のニュースや。Googleがタイに10億ドル投資して、データセンターを建設してAIの成長を加速させるんやって。
大きな政策の話やないけど、面白いと思ったんや。マイクロソフトとか、今回のGoogleみたいに、外国のデータセンターに大金を投資する発表をようけ見かけるんや。
今回はタイやけど、ベトナムとか他の国でもあるんや。多分、AIの計算を分散させる必要があるからやと思うわ。AIの計算ってめっちゃエネルギーを使うからな。AIツールをどんどん増やしていくと、データセンターを増やして、もっとエネルギーを使わなあかんようになるんや。
だからデータセンターを作って、アジア向けのクラウドインフラを拡大するのは、かなり大きな投資やな。
ギャビン: お金は世界中に広がっていくやろうな。これらはいつか土地の問題になるからな。「安い土地はどこにあるか」「安い労働力はどこにあるか」みたいな。だから、多分世界中の色んな場所でこういうものが増えていくと思うわ。
アンドレイ: 次は合成メディアとアートの話や。最後にもう一つだけニュースがあるんやけど、これはちょっとかわいくて面白い話や。めっちゃ重要ってわけやないけど、ちょっと軽い話で終わりたいと思って入れたんや。
AIの読書コーチのスタートアップが、子供たちに自分の物語を作らせるようにしたんや。「ストーリータイム」っていう機能を出して、子供たちが色んな設定、キャラクター、筋書きから選んで、自分だけの物語を作れるようにしたんや。
このAIの相棒は、子供が読むのを聞いて、発音が間違ってたり言葉を飛ばしたりしたら直してくれるんや。読み方は二つあって、AIと読む人が交代で読むのと、AIが大部分を読むのがあるんや。だからAIに物語を聞かせてもらうこともできるし、AIの助けを借りて読み方を学ぶこともできるんや。
もう結構人気みたいやな。何万もの家族に使われてて、70万冊の本が読まれてるんや。値段は月15ドルで、政府の援助を受けてる家族には割引があるんや。
ギャビン: めっちゃかっこええな。前から言うてたけど、AIがチューターみたいになるって。
これは、摩擦のない楽しい方法でそれをやってるんや。「数学の宿題を送って」みたいなんやなくて、パンデミック後の子供たち、特に小さい子らは読むのに苦労してるって聞くんや。わいの嫁は創作文章を教えてる作家なんやけど、そう言うてた。
だから、子供たちに読ませる方法は何でもええんや。親の人は子供と一緒に読んでな。もちろん、うちもそうしたし、嫁は子供が小さいときによう読んでたわ。
でも、これはRobloxとか他のもんの代わりに、楽しみながら学べる機会なんや。学んでる感じがせんのがええところやと思うわ。
アンドレイ: そのとおりや。このAI革命の一番かっこええところの一つは、めっちゃ質のええ教育を広く利用できるようにしてるってことやと思うわ。これはその一例やな。
わいの印象では、今の子供たちのことはよう知らんのやけど、AIと一緒に育つ次の世代が、わいらとどう違うのか見るのが楽しみやな。うまくいけば、かわいい物語ができて、子供たちが読書中毒になるかもしれんな。
ギャビン: この教育のAIの話で最後に言いたいのは、深く考えることを子供たちに教えなあかんってことや。深く考えんでもええようになるのがどんどん簡単になると思うからな。
だから、こういう基本的なことは楽しくできるようになるけど、教育はもっと批判的思考とか、深く考えることとか、物事をどう考えて分析するかっていうことになっていくと思うわ。AIがそういうことをやってくれるようになるからな。
でも、人間はまだそういうことを頭の中でできるようにしておく必要があると思うわ。
アンドレイ: うん、そのとおりや。
これで全てのニュースを終わったわ。いつもより少し短いけど、それでも1時間半くらいになってもうたな。長いポッドキャストやけど。
聞いてくれてありがとう。いつも感謝してるで。いつも言うてるけど、エピソードの説明を見たら全ての記事へのリンクがあるし、lastweekin.aiかlastweekinai.comに行ってもええで。実は両方持ってるんや。.comも買うたんや。
もし、まだ登録してへんのやったら、ぜひ検討してな。レビューを書いたり、コメントを残したり、シェアしたりしてくれたら嬉しいわ。いつも見るのが楽しみやねん。
ギャビン、共同ホストをしてくれてありがとう。いつも通り楽しかったわ。
ギャビン: うちの番組「AI for Humans」はYouTubeで見つけるのが一番簡単やで。YouTubeで「AI for Humans show」か「AI for Humans」って検索したらすぐ出てくるわ。ケビン・ペレイラっていうわいのポッドキャストのパートナーの名前で検索しても出てくるかもしれん。わいよりちょっと有名やからな。
それかポッドキャストサービスで探してもええで。結構な人数がポッドキャストで聴いてくれてるんや。ぜひチェックしてみてな、AI for Humansや。
アンドレイ: うん、おすすめやで。試してみたらええと思うわ。めっちゃ面白いで。
でも、このポッドキャストも聴き続けてな。
ギャビン: もちろんや。うちらのポッドキャストよりこっちの方が本家本元やもんな。いつ始めたんやっけ? 2000年…?
アンドレイ: 2020年の3月やな。
ギャビン: そうか、あんたらがAIポッドキャストの元祖やな。少なくともその一つやと思うわ。
アンドレイ: そうやな、一つやな。確かレックス・フリードマンも、レックス・フリードマンになる前は「AIポッドキャスト」っていう名前やったと思うわ。そうやったっけ? 元々AIがテーマやったんか?
ギャビン: ほー、そうなんか。面白いな。
アンドレイ: まあ、これで終わりや。エンディングのAIの歌を楽しんでな。
(AIの歌手が歌う長いアウトロ省略)