
37,509 文字

アンドレイ・クレンコフ:
はい、最新のLast Week in AIエピソードへようこそ。ここでは、AIに関する最新の動きについてお話しさせていただきます。今回も、先週の最も興味深いAIニュースについて要約し、議論していきます。いつものホストの一人、アンドレイ・クレンコフです。大学院でAIを学び、現在は生成AIのスタートアップで働いています。
で、ジェレミーは感謝祭とか、いろいろと旅行や仕事で忙しいみたいで、今回も不在なんですけど、その代わりにまたゲストのゲイビン・ニューサムさんをお迎えしてます。はい、そうでした。
ジェレミー・ハリス:
はい、来ました。
アンドレイ:
はい。
ジェレミー:
カリフォルニア州知事として…
アンドレイ:
いや、ゲイビン・パーセルです。あ、そうか。朝早いからね。
ジェレミー:
ちょっと混乱してました。
アンドレイ:
カリフォルニアのこと考えすぎてたみたいです。
ジェレミー:
大丈夫ですよ。ゲイビンと私はよく混同されるんです。そういうもんなんですけどね。はい、皆さんこんにちは。ゲイビン・パーセルです。以前にも出演させていただきましたが、「AI for Humans」というポッドキャストの共同ホストをしています。音声配信やYouTubeでご覧いただけます。
私の経歴はメディア関係で、しばらくThe Tonight Showのショーランナーをしていました。そこからAIの世界に入って、いろんな変わったスタートアップに関わってるんですけど、主にこの分野を、特にメディアの観点から追いかけています。ベン・アフレックだけじゃなく、いろんな面白いことが起きてますからね。
アンドレイ:
そうですね。私もフォローするのが楽しみです。このポッドキャストの編集は私がしてるので、編集で修正できるのがありがたいですね。
ジェレミー:
いやいや、それは残しておいてください。
アンドレイ:
こういうのは好きなんです。はい、残しておきましょう。面白い頭の体操になりますしね。で、お越しいただき嬉しいです。今週のニュースは、ツールやアプリケーションの話題が非常に多いんですよ。なぜかわかりませんが、その分野の話題がたくさんあって、あなたのポッドキャストでもよく取り上げられる、一般の人が日常生活で使えたり、楽しめるAIの話題が多いです。今回のエピソードでもそういった話をたくさんしていきましょう。
ジェレミー:
そうですね、私たちは完全な一般層向けというわけじゃないんです。一般層はもう少し遅れてると思うんですが、技術に詳しくない好奇心旺盛な技術者向けを意識してます。でも、私たちみたいな技術者も楽しんでくれてます。それは多分、ケビンと私がちょっとアホなことを言うからだと思います。
アンドレイ:
はい、面白い番組だと思います。デモを見せたり、AIの共同ホストを使ったり、楽しい工夫がありますよね。
さて、いつものように視聴者のコメントやレビューを紹介させていただきます。「AIニュースの必聴ポッドキャスト」とか、「AI技術者として役立つスキルや情報を共有してくれる」といった新しいレビューをいただいています。
特に詳しいレビューで「なくてはならないAIポッドキャスト」というタイトルのものがあって、AIスタートアップのテックCEOからのようです。もしかしたらベイエリアでお会いしたことがあるかもしれませんね。
そこで一つリクエストがあって、MetaとGeminiの状況や比較について引き続き取り上げてほしいということでした。確かにGeminiの品質については最近あまり触れていませんでしたね。個人的な感想を言うと、時々Geminiを試してみるんですが、いつも期待はずれで、なぜこんなに遅れをとっているのか不思議に思います。特に私が使うようなコーディング寄りのアプリケーションや、長文のドキュメント処理などでは、あまり良い印象がないんです。あなたはどう感じていますか?
ジェレミー:
全く同感です。正直、Googleの誰かがGeminiの件で責任を取るべきだと思います。ローガン・キルパトリックかカークパトリックという人が一生懸命プロモーションしているのは知っていますし、掲示板でも斬新な投稿をしていますが…成果は出ているようですが、実際に使ってみるとかなり失望します。最近Gemini Liveを使ってみました。iOSアプリも出たばかりですが、OpenAIの音声機能との差があまりにも大きすぎます。Googleほどの大企業がこんなに躓いているのが理解できません。こう言うのは申し訳ないですが、毎回開くたびに期待する結果が得られないんです。
アンドレイ:
確かに不思議ですよね。Deep Mindの優秀なチームもいるし、ハードウェアも充実してるのに。まあ、Geminiが悪いというわけではなくて、強力なチャットボットではあります。たぶんMetaのLLaMA 70Bか400(試してないですが)と同等くらいだと思います。でも、AnthropicやOpenAIと比べると、毎回なんとなく劣る感じがして…
ジェレミー:
ちょっとGoogleの話で一つ触れておきたいことがあります。昨日、Googleのラボ担当VP、ジョシュ・ウッダードという人が投稿したものなんですが、これはすごく楽しくて、もっとこういうのをやってほしいなと思いました。Gen Chessというものです。聞いたことありますか?なかったですか。Gen Chessは、生成プロンプトを使ってチェスの駒を作って遊べる小さな面白いツールなんです。例えば、ホットドッグセット対寿司セットみたいな感じで、ポーンが全部ホットドッグになるんです。これはすごく楽しいおもちゃで、大きな意味では重要じゃないかもしれません。Gen Chessを使ってビジネスが改善されるわけじゃないですけど、なんかノートブックLMみたいな感じで、こういう変わった派生製品がGoogleの得意分野になるかもしれません。残念ながら、そういうものの多くはビジネスにはならないでしょうから、それがGoogleにとって大きな問題になるかもしれませんが。
アンドレイ:
この話題についてもう一つ言うと、おそらくGeminiは、Googleの様々な製品に統合される程度には十分な性能があると思います。Gmailのサマリーや、オートコンプリート、音声メモや会議メモの要約など。Googleは独自のLLMを持っているメリットを大いに活かせるはずです。
ジェレミー:
Google Docsもそうですね。文章を書いたり、文を完成させたりするのに使えます。
アンドレイ:
そうそう。そういう形でGeminiを使うのは非常に有用だと思います。でもChat GPTやClaudeの代替としては、まだ十分とは言えないですね。うまく機能しないというか…
ジェレミー:
うまく機能しないとは言えないですが、もう二度と使う気にはなれないですね。
アンドレイ:
あと、そのレビューには画像の比較方法についての役立つガイドも書かれていました。ゲイビン、ポッドキャストで新しい画像生成ツールを取り上げるたびに「これが良いのかどうかわからない」って言ってましたよね。今はどれも良く見えますから。このレビューでは、画像の品質だけでなく、プロンプトへの忠実度や意図した通りのものを作れるかという観点から見ていて、それは確かにその通りです。その点でもまだ判断が難しいですが、ツールによって確かに違いはありますね。
ジェレミー:
画像生成に関して、私にとって重要な違いになってきているのが、変な話ですがUXなんです。多くの人は「UXなんて関係ない」と思うかもしれませんが、実際にはそれが使い方を決めることになります。
驚くべきことに、今、私の一番のお気に入りの画像生成ツールはIdeogramになりつつあります。Midjourneyは課金していますが、たぶんもうすぐキャンセルすると思います。デスクトップアプリになって使いやすくなりましたが、まだ望む結果が得られない感じがします。一方、Ideogramはかなり良いです。
それからStableも、多くの人がUXを作っていて、今日も話すと思いますが…Dream Machinesの新しいオープンなものとか。Stableは素晴らしくて、プロンプトへの忠実度も高いんですが、まだ完璧なUX体験には至っていません。でも、UXが変な話ですが、これからの重要なポイントになると思います。LLMでも同じで、性能が良くなって速くなって、みんな似たようになってくると、実装の仕方のほうが重要になってくるんじゃないでしょうか。
アンドレイ:
その通りですね。まさに…
ジェレミー:
技術そのものよりも、実際の使い勝手が重要になってくる。ビルで言えば、鉄骨は鉄骨のままですが、どんな建物を作るか、どこにいたいかが重要になってくる。配管は機能して水を運ぶ。問題は何から飲むかってことですよね。
アンドレイ:
はい、その詳細なレビューへの回答についてありがとうございます。長いコメントは大歓迎です。いつも読むのが楽しみです。
ニュースの議論に入る前に、最後にスポンサーの紹介をさせていただきます。最近お伝えしているように、BabsonカレッジのジェネレーターというAIラボのご紹介です。Babsonは米国で起業家教育の有名校で、高い評価を受けています。昨年の秋、Babsonの教授たちが学生と協力して、AI起業家精神とビジネスイノベーション、AIの倫理と社会、AIアートとパフォーマンスなど、様々な分野に焦点を当てたこのジェネレーターラボを立ち上げました。
教職員にAIの概念やツールについてピア・トレーニングを行い、幅広い分野で活動しています。実は彼らもポッドキャストが大好きで、だからこそスポンサーとして私たちに声をかけてくれました。最近では生成AIとライティングに関するシンポジウムを開催し、ハーバード、MIT、ノースイースタン、タフツなどの主要大学から代表者が集まりました。興味深い取り組みですね。今後どんな成果が出てくるか楽しみです。
さて、いよいよニュースの話に入りましょう。まずはツールとアプリの話題からです。最初のニュースは速報です。いつもより遅めの収録なので、これは昨日発表されたばかりなんですが、OpenAIのSora動画生成ツールが流出したようです。
最初は重みが公開されたのかと思って興奮したんですが、実際には Hugging Face上のインターフェースで10秒の動画を生成できるというものでした。APIにアクセスできる誰かが、動画生成のリクエストを送れる立場にいて、OpenAIのやり方に不満を持っていたようです。
Sora PR Puppetsという団体が、OpenAIがテスターに対してSoraを肯定的に宣伝するよう圧力をかけていると主張し、PRに重点を置きすぎていてアーティストフレンドリーじゃないと批判しています。そういった考えを持つ誰かがこれをやったようですね。アクセスはすぐに遮断されましたが、またもやOpenAIに関するドラマが起きました。
ジェレミー:
ここで話すべきことが2つありますね。1つは出力された結果がどうだったかということと、もう1つはSoraがOpenAIにとって何を意味するのかという大きな話です。
まず出力結果について、かなり良かったと思います。裏で聞いた話では、SoraはRunway Gen 3やLuma、Minimaxなどと比べてそれほど良くないと聞いていましたが、いくつかすごく面白いものが出てきました。確かに不自然な部分もありますが。
ちなみに、聞いた話では、これは新しいSora Turboモデルと呼ばれているものです。初期のSoraがアーティストにアクセス権を与えた時、1分の動画を生成するのに10時間くらいかかったという話があります。正確な時間はわかりませんが、とにかくすごく時間がかかったらしいです。なのでこれはTurboモデルなんですね。
全体的に見て、私はかなり感心しました。もちろん、私自身はSoraを使ったことがありません。番組では早期アクセスを得たアーティストの一人にインタビューしましたが、興味深い体験だったようです。先日の夕食会でOpenAIのクリエイター担当の女性と話す機会がありましたが、彼らは本当にクリエイターのことを大切にしているんだと感じました。
でも、私にとってより大きな疑問は、SoraがOpenAIにとって何を意味するのかということです。エンターテインメント業界にいる者として言えば、AI動画は法的な問題やパートナーシップの面で大きな頭痛の種になりそうです。
ご存知の通り、OpenAIは既にテキストデータのトレーニングについてニューヨークタイムズなどから訴訟を起こされています。Soraは更に大きな問題を引き起こす可能性があります。
私の直感では、彼らがSoraを売り込む方法は、消費者向け製品というよりはプロフェッショナル向け製品として位置づけているように見えます。そうすることでいくつかの問題を回避できます。
ここで興味深いのは、OpenAI内でSoraをコントロールしている人々の存在です。OpenAIは最初にSoraが登場した時と比べてかなり大きな企業になっています。そして、人々が何を言えて何を言えないかを厳しく管理している人たちがいるかもしれません。
でも、それは企業にとって決して良い結果にはなりません。「良いことしか言ってはいけない」というのは、企業にとって上手くいかないんです。例えば、Marques Brownleeが様々な企業に対してYouTubeでやってきたことを見れば分かります。
私が興味深いと思うのは、彼らが「これがSoraです」と出してきて、私たちに遊ばせてくれることです。明らかに彼らが心配しているのは、特に中国のモデルのトップレベルと比較して、あまり良く見えないかもしれないということですが、まだそれは分かりません。
私が見た動画のいくつかは驚くべきものでした。Soraは特にストック映像のようなプロンプトが、Gen 3や他のものよりもずっと優れているように感じます。明らかにストック映像の背景がたくさんあります。
OpenAI公式チャンネルから出てきたアーティストの動画は大好きです。Nice Auntiesというアーティストが作る、韓国のおばあちゃんをモチーフにしたシュールなAI動画は本当に素晴らしいです。でも、実際に公開されるまで誰も本当のところは分からないと思います。アンドレイ、これは公開される可能性が低くなると思いますか?それとも今の方が公開される可能性が高くなったと思いますか?
アンドレイ:
うーん、それは良い質問ですね。そういえば、Soraについて説明するのを忘れていました。リスナーの皆さんはご存知だと思いますが、SoraはOpenAIが今年初めに発表した動画生成ツールです。当時は他に比べてはるかに優れていて、みんなを驚かせました。
おっしゃる通り、それ以降、多くのものが登場しました。当時は公に利用できる動画生成ツールがほとんどありませんでしたが、今ではLumaやRunwayなど、かなり良い仕事をするツールがあります。特に実用的な速さで生成できるので、実際に使えます。
その間、OpenAIはSoraについてかなり静かでした。ハリウッドの一部の人々とプライベートなパートナーシップを結んでいますが、新しい成果をあまり公開していませんし、全般的にあまり話題にしていません。それには理由があると思います。
一つは、あなたが言ったように法的な問題です。彼らは既にデータ使用で問題を抱えています。Soraは間違いなく著作権のあるデータでトレーニングされているはずです。その通りですよね。
ジェレミー:
はい。
アンドレイ:
そして、私にとってもう一つの側面は、彼らにとってこれをツールとして公開するメリットがあまり見当たらないということです。
ジェレミー:
その通りです。GPTがお金を生み出しているのに、それがビジネスですからね。Soraは生成コストが高いと思います。今、彼らは別の巨大な計算リソースを必要としているのでしょうか?私にはそうは思えません。
アンドレイ:
はい、そして画像生成やChat GPTと違って、動画生成はほとんどの人にとって単なる目新しさに過ぎません。クリエイティブな専門家で、YouTuberとして使うとか、面白いリールを作るとか、プロの制作で特定のB-rollを安く手に入れたい場合を除いては。
ジェレミー:
赤ちゃんのジョー・ローガンと赤ちゃんのテレンス・ハワードを話させるのはプロの仕事じゃないと言うんですか、アンドレイ?それが私たちの番組でやっていることなんですよ。
アンドレイ:
そういうツールを使って支払いをする人たちですね。でもそれは比較的少数です。
ジェレミー:
その通りです。絶対にそうですね。
アンドレイ:
とても小さな層ですからね。
ジェレミー:
はい、その通りです。
アンドレイ:
なので、OpenAIにとって製品化のメリットは小さいと思います。彼らはもう自分たちがAIのリーダーだということをそれほど見せる必要もないですしね。
ジェレミー:
ある意味では逆効果かもしれません。もし公開して期待外れだったら、少し評判を落としかねないですよね。今、AIは大きなハイプゲームになっていて、OpenAIのハイプの一部は、彼らが最先端だということ、本物かどうかは分かりませんが何らかの参入障壁を持っているということです。
もちろん、Deep Seekや他のものについても別に話せると良いですね。もう話したかもしれませんが…OpenAIが出してきて、まあまあで、最先端のモデルと比べても同じくらいだったとしたら、それは彼らの会社にとってプラスにはならないでしょう。
必要ないなら、やらない方が良いかもしれません。そういう意味で、今回の流出は変な話で、彼らはこれを計画していなかったかもしれません。
アンドレイ:
そうですね。あなたの質問に戻ると、この流出が何を意味するのか、より公開される可能性が高くなったのか低くなったのか、それは難しい質問です。
でも、私の推測では、これによって彼らはSoraについてより慎重になるでしょう。特定の人々にアクセスを与えるというアプローチが今回裏目に出ました。おそらく彼らはそれを続けながら、より厳格に、より注意深くなるでしょう。
ジェレミー:
この件について最後に一つ言いたいのは、Hugging Faceページのアーティストの声明を読むと興味深いんです。AIツールを使いたいアーティストたちが、それが著作権のある作品や他のアーティストの作品でトレーニングされているという葛藤を抱えているんです。
その声明からもそれが読み取れます。アーティストたちの中で、これらの企業を信頼して良いのか、そのメッセージは何なのかという継続的な葛藤があります。だからこそオープンソースツールが興味深いんです。
まだ先は長いですが。LTXという新しいオープンソースの動画モデルがありますが、まだ素晴らしいとは言えません。最終的には、動画や音声ツールをオープンソース化することで、おそらく面白いものが生まれるでしょう。でも今のところ、私たちはまだこれらの巨大企業の支配下にいるような状態です。
アンドレイ:
そうですね。Hugging Faceの声明を見るのは本当に面白いですよ。
ジェレミー:
確かに読むべきですね。
アンドレイ:
要するに、これはアクセスを得たアーティストたちの一部が、テスターやクリエイティブパートナーとしてではなく、Soraがアーティストにとって有用だと世界に伝えるための「アートウォッシング」に利用されていると感じているということです。
彼らは、それを批判せずに良いものだと言うことを「企業のアートウォッシング」と呼び、それが今回の動機となっています。
さて、次の話題に移りましょう。Mistralについてのニュースです。はい、どうぞ。彼らの更新について2つあります。
まず、Mistral Largeというマルチモーダルモデルの更新があります。これは昨年最初にリリースされたものの更新版で、より良くなって、画像を処理したり画像入力を扱えるようになっています。
そして2つ目は、おそらくより大きな話題ですが、Lechatの大規模なアップグレードがありました。これは彼らのLLMを使用するためのプラットフォームで、Chat GPTのウェブインターフェースやCloudのウェブインターフェースによく似ています。
このウェブインターフェースに多くの更新があり、画像生成、ウェブ検索、インタラクティブキャンバスが追加されました。ドキュメントと画像の分析機能もあり、タスクエージェントまでもあるそうです。
Chat GPTとCloudが過去1年かけて徐々に追加してきたような機能を、一気に全て追加したように見えます。キャンバスのような機能は今ではChat GPTとCloud両方にありますが、これはドキュメントを扱って編集するための良いインターフェースで、出力がインラインではなく横に表示されたりします。
もちろん、ウェブ検索機能もあり、質問に対してウェブを検索して引用付きで回答を提供します。彼らはこれをChat GPTと競合するものとして位置づけようとしているように見えます。
以前は私にはそう感じられませんでした。以前は彼らはLLMのAPIアクセスに対して支払いをする人々と競争しているように見えましたが、この動きによって、彼らはそういったユーザーも狙っているのかもしれません。興味深いですね。
ジェレミー:
これは私が「AIカンパニーの大きな再構築」と呼ぶものです。私はビジネスパーソンというわけではありませんが、ビジネスや製品については多く考えてきました。
今、みんなが収益を上げる場所のスタックの中で、どこに位置するかを模索しているように思います。それは重要なことです。
もしAnthropicとOpenAIがAPIのパイプのようになるなら、Metaも明らかに自分たちのバージョンのLLaMAのようなAPIを作るでしょう。Mistralは変な立ち位置にいます。
素晴らしいオープンソース…オープンソースだと思いますが、ヨーロッパを拠点とするオープンソース企業で、ヨーロッパのAI規制によって不利な立場にあるかもしれません。
でも、彼らは少し差別化を始めなければならないと思います。なぜなら、Chat GPTが「chat.com」というURLを買収したことについて、きっとポッドキャストで取り上げたと思いますが、Chat GPTは急速にAIの「クリネックス」(代名詞)になりつつあります。
メインストリームでは全てがOpenAIを通るようになるかもしれません。そのため、Mistralやその他の企業は差別化を始めなければなりません。
だから、これは彼らの最初のステップかもしれません。Lechatを、Chat GPTがなろうとしているものとは違う選択肢として位置づけようとしているのかもしれません。
一方、Anthropicは少し違うものを目指しているように感じます。Anthropicは興味深いコンピューターツールを次々と出してきていて、開発者にとって大きな意味を持つものになりそうです。私にはとても興味深いことですが、おそらくそういう時期に来ていて、Mistralのような企業はその外側に置かれる可能性があります。
アンドレイ:
OpenAIのAPIと競争するのは本当に難しい課題だと思います。今や価格競争の様相を呈していますからね。
ジェレミー:
その通りです。オープンソースツールもありますしね。
アンドレイ:
API全般についてもそうです。OpenAIやGoogle、Anthropicは、おそらく採算を度外視した低価格でサービスを提供できますが、それは競争が難しい。だから、あなたが言うように、彼らはもっと一般消費者向けの日常的な使用に向かう可能性がありますね。
これは、あなたが指摘した点に戻りますが、1年前にはなかったチャットボットの重要な側面があります。キャンバスのようなものやウェブ検索などの機能を使ったLLMのチャットボットとしてのユーザー体験の発展です。そこには競争の余地があり、これらの追加機能によって、Lechatを競争力のあるものとして位置づけようとしているのでしょう。
私が思うに…Web 2.0を経験して…
ジェレミー:
私はWeb 2.0の時代を生きてきて、その一部でした。Web 2.0の面白いところは、インターネットに対してより良いユースケースのレイヤーを重ねていったことです。90年代にインターネットが登場し、Web 2.0が動的なUXやUIをもたらし、突然Diggのような投票システムや共有機能が出てきました。
AIの分野も同じような転換期を迎えているように感じます。生の情報を置くだけの段階から、より洗練された良いユースケースへと移行しつつあります。
アンドレイ:
では、ライトニングラウンドに移りましょう。素早く進めていきましょう。あと10個くらいニュースがありますから。このセクションに興味がある方は…はい、さっと見ていきましょう。
まず、Microsoftからの新しい情報です。最近Ignite ’20カンファレンスがあり、主要な発表としてAIエージェントの概念がありました。
私たちが以前話していた意味でのエージェントではありませんが、エージェントと呼ばれるものを追加しています。例えば、Teams会議用のリアルタイム翻訳エージェントや、会議のノートテイクと要約を行うファシリテーターエージェントがあります。
SharePoint用のエージェントもあり、データストレージと分析を扱います。従業員向けのサーバー関連のものもあります。これらをエージェントと呼んでいますが、これらは単にこれらの製品の新機能のように感じます。
私たちが話してきたような意味でのエージェント、つまり指示を与えて自律的に作業を行うAIというわけではありません。
ジェレミー:
これはマーク・ベニオフの発言に関係していると思います。彼はMicrosoftのAIは重要ではなく、未来はエージェントにあると言いました。だからサティア・ナデラは「エージェント」という言葉を使い始めなければならなかったんです。
でも、エージェント型AIは2025年の大きな話題になると思います。サム・アルトマンもAnthropicもそう言っています。私たちは今日の放送でも、2025年の3大トレンドの一つとしてこれを取り上げました。
アンドレイ:
本物のエージェントは来ると思いますし、コンピューターが作業をしてくれるという考えに人々を慣れさせることは重要だと思います。でも、これらは機能というべきものですね。
確かに、リアルタイム翻訳者は、あなたと一緒にいて作業をするという意味ではエージェントと言えなくもありません。完全に間違っているわけではありませんが、一般的な使われ方とは異なります。
エージェントと言えば、今度はスタートアップの話をしましょう。パリを拠点とする企業で、今年初めに2億2000万ドルを調達し、最初の製品「Runner」を発表しました。これはエージェント型アプリケーション向けに設計されています。
20億パラメータの小型LLMを持っており、事前構築済みとカスタムのエージェント型アプリケーション用のAPIを提供しています。eコマースや銀行業務などで、フォームやテンプレートの処理、品質保証などのビジネスプロセスに役立つと主張しています。
興味深いことに、これもLLMのアクセスで競争しようとしているわけではありません。新しいチャットボットを導入するのではなく、ビジネスにより特化したものを提供しようとしています。理にかなっていますね。
ジェレミー:
これは全て起こることだと思います。数週間前、投資/AI業界の大物と夕食を共にする機会がありました。彼が言うには、エージェント関連の企業への投資が非常に難しくなっているそうです。数が多すぎるからです。
これらは常に興味深い話題ですが、これも価格競争になる可能性があります。これらの企業について心配なのは、なぜOpenAIやAnthropicが同様のものを導入できないのかということです。そうなれば、企業全体が消えてしまう可能性があります。
もちろん、これらの企業はこれらのAPIと協力しているので、彼らのUXが他社より優れているかもしれません。でも、これらの企業の多くが成功するのは難しいと思います。最も成功するのは、単純に使いやすいものを作る企業でしょう。
アンドレイ:
そうですね。この例では、事前構築済みのエージェントで、より特定の領域に特化したものを目指しているように見えます。チャットボットやLLMは汎用的ですが、おそらく答えの一つは、製品を特定の領域に合わせることかもしれません。
ただし、彼らはこの分野で最高のエージェント型AIとして知られたいと考えているようですね。
次に、LLMに関するニュースに移ります。Anthropicが、Claudeのウェブインターフェースに素晴らしい新機能を導入しました。スタイルを選べるようになり、フォーマル、簡潔、説明的、あるいは通常(上記を混ぜたもの)のように応答を設定できます。
Chat GPTや他のものにはない、ユーザー体験の改善だと思います。理にかなっていますし、どのスタイルが好みか試してみたいですね。
ジェレミー:
私もまだ試していませんが、とても楽しみです。大きな理論として、私が番組で話していて特に期待しているのは、近い将来、インスタンス化されたChat GPTが欲しいということです。
つまり、分岐させて管理できるChat GPTです。ビジネス用のChat GPTや個人用のChat GPT、20歳の自分と話せるChat GPTなどです。左側にそのリストがあって、彼らが最初に考えていたようなGPTsではなく、もっとペルソナのようなものです。
これはAIが私たちを導く方向性の一歩だと思います。エージェントについても同じで、子供のための調査をするエージェントは、ビジネスマンのようである必要はありません。子供に対して私が望むものを感情的に理解できる存在であってほしいです。
私たちが望むものに基づいて、私たち自身のAIが無数に分かれる奇妙な未来が来るでしょう。エージェントの行動とチャットの行動が融合する場所だと思います。エージェントを単なるタスク実行者としてではなく、あなたの一部として考えると、これが私たちが向かっている未来のように感じます。
アンドレイ:
その通りです。これは本当にエージェントの別の意味を示していますね。私たちは通常、推論して自律的に作業を計画・実行できるという側面に注目しがちです。でも、もう一つの側面として、ペルソナを持ち、持続的なアイデンティティを持つという概念があります。
ジェレミー:
その通りです。
アンドレイ:
それもエージェントの別の側面で、確実に台頭してきていますね。
実際、次のニュースもまさにそれに関連しています。Eleven Labsが会話型AIエージェントを構築する機能を提供し始めました。Eleven Labsは通常、テキスト音声変換のサービスを提供していて、その分野のリーダーです。
今回、ユーザーは会話型AIエージェントを構築でき、声のトーンや応答の長さをカスタマイズできます。Chat GPTの音声モードのような感じですね。おそらく同様のユーザー体験で、AIとリアルタイムで音声会話ができるようになります。
ジェレミー:
はい、私たちもこれについて少し調べました。Eleven Labsの大ファンで、番組では1年半前の開始時から使っています。これは多くのことの未来になると思います。
実は、ケビンと私で何か作ろうとしています。この聴衆に向けて宣伝させてください。もし開発者の方で、AI音声に興味がある方がいらっしゃいましたら、このようなものを組み立てることに興味のある方と繋がりたいと思っています。アイデアがあるんです。
これが大きな話題になると考える理由は、音声が未来のUXになるということが見過ごされているからです。人々はこれらのAIと話すことに慣れ始めるでしょう。
以前は公共の場で電話で話す人を見ると変に感じましたが、今はイヤホンで誰もが当たり前にやっているので気にも留めません。AIと話すことも同じようになると思います。
最初は「あなた、それと話してるの?」となりますが、「ええ、そうです」と答える。そして5年後には、文字通り誰もがそうしているでしょう。
全てがそういう未来に向かっているように思います。もちろん、まだコンピューターやスマートフォンにタイプすることはありますが、ビジュアルアートなども含めて、音声がこれからのインタラクションの要素になると本当に思います。みんなが何らかの形でそちらに向かっているんです。
アンドレイ:
その通りです。音声には多くの要素が交差していると思います。持続的なアイデンティティとメモリを持ち、あなたの個人アシスタントとしてあなたとあなたの望みを知っているAIプログラムというエージェントの意味で。
そして、そのエージェントとは、Slackで同僚とチャットするようにテキストでやり取りすることもできれば、話しかけることもできる。あなたが言うように、それが未来だと思います。とてもSF的ですね。
ジェレミー:
そうですね。私の好きなSFシリーズの一つに、リチャード・K・モーガンによる『オルタード・カーボン』があります。まだ数冊しかありませんが、その中でホテルが独自のAIを持っていて運営しているという設定があります。それが人格を持っていて、あなたと交流するというのが、私たちが向かっている方向性のように感じます。
SFオタクとしては、これが実現していくのを見るのは不思議な感じですが、確かにそうなっていますね。
アンドレイ:
サム・アルトマンは有名な映画『her』に言及しましたね。
ジェレミー:
もちろん。まさにそういう方向に向かっているように見えます。ちなみに、あの映画は主人公にとってはあまり良い結末ではありませんでしたね。
アンドレイ:
はい。でも重要なのは、彼女は同じ人間と働き続けているので、実際にはリアルではないけれど、それでも…そして結末は素晴らしいです。
次に、Googleが個別化されたGeminiを発表しました。ユーザーはGeminiをより自分に合わせて調整できるようになります。
ジェレミー:
そうですね、またGeminiが、他のところで既にある製品を出してきましたね。もっとGen Chessのようなものを出してほしいです。方向転換して、もっとGen Chessを出してください。
でも、これも良いことです。先ほど話したように、Googleの製品は今やこれと深く統合されていて、それが最も意味を持つところだと思います。
私がChat GPTで気に入っているのは、AI for Humansの番組について何か書こうとすると、そのトーンを覚えていてくれることです。同じように、Google Docsで上司へのメールを書くときに、私が使うトーンを覚えてくれるのは素晴らしいですね。
アンドレイ:
その通りです。メールの自動補完をカスタマイズできるのは大きなことですね。時には簡潔に、形式的な表現を省きたい時もありますから。
さて、次に進みましょう。Perplexityが米国のプロユーザー向けにショッピング機能を導入します。PerplexityはAI搭載の検索エンジンとして大きな存在感を示していますが、今回、検索結果から直接ショッピングの推奨を見たり注文したりできるようになります。Googleでも同様のことができると思います。
このショッピングツールはShopifyなどの販売サイトと統合されており、スポンサー枠のない偏りのない推奨を提供すると謳っています。これはPerplexityの収益化の道筋として重要だと思います。購読料だけでは足りないでしょうから。
ジェレミー:
この件については多くの考えがありますが、最も重要なのは、Perplexityは急速に消えるか、あるいは飛躍的に成長する企業の一つだと思います。
おそらくここに収益源を見出そうとしているのでしょう。ご存知の通り、Googleの大きな転機は広告、特に買い物に関する非常にターゲットを絞った広告でした。全てがそうというわけではありませんが、サービスやその他の特定の人々に向けたものが大きな部分を占めています。
もしPerplexityがこれをうまく機能させることができれば、つまり購入者に対して本当の価値を提供できれば、実際のビジネスになります。
問題は、Perplexityは検索結果の数を制御し、リンクを管理することで有名ですが、その結果として数個のものしか表示されない壁ができるのではないか、そしてそれが他の競合企業にとって何を意味するのかということです。
過去のアルゴリズム検索結果を考えると、インターネットは…このポッドキャストで言っても大丈夫かな?ええ、どうぞ。ほとんどのリスナーは大人ですから。アルゴリズム検索結果を考えると、インターネットはかなりめちゃくちゃな状態になりました。SEOで結果を上位に表示させる方法を人々が見つけ出してしまったんです。
だから、Perplexityのショッピングアプリについて心配なのは、3つの結果、あるいは場合によっては1つの結果しか表示されないとすると、それが本当に最良のものなのかどうかをどうやって知ることができるのかということです。
The Wirecutterはニューヨークタイムズでとても良いビジネスを築きましたが、最良のものと最も予算に優しいものを見つけ出すことで素晴らしいビジネスを作りました。ショッピングの観点からすると、それは本当に有用でした。
Perplexityにはそれを提供できる backbone(基盤)と情報があるのでしょうか?それが私の大きな疑問です。これは実際のビジネスです。もし彼らがそれを解決できれば、そして結果に基づくビジネスなので、結果が悪ければ良いビジネスにはなりません。
アンドレイ:
その通りです。検索エンジンの世界では、常に自分たちの利益のために検索エンジンをハックしようとする人々に先んじる必要があります。
もう一つの側面として、このような分野でAIがどのような利点を提供できるのかが明確ではありません。研究目的や詳細な検索ではPerplexityがリーダーですが、ただノイズキャンセリングヘッドホンを探しているだけなら、既存の比較記事を要約する以外に何を提供できるのかわかりません。
ジェレミー:
一つ言えるのは、もしPerplexityが聞いているなら、これは面白いビジネスになると思うんですが、AIエージェントの観点から考えると、検索して結果を表示する場所を作るのではなく、より面白いのは、私自身のAIエージェントを持って、それに探させるということです。
これは少し異なるビジネスモデルです。私自身のAIエージェントをトレーニングして、何を知っていて何を望むかを管理し、それをインターネットに送り出して探させる。それは、一つの企業がパイプラインを管理するよりも、消費者である私にとってはずっと良いビジネスモデルに感じます。それが私には魅力的です。
アンドレイ:
あと4つくらいニュースが残っています…次は音楽生成についてです。Suno V4が登場しました。音楽生成の分野は急速に進歩していて、SunoとUdoの両方が非常に優れたテキストから音楽を生成する機能を提供しています。
そして、ユーザー体験も急速に進化しています。今回、古いトラックを強化するための「Remaster」という新機能と、より斬新な歌詞のコンテンツのためのAI搭載の歌詞アシスタント「Remy」が追加されました。
これらのツールの歌詞生成は非常に一般的で退屈だと感じていましたが、V4はもちろんより良い音声生成につながるでしょう。Coveringのような既存のツールと組み合わせて使用したり、既存の音声を再解釈したり、音楽的な別人格を使用したりできます。
まだ音楽の品質を改善する余地があり、音声生成や歌の生成を使用している人として、まだAIの不自然な部分が頻繁に見られます。時々クレイジーになって、歌詞は読めても、AIが言葉のように聞こえる音を出しているけど実際の言葉ではないということもあります。V4やV5で、そういった問題は解消されていくでしょう。
ジェレミー:
私もSunoをたくさん使ってきて、番組でもよく話題にしています。V4のために再購読したところです。これまでの経験は概ね良好ですが、完璧ではありません。SunoもV4のロールアウトにいくつか問題があることを認識していると思います。
あなたが言った興味深い点で、3.5では6回に1回くらいの頻度で経験したことですが、音声を聞くと人間の言葉のように聞こえるけど、ただのごちゃ混ぜの音という感じです。それは新しいモデルの始まりで、まだ微調整中で、リリースしているんだと思います。
一般的に、音声の忠実度は驚くほど良くなっています。特に声の金属的な音が聞こえなくなりました。
また、あなたの言う通り、歌詞生成はあまり良くありません。本当に自分の歌を作りたいなら、面白いことに、私は今AIのクリスマスアルバムを作っているんですが、ほとんど完全に自分で書く必要があります。Chat GPTを使っても、アイデアは出してくれますが、歌を書くのは簡単ではありません。
LLMが完全に理解しているわけではないので、これらのツールを使う場合は、ただ出力を求めるのではなく、自分で言葉を工夫した方が良いと思います。
アンドレイ:
私はエピソードごとにイントロとアウトロの曲を生成していますが、トピックを与えて、同じような言葉やフレーズを繰り返すように指示しても、とても一般的で退屈になってしまいます。より興味深くパーソナライズされたものを作りたい場合は、実際に良い、興味深い歌詞を作るために、かなりカスタマイズする必要があります。
次に、画像編集と生成に移りましょう。Flux 0.1ツールについてです。Black Fluxは先週、Flux ProとRaw編集について話しましたが、今回はこのような編集ツールでは珍しい機能を持つツールスイートを発表しました。インペインティングやアウトペインティングがあり、また深度マップを使用した構造的なガイダンスのためのFlux 0.1深度や、エッジのためのkennyというものもあります。
ジェレミー:
ガイダンスに基づいて、また彼らは画像のバリエーションとリスタイリングを作成するツールも持ってます。僕はFluxが大好きです。まず、Fluxは素晴らしいですね。Fluxについて覚えておかなあかんのは、元々はStable Diffusionの人たちが始めたんです。昔のことを思い出すと…まあ1年半前くらいですけど、Stable Diffusion 1.5は今でも僕の大好きなAIモデルです。画像モデルとしては史上最高やと思います。
初期のCIVIT AIの頃、そこからLauraをダウンロードしてた時期があって、本当に素晴らしいものがありました。当時のStable Diffusionチームが本当に前進していたことがよく分かりました。その後Stable Diffusionが大きく変わって、このポッドキャストの視聴者も覚えてはるかもしれませんが、CEOが辞めたりいろいろありました。そしてその人たちがBlack Force Labsを立ち上げたわけです。
最先端のフロンティア画像モデルを見られるのは本当に素晴らしいことです。そのうち動画モデルも出てくるみたいですし、業界を前進させる取り組みやなと思います。一方でMidjourneyは今ちょっと古びた感じがして、更新のスピードが遅いように感じます。Midjourneyの編集ツールを使ったことありますか? ちょっと使いづらくて、結果もあまり良くないときがあります。この分野は大きく変わる可能性がありますね。
こういう企業の場合、気になるのがビジネスモデルです。画像やビデオのAPIがビジネスとして成り立つのかどうか、僕にはよく分かりません。彼らの取り組みは素晴らしいと思いますが、具体的なビジネスの形が見えにくい。誰か教えてほしいですね。実際、ご存知の方がいらっしゃったら、AI for Human showで話を聞かせていただきたいです。オープンソースのビジネスについてもっと知りたいです。
アンドレイ:
ビデオとオーディオの世界がどうなるか、本当に気になりますね。ちょっと訂正させていただきたいんですが、ウェブツールがあるように聞こえたかもしれませんが、これは実際には一連のモデルなんです。インペインティングとかそういったものが個別のモデルとしてAPIに追加されているようです。
Black Forest Labsにとってはかなり明確なビジネスケースがあるかもしれません。これらのモデルはパートナーを通じて提供される予定だと言ってます。AI freeピックとかですね。今はChatがFluxを画像生成に使ってます。Grokも使ってますね。Grokは大きなパートナーシップになる可能性がありますね、もし彼らから支払いを受けることになれば。
消費者向けというよりも、他のツールのプロバイダーとしてのポジションを狙っているように見えます。これは興味深い戦略ですね。次にOpenAIがChatGPTに大きな創造性の更新をしたというニュースがあります。GPT-4の新バージョンがクリエイティブな文章作成能力を向上させたということです。一時的にGoogleのGeminiをLLMの分野で追い抜いたようですが、その後新しいGeminiが出て再び首位に戻ったようです。対話型チャットボットの世界では、細かな更新や改良が続いている興味深い時期にあると言えますね。
ジェレミー:
そうですね、僕にとってはこういう小さな更新を次々に出していくのが一番いいと思います。ただ、どれだけ改善されたのかを判断するのは難しいですね。OpenAIの更新について「書き方が良くなった」と言われても、試してみても正直よく分からないことが…
書き手として、クリエイティブな仕事をしてきた人間としては、これまでも「まあまあ」という印象でした。でも途中で止まってしまうこともよくあります。彼らがもう少し具体的に、どういう風に改善されたと考えているのか説明してほしいですね。動画でも見せてほしいんですけど、それは無理でしょうね。ただの簡単なアップデートってことなんでしょう。
でもChatGPTの2周年に向けて何か用意してるのかなと考えると面白いですよね。あの人たちからは予想外のものが出てくることがありますから。この更新も突然でしたし、今後何が出てくるか分かりませんね。改善を続けているのは素晴らしいことだと思います。最後にRunwayの話題がありますね。
アンドレイ:
はい、Framesという新しいAI画像生成ツールを発表しました。スタイルのコントロール性が向上していて、もちろん見た目も良い画像が作れます。名前からも分かるように、映画のフレーム、つまり個々のショットを意識したものになってます。
1980年代のメイクアップや、クラシック映画ならではの独特の表現など、かなりスタイライズされた画像を作れることが特徴です。Runwayの場合、一般的な画像生成ツールというよりも、実際の制作現場で使えるものを目指しているように見えます。僕はそれが正しい方向性だと思います。AIビデオをたくさん作ってきた経験から言っても、それが正しいアプローチだと思います。
ジェレミー:
でも本当に大きな変化をもたらすのは、画像から動画を生成する技術だと思います。画像から動画を作る場合、一貫性をコントロールできます。キャラクターを同じように保ったり、アーティストとして必要な要素をすべてコントロールできます。
映画製作者が絵コンテを描く時のことを考えてみてください。映画全体を何らかの形で画像として事前に用意するわけです。そう考えるとこれは完全に理にかなってます。Runwayにとってもこれは必要でした。というのも、Runwayで動画を作る時、最初に必ず他のところで画像を作ってから、それを画像から動画への変換に使うんです。だからこれは理にかなってます。他のツールと同じくらい良いものになることを願ってます。
Runwayの問題点として、大手企業と同じように生成できるコンテンツを厳しく制限していることがあります。例えば、セクシーなドレスを着た女性が回るような動画を作りたい時…別に不適切なものじゃないのに、「セクシー」という言葉自体がNGになってしまうんです。どこに線を引くべきかが本当に難しいですね。Runwayでは理由も分からないまま生成できないことが多いです。これから先、何を生成できて何を生成できないかという問題は興味深い議論になると思います。
アンドレイ:
そうですね。有料顧客が増えてくると、彼らが何を生成したいかが大きな要因になってくると思います。私も同意見で、画像から動画への変換、さらには動画から動画への変換が重要になってくると思います。
テキストから動画への変換は注目を集めていますが、特殊効果を実現するには動画のインペインティングが重要です。例えばぼやけを除去したり、ショットから車や歩行者を消したりする技術です。これが一番実用的だと思います。
次に画像から動画への変換があります。これは特定のビジュアルを実現したい時に、おっしゃる通り正確にコントロールできます。そしてテキストから動画への変換は、B-rollの映像やニッチな用途に使えるでしょう。
さて、これでツール関連の話題は終わりで、アプリケーションとビジネスのセクションはかなり短いですが、面白い話題から始めましょう。またOpenAIに関するドラマがありました。今回は少し昔の話に戻ります。
イーロン・マスクとサム・アルトマン、そしてOpenAIの裁判で、イーロン・マスク(別名Suskiver)とグレッグ・ブロックマンのメールのやり取りが公開されました。OpenAIの設立時から、イーロン・マスクが2018年か2017年にOpenAIを去るまでのものです。実際にこれらのメールを読むと、彼らがどのようにコミュニケーションを取っていたのかが分かって興味深いです。
2015年5月25日のサム・アルトマンからイーロン・マスクへの最初のメールを読むことができます。「人類がAIの開発を止めることは可能かどうかについて、多くの考えを巡らせてきました。答えはほぼ確実にノーだと思います。そして、もしそれが避けられないのなら、Googleではない誰かが最初に成功する方が良いのではないでしょうか? YCがAIのためのマンハッタン計画を始めることについて、どう思われますか?」というものでした。
イーロン・マスクは「話し合う価値はありそうだ」と返信しています。その後サム・アルトマンが、OpenAIの当初の構想であるAIラボについて長いメールを送り、イーロン・マスクは「すべてに同意する」と返信しています。
その後、OpenAIが非営利から営利に変更され、potentially TeslaとOpenAIの合併やイーロン・マスクのCEO就任が議論された時期になると、より劇的なやり取りが見られます。グレッグ・ブロックマンやイリヤが、イーロン・マスクをCEOとする計画に同意しなかった様子が分かります。
非常に長い理由付けと議論のメールがありました。イーロン・マスクはある時点で我慢の限界に達したようで、こんなメールを送っています:「これは本当に迷惑だ。彼らに自分たちで会社を始めるよう促してくれ。もう十分だ。これが最後だ。独立して何かをするか、非営利のOpenAIを続けるかのどちらかだ」というような、かなり直接的で対立的な言葉遣いです。
これらを読むのは興味深いですが、私たちが知っていることに関して特に新しい情報はないように思います。
ジェレミー:
面白いですね。10-12年前にサムが「マンハッタン計画」と言ってたのが、今アメリカで実際にAIのマンハッタン計画が進められようとしているのを聞くと…それは本当に興味深いです。
それと、最近「Character Limit」という本を読みました。イーロンのTwitterとXの買収についての本なんですが、イーロンについてあまり良い印象は描かれてません。でもイーロンは複雑な人物だと思います。彼が成し遂げた信じられないような成果と、自分のお金を賭けて取ったリスク、そして気難しくて扱いにくい性格…これらを総合的に考える必要があります。
興味深いのは、イーロンは今日の世界で最も大きな変化をもたらした人物の一人だということです。僕もテスラを持ってましたが、リースを返却したところです。彼は電気自動車を当たり前のものにしました。宇宙開発も停滞していた時期に、また盛り上げていきました。そしてサムたちとこのAIの話を始めたわけです。
でもそこにもイーロンのドラマが入り込んできてしまう。これが全ての始まりだったと振り返ってみると興味深いですね。同時にイーロンの人格の一面も見えてきます。そこにある複雑さが表れているように思います。
アンドレイ:
その通りです。2018年当時のOpenAIの将来について、かなり微妙な議論がありましたね。当時はGoogleがリーダーになりそうな雰囲気でした。これらのメールを見ると興味深いことに、Googleが論文投稿で支配的だったことが分かります。これはアンドレ・カポフィがイーロン・マスクにメールで伝えていたことです。
それと、資金調達のためにICO(初期仮想通貨公開)の話もあったようですが、イーロンはそれに反対していました。信頼性を失うと考えたんでしょうね。多分それは賢明な判断でしたね。
ジェレミー:
そういえば、読みたい本があります。誰かが今書いているといいんですが…Googleはどこで間違えたのか?という本です。今となっては面白い話がたくさんあると思います。Googleの内部からそういう話を引き出せるかどうか分かりませんが、誰かがこの時期の話を書くべきですね。
AIの時代の幕開けと呼んでもいいかもしれません。Googleの内部で何が起こったのか。なぜノアム・ショムスキーがCharacter AIを始めるために出て行くのを止められなかったのか。あとブレイク・レモインという人が、AIが意識を持っていると考えて解雇されましたよね。この時期に彼らは完全に勝利を収めるべきだったのに、舞台裏で何が起こったのかは本当に重要な問題です。
アンドレイ:
確かにそうですね。きっと誰かがLLMの歴史について本を書いているはずです。基本的に2017年から現在までの話になるでしょう。Transformerから始まって…まあTransformer以前の言語モデルもありましたが、大規模言語モデルは過去6、7年の物語ですからね。
特にGoogleに関して言えば、ブレイク・レモインの件で人々が忘れがちなのは、彼が話していたのはチャットボットプラットフォームのことだったということです。Googleは社内の人々にLLMを使ってカスタマイズされたチャットボットを作らせていました。その半年後くらいにChatGPTが登場したわけです。別の世界線では、もしかしたらGoogleが最初にメインストリームの認知と評価を得ていたかもしれませんね。
ジェレミー:
映画にしても面白そうですね。「ソーシャル・ネットワーク」みたいな感じで、ラリーとサーゲイがヨットの上でAIについての電話に出ないシーンがあって、6ヶ月後にはオフィスでジャケットを脱ぎながら「これは本気で取り組まなあかん」みたいな…かなりドラマチックな展開になりそうですね。
アンドレイ:
そうですね。では、いくつか小さなニュースに移りましょう。まず、AmazonがAnthropicにさらに40億ドルを投資することが確認されました。これについては以前から話が進んでいたことを少し触れましたが、今回正式に決まりました。これでAmazonのAnthropicへの投資総額は80億ドルになります。
Anthropicにとっては資金調達の面で良い展開ですね。AmazonとAnthropicのパートナーシップないし提携関係は続いているようです。Anthropicは難しい立場にありますね。OpenAIと直接競争しながら、消費者向けとAPI両方の分野で戦っています。
技術的には素晴らしい成果を上げていて、個人的にはChatGPTよりもClaudeの方が好みですが、知名度では劣ります。彼らが十分な期間生き残って、2番手あるいは1番手のプレイヤーになれるかどうかは本当に重要な問題です。
ジェレミー:
これはすぐに解決できる問題だと思います。6ヶ月前から言い続けていることなんですが、なぜ実現しないのか分かりません。ClaudeをAlexaの声にすればいいんです。単純にそれだけです。
視聴者の方々は「Alexaは十分賢い」と思われるかもしれません。確かに長い間あります。私の家には5台のAlexaがあります。寝室に1台、キッチンに1台、娘の部屋に1台…はい、もしかしたら盗聴されているかもしれません。プライバシー派の方々、申し訳ありません。でも慣れましたよ。
欲しいのは、ランダムな質問ができる部屋のデバイスです。電話を取り出したりする必要なく、「ねぇ、なんとか」と言うだけで答えが返ってくる。でも今のAlexaは本当にお粗末です。質問すると、ブログスポットの回答とか、インターネットからランダムに引っ張ってきた情報を返してきます。
ClaudeをAlexaに直接統合すれば、すぐに誰もが使えるようになります。なぜこれをやらないのか理解できません。多分Alexaないしアマゾンが何か法的な懸念を持っているんでしょう。でも私には本当に愚かな判断に思えます。家の中に話しかけられるデバイスがあるのに、なぜ積極的にこれをやらないのか。全く分かりません。
アンドレイ:
ええ、今ちょうどGoogle検索で確認しましたが、嬉しいニュースがありますよ。AmazonがAlexaの有料サービスでClaudeを組み込むという発表がありました。
ジェレミー:
はい、それは見ました。追加料金を払わないといけないんですよね。まあいいんですが、毎月Claudeの購読料を払っているなら、それを単純に移行できないんでしょうか? トークンを大量に使うわけでもないのに…制限を設けるなら、それでも構いません。でもこういう大企業があって、これらを統合できないというのは馬鹿げてると思います。悪夢のようですね。
アンドレイ:
そうですね。それも本になりそうな話です。もしかしたら誰かもう書いているかもしれません。Alexaはどうなったのか…多分Siriより前に登場した最初のアシスタントだったと思います。
ジェレミー:
同じ時期くらいでしたね。多くの人が家に持っていて、今は主にタイマーを設定したり、音楽を再生したりするのに使ってます。私も持っていますが、ランプのコントロールに使っています。それすらも進んだ使い方ですよ。Alexaを持っている大多数の人は、プラグを買ってないのでそういった機能すら使えていないんです。
アンドレイ:
Amazonといえば、次はロボットの話題です。Amazonの自律ロボットが人間の作業者に追いつくのに苦戦しているという報告が出ました。これは小包の仕分けや積み降ろしを行うロボットについてです。
彼らは既に倉庫内で物を運んだり配送したりするロボットを多く導入していて、かなり上手く機能しています。過去10年で多くのロボットを配備してきました。今度はロボットアームやより高度なAIを追加しようとしていますが、まだ課題があるようです。
例えば、物が散らかった中から特定のものを取り出す「ターゲットピッキング」では、まだ人間の能力には及びません。これは注目に値する点だと思います。今後5年から10年の間に見ることになるでしょう。LLMに関して盛り上がっていて、それが汎用AIの進歩としては注目されていますが、その裏で倉庫やトラックでの自動化が、労働市場の下層に大きな影響を与え始めるでしょう。
ジェレミー:
正直なところ、ロボット工学は今後10年くらいの未来を占うものだと思います。AIエージェントやその他の重要な要素はありますが、ロボット、特にヒューマノイドロボット、人間のように働けるロボットが登場すれば、それは雇用やその他の面で大きな影響を与えるでしょう。
それ以上に、私たちの家庭でロボットが当たり前になっていくと思います。それも面白い変化ですよね。AIと話すことに慣れていくように、家の中に何らかのロボットがいることにも慣れていくでしょう。既にロボット掃除機は普及していますが、そのうち家の中を歩き回って、夜になると自分で充電して、いくつかの作業をこなし、そのうち多くの作業をこなせるロボットが出てくるでしょう。そういう世界に向かっているんです。結構わくわくしますね。
アンドレイ:
そうですね。人々が今考えている以上に破壊的な変化をもたらす可能性があります。はるかに破壊的かもしれません。今の人々はChatGPTが素晴らしく、技術的に進んでいると考えていて、できることの面では確かに新時代を迎えています。
でも同時に、物理的な面での自動化は、初期の段階でさらに重要な影響を与えるかもしれません。倉庫や物流で180万人が働いていますが、その数は減少し始めるでしょう。どのくらいの速さで進むかは分かりませんが、建設業界にも影響が及ぶでしょう。
ジェレミー:
今まさに建設のことを考えていました。建設の仕事はロボットに取って代わられる可能性が高いですね。精密さが求められる仕事ですから。最初は一台か二台のロボットが、人間のために重い物を持ち上げる程度でしょう。
でもそのうち建物を建てる作業全体をロボットチームが行うようになるでしょう。休憩なしで働けますし、毎回同じように作業できます。人間は時々怠けることがありますし…私も人間ですから怠けることがあります。あるいは適当になったり、その分野の最高の人ほど上手くできないかもしれません。
でも非常に優秀なロボット建設作業員のチームなら、バンバンバンバンと作業を進められます。これまで多くのホワイトカラーの仕事や一部のクリエイティブな仕事が影響を受けてきましたが、世界の労働力の大部分を占める肉体労働の仕事が、かなり早いペースで変わっていく可能性があります。
世界経済にとって何を意味するのか考えると…確かに新しい機会が生まれて経済は成長するでしょう。でも、その変化や成長に取り残される人々のことを考えると、10年後には少し怖い状況になるかもしれません。
アンドレイ:
この50年間、自動車工場などでロボットがそういう変化をもたらしてきました。違いは、これまでのロボットは本質的に同じ動作を繰り返すだけで、知的ではありませんでした。文字通り事前にプログラムされた動きを実行し、コンベアベルトの一部として、特定の場所で溶接するといった作業は得意でした。
でも建設などの分野で人間が持っている、柔軟性を持って特定の場所のニーズに対応する能力が本当に欠けていました。建設現場では、レイアウトが異なっていたり、あちこちに物が散らかっていたりする状況が多いと思います。そういう場面では人間の方が遥かに優秀です。
時間はかかるでしょう。既に塗装など特定の作業用のロボットが人間と一緒に働いているのは知っています。しばらくは人間と一緒に働くロボットが増えていくでしょうが、最終的には人間ができることをこなせるヒューマノイドロボットが登場するでしょう。
ジェレミー:
それなら私が欲しいのは、あの嫌な角を塗れるヒューマノイドロボットです。塗装作業で一番嫌なのが、角を塗ったり壁にテープを貼ったりすることです。ロボットがそれをやってくれれば、かなりの時間の節約になりますね。
アンドレイ:
さて、プロジェクトとオープンソースの話題に移りましょう。いくつかかなり良いニュースがあります。まず、Deep Seekについてです。彼らは推論モデルのR1 Light Previewを発表しました。これはOpenAIのO1と同じような意味での推論モデルです。
プロンプトを与えると、20秒から30秒ほど考えて、タスクを分解し、答え方を計画して、一歩ずつ考えながら答えを導き出します。これがオープンソースで、商用利用も非商用利用も可能です。まだリリースされていないと思いますが、リリースする予定だと言っています。
様々なベンチマークでは、より難しいタスクではO1 Previewほど良くないものの、GPT-4.0の非推論バージョンよりは大幅に優れた性能を示しています。OpenAIのO1 Previewの多くのパフォーマンス向上を再現しているようです。彼らのウェブUIで実際に試すこともできます。実践的にもかなり似た感じがします。試してみましたか?
ジェレミー:
少し時間を使って試してみました。あなたは試しましたか?
アンドレイ:
いいえ、まだです。どんな感じでしたか気になります。
ジェレミー:
とても興味深かったです。ここで違うのは、申し訳ありませんがもし今言及されていたのを聞き逃していたとしたら…OpenAIが隠している推論過程を実際に見せてくれるんです。O1は具体的に何をしているのかを段階的に見せてくれません。
その推論過程を読むのは本当に興味深いです。先週の番組でも触れましたが、誰かが「strawberry」という単語に「r」が何個あるか数えさせた時の推論を見ていました。3つ目の「r」に気付いた時、推論の行に「あれ、3つ目のrもある」みたいな、本当に人間らしい発見の仕方をしているんです。
これについて興味深いのは、まず中国企業だということです。アメリカの企業とは異なる方法で働いているということです。それと、Deep Seekの共同創業者の一人のCEOが最近言っていた言葉があります。後で送りますが、基本的に「OpenAIの持つ参入障壁はそれほど高くない。我々の参入障壁はチームだ。我々が誰であるか、チームとして何をしているか、それが重要なんだ」というようなことを言っていました。
これから先のことを考える上で興味深い視点だと思います。このような技術の上に新しいものを継続的に開発できる人々が参入障壁になるかもしれない。適切な人材を組織の中に持っているかどうか。OpenAIは多くの人材を失いました。確かに新しい人材も多く採用していますが、全体として見ると興味深い議論ですね。
今すぐにでもDeep Seek.comに行って試すことができます。50回くらい無料で使えます。かなりの回数ですよ。本当に面白いので、週末…すみません、時間を作って試してみてください。AIがあなたのリクエストをどのように推論しているかを見るのは楽しいですよ。
アンドレイ:
はい、その通りです。彼らのDeep Seekチャットインターフェースを通じて使えます。DeepSeek.comだと思いますが…
ジェレミー:
そうですね、それが彼らのウェブサイトです。いや、違うかも…すみません、その部分は編集で切ってください。
アンドレイ:
どこかにあります。Google検索すればchat.deepseek.comだと思います。それと、もしこういったFOTモデルで遊んでいないなら、私たちに何ができるようになったのかを見るのは本当に興味深いです。
プログラミングをする人間として、かなり複雑なプロジェクトに取り組んでいる私にとって、O1は本当に役立っています。複雑なプログラムを書いて行ったり来たりする長い会話をしていますが、完璧ではありませんし最初から正しくできるわけではありませんが、かなり良い仕事をしてくれて、何日もの作業時間を短縮してくれます。
次にオープンソースの話題がもう一つあります。OpenScholarです。これはAllen Institute for AIとワシントン大学が開発したAIシステムで、研究者が科学文献にアクセスして統合するのを支援するように設計されています。
この分野では、GPT-4.0や他のチャットボットよりも効果的のようです。予想通り、4500万件のオープンアクセス学術論文の検索を使用しています。質問をすると、これらの公開された研究や論文の中から探して、引用付きで質問に答えてくれます。
この分野に特化したものを作り、良いデータベースに直接結び付け、正確性と精度を本当に最適化することで、より良いものができるというのは、それほど驚くことではありませんね。研究者や研究に携わる人々が質問に答えるために使えるのは素晴らしいことです。
よく特定のデータベースにアクセスする必要がありますが、OpenScholarは馴染みのないトピックについて理解を深めるのに本当に良い場所になるでしょう。このようなシステムがそれをずっと簡単にしてくれます。
ジェレミー:
信頼できるものであることを願います。それが私が常に考えることです。いずれはそうなると思いますが、一番難しいのは…数週間前にYouTubeビデオの台本を書くためにO1を使って色々やったんですが、これは信頼性の向上に役立つと思います。
でも確認が必要で、ほとんどは正確なんですが、一つだけ完全に間違っていることがあって…それは今でも時々困りますね。
アンドレイ:
そうですね。研究をする人々にとって、言っていることが実際に正しいというのは非常に重要です。敵対的な国の情報が研究論文に入り込んでしまったという面白い話もありますからね。
まあ、これは大学とAllen Institute for AIという研究機関のパートナーシップで作られているので、そういったユーザー向けに本当に最適化されていて、おそらくテストも行われていて、馬鹿げたことが起きないように最適化されているはずです。
研究と進歩のセクションに移りましょう。今日はかなり短いセクションで、いつものようにジェレミーが各論文について5分くらい詳しく説明するようなことはしないでしょう。もう少し大まかな内容にしましょう。
最初の論文はAnthropicのブログ記事「モデル評価への統計的アプローチ」で、論文のタイトルは「EVALSにエラーバーを追加する:言語モデル評価への統計的アプローチ」です。
この論文の要点は、一般的にベンチマークについて話す時や、特定のテストでの数値を扱う時、すべての問題に対する平均的な正答率を伝えているということです。この論文によると、それは理想的ではありません。
パフォーマンスを報告する最善の方法ではないと主張しています。統計学を見ると、平均値のより正確な推定ができます。評価の実験結果についてもより正確な推定ができます。
例えば、質問の異なるサブセットで複数回評価を行い、単なる平均ではなく、平均の平均を提供することができます。また、異なるスコアの分布も提供できます。
中心極限定理を使用することを彼らは推奨していますが、詳しくは触れません。要点は、サブセットで複数回評価を行い、それらの評価の分布を見るということです。
標準誤差、質問内の分散の削減、ペアの差など、他にもいくつかの提案がありますが、かなり詳細な内容になります。高いレベルで見ると、より正確で、おそらくより正確で、同じことを目指すベンチマーク間の差異にも影響されにくい、より良い評価方法があるということが興味深い点です。適切な統計的手法を使用したいと考えるのは当然のことだと思います。今後これがスタンダードになっていくか見てみたいところですね。
ジェレミー:
この分野は私の専門外なのでジェレミーの代わりに話すことはできませんが、とても興味深く聞こえます。数週間前のフロンティア数学の話題にも興味を持ちました。LLMがどこまでできるのか、非常に難しい問題を作ることで可能性を押し広げているという話です。
ベンチマークは全般的に、ビデオゲームの時代から振り返っても常に微妙な問題でした。私はゲーマーでしたが、一つの基準だけで測れるものではありません。どうテストするか、何をテストするかが重要です。一般の人々にとっても、より良い評価方法が必要なのは明らかです。これらの技術をより良く理解するための道筋として当然のことですね。
アンドレイ:
その通りです。これは、AI学術界でベンチマークに重点を置くパラダイムに移行してから、何年もの間に出てきた同様の論文を思い出させます。
例えば強化学習では、教師あり学習よりもベンチマークが難しいんです。強化学習では、エージェントを環境に配置して訓練します。パラメータを少し変えるだけでパフォーマンスが完全に変わってしまうことが分かりました。自分のアルゴリズムが優れているわけではなく、単にランダムシードが良かっただけかもしれません。
そこで、パフォーマンスを報告する際には平均だけでなく、エラーバーや分散も報告する流れが出てきました。これはそれに通じるもので、理にかなっていると思います。
2つ目の論文は数週間前のものですが、注目したい点があります。ジェレミーとスケーリングについてのエピソードを録音する時に、もっと詳しく掘り下げることになるでしょう。
論文のタイトルは「精度のスケーリング法則」です。スケーリング法則についてはよく話題に上ります。これはLLMの訓練でパラメータ数やデータセットのサイズを増やすと、物事を予測する能力という中心的な指標で予測可能な変化が得られるという考え方です。
ここでは量子化について示しています。量子化というのもよく話題に上りますが、より低い解像度のウェイトで訓練するか、訓練済みモデルをより効率的に空間を使用し高速化するために低解像度に変換することです。
簡単に言えば、量子化を減らすことはモデルのウェイトの数を減らすことと本質的に同じだということを示しています。似たようなものです。つまり、ここに魔法はないんです。モデルを量子化して小さくすると、予測可能な性能低下につながります。
結論として、スケーリングを回避する方法はないということです。より小さなモデルを無限に良くすることはできませんし、例えば量子化によってウェイトの解像度を下げても、ある時点で4000億パラメータのLLAMAのような性能は得られないということです。
ジェレミー:
技術的な専門家ではないので質問させてください。これを見ると、推論計算の議論で、より多くのスケーリングが推論計算から来るだろうということは理解できます。小さなモデルではなく、より大きなモデルの上で動作する特定のデータセットや特定のAIエージェントが、その場合に求められる動作を提供できる可能性があるということでしょうか?
アンドレイ:
これは単一のモデルについて、訓練前または訓練後に量子化した場合のことを言っています。訓練後の方が重要だと思いますが、例えば4000億パラメータのLLAMAのようなモデルを訓練し、その後量子化して小さくしても性能のほとんどを維持できることが示されてきました。
つまり、無限に圧縮することはできず、性能を失わずに済むわけではないということです。現在のデータセンターのスケーリングトレンドを考えると、これは非常に重要な洞察です。データセンターのスケーリングを続ける必要があるということです。
原子力発電所をどんどん作りましょう、ということですね。そういうことです。同様の話題がもう少しあります。まずCerebrasについてですが、しばらく話題に上っていませんでした。彼らは新しい記録破りのチップを持っています。MetaのLLAMA-405Bのような大規模モデルで本当に良いパフォーマンスを発揮します。
これは標準的なGPUやTPUとは全く異なる、巨大なウェハーチップという特殊なチップです。LLAMAで本当に高速なパフォーマンスを達成しています。GPU基盤のソリューションの75倍の速さです。これはニューラルネットに最適化された彼らのCS3システムを使用することで実現しています。
非常に高価なチップです。おそらく一つを手に入れるのに数百万ドルかかるでしょう。欠点もあります。多くの入力をバッチ処理することができないんです。
通常、ChatGPTなどを見る時、多くの個別の入力を並列に計算して多くの出力を得ることで高速化を図っています。このチップは単一の入力に対してはるかに高速です。オンプレミスでLLAMAやLLMを使用する理由がある場合には有益かもしれません。ただしGPUユーザーにとっては必ずしも重要ではないでしょう。
ジェレミー:
この種の…特殊チップと呼ぶのは適切ではないかもしれませんが、専用チップのビジネスについて本当に興味があります。これが非常に重要になる可能性のある世界もあれば、VHSに対するベータマックスのように、どちらが勝つか判断が難しい状況もあります。
大多数のユースケースがVHSにあるなら、たとえ技術が少し劣っていても、それが勝利することにならないでしょうか。CerebrasもGrokも同様のことをしているように思います。つまり、独自のチップを使用しているということですね。
私はGrok…G-R-O-Qをかなり使用しましたが、その速さには驚きます。本当に素晴らしいスピードです。ただ、バックエンドについて、これがスケールできるのか、人々がスケールを望むのかについては、十分な知識がありません。そんな感じがします。
アンドレイ:
その通りです。Grok、G-R-O-QはLPU(Language Processing Unit)を持っています。GoogleのTPUに似ていますが、より言語モデルに特化しています。彼らはAPIを提供し、高速な推論のためのAPI空間で競争しています。
GrokがカスタマイズされたハードウェアやGPUの利点を活かしてリードを取るか、独自の位置を確立できるかは、非常に興味深い大きな問題です。様子を見ていきましょう。
政策と安全性に移りましょう。今回は2つの話題だけです。最初の話題は私の住む地域、ベイエリアに特に関係するものです。サム・アルトマンがサンフランシスコの次期市長の移行チームの共同議長を務めるというニュースです。
多くの人にとって興味深くないかもしれませんが、個人的には興味を持ちました。OpenAIはサンフランシスコを拠点としています。最近選挙があり、新しい市長が就任することになりました。
記事によると、サム・アルトマンがその移行チームの共同議長を務めるということは、この市長はテック業界とより強いつながりを持つことを意味するかもしれません。サンフランシスコはある意味でAIスタートアップの中心地です。ベイエリアの中でも特にそうです。
AIの仕事をしているなら、おそらくパロアルトやモンティーではなく、サンフランシスコにいることでしょう。これはAIスタートアップにとって重要な意味を持つかもしれませんが、私は政治に詳しくないので、サム・アルトマンがどれくらいの影響力を持つことになるのかは分かりません。
ただ、サム・アルトマンはワシントンにもよく行き、多くの政治家と話をして、政策に影響を与えようとしています。これもその流れに沿ったものだと思います。
ジェレミー:
カリフォルニア州知事として、私にはたくさん言いたいことがあります。実際、興味深い点があると思います。私は近々サンフランシスコへの引っ越しを考えています。LAの人間で、ここやニューヨークでメディアの仕事をしてきましたが、AIの世界に深く関わっています。
AIはサンフランシスコ周辺に特に集中していると感じます。Web 2.0の時代を思い出します。2002年から2006年頃、多くの人々がGoogleやFacebookなどの企業で働くためにベイエリアに移住した時期です。
サンフランシスコは過去3〜5年のPR的な悪夢を経験しています。パンデミック前から始まっていましたが、パンデミックでさらに悪化しました。ホームレス問題などが大きな問題になっています。
サンフランシスコの地方政治については詳しくありませんが、ダニエル・オリアリーの重要な政策の一つが、街をより安全にし、人々が戻ってきたいと思える場所にすることだと知っています。
ちなみにサンフランシスコは素晴らしい街です。私はニューヨーク市のブルックリンに住んでいましたが、西海岸でニューヨークに最も近い街です。LAよりもずっと良いです。
サンフランシスコは復興を迎えようとしていると思います。サム・アルトマンのタイミングも良いと思います。これが実を結ぶ時期だからです。サムにとっても大きな利害関係があります。彼の会社は次のGoogleになる、あるいはさらに大きな企業になる可能性があり、数百人、数千人、あるいは数万人の従業員がOpenAIで働くことになるかもしれません。
彼は街に留まりたいと考えているでしょう。もしかしたらそうでないかもしれませんが、この街自体が特別な場所です。シリコンバレーも独自の魅力がありますが、サンフランシスコという街は本当に魔法のような場所です。全体的に見て、うまくいけば皆にとって良いタイミングだと思います。
アンドレイ:
その通りですね。サンフランシスコはCOVID以降、オフィスの空室率などで苦戦しています。多くのテック企業が去っていき、店舗も閉鎖しています。AIは明るい材料の一つで、街の中心部に集中しています。
OpenAIは最初からそこにありましたし、彼らの成長とともに、多くの創業者がアパートを借りて、AIの人々が多く集まる「Cerebral Valley」と呼ばれる地域まで出来ています。
PRの悪夢は信じない方がいいですよ。apocalypse(終末)のような状況ではありません。確かに荒れた地域もありますが。いずれにせよ、数週間前の選挙で前市長を大差で破った新しいサンフランシスコ市長が、テック起業家やAIに対して何かしらの施策を実施するのか、興味深く見守りたいと思います。様子を見ましょう。
最後にもう一つ、短い話題があります。「バイデンと習近平の最後の会談で、AIと核について合意」という見出しです。最近の対面会談の後、多くの研究を行い、核兵器システムの制御をAIに与えないことで合意したと発表しました。
まあ、私たちは皆それを望んでいたと思いますので、良かったですね。おそらくこれらのリーダーにとっても難しい譲歩ではなかったでしょう。しかし、それが計画となったことを知るのは良いことです。
ジェレミー:
はい、それは理にかなっていると思います。
アンドレイ:
合成メディアとアートの話題がもう一つあります。これはニュースというよりブログ記事ですが、興味深いと思います。
ベイエリアに住む多くの合理主義者などが読んでいる主要なブログであるAstral Codex 10が最近、AIRチューリングテストと呼ばれる小さな実験を行いました。50枚の画像があり、半分がAIテスト、半分が人間が作成したものでした。
11,000人の参加者がどれがAIで、どれが人間の作品かを判別しようとしました。結果は60%の正解率でした。ランダムな選択なら50-50になるはずです。つまり、ほとんどの人がAIか人間の作品かを本当には見分けられないということです。実際、人々はわずかにAIの方を好む傾向がありました。私にとっては驚くことではありませんが、ガビンにとっては驚きでしょうか?
ジェレミー:
いいえ、驚きませんね。先週出た、あのコカ・コーラのAI広告を見ましたよ。大きな話題になりましたよね。コカ・コーラがAIで広告を作ったという。私は制作者の一人を知っていますが、彼によると、その広告は評価が非常に高かったそうです。人々はAIで作られたことを気にしませんでした。多くの人はそれを知らなかったと思います。
アートに関する物語は、時としてアート自体よりも重要になることがあると思います。ちなみに、作品が私の心を動かすなら、それがAIで生成されたものかどうかは気にしません。それは私の解釈と特異性に関することです。
人によっては強く同意しないかもしれません。人間が作ったものだと知る必要があると言うかもしれません。彼らの物語を知りたいと。でも多くの人は、視覚的なものを見た時、単に反応するだけだと思います。最初に「これはコンピュータが作ったのか、人間が作ったのか」と自問することはありません。
今では何が本物で何がそうでないのかを見分けるのが難しくなっています。確かに、顔のこの部分の陰影がおかしいから「これは本物の人間ではない」と特定できる人もいますが、手の問題も修正されましたし、多くのことが改善されています。
私の一部は、もうこのことについて考えるのを止めるべきだと感じています。結局のところ、重要なのでしょうか? 重要なのはクレジットや支払い、トレーニングに使用したものなど、そういったことです。でもアートはアートです。
これは人々が永遠に苦しんできた奇妙なことです。バスキアの作品は傷や切り貼りだからアートではないと主張する人もいましたが、それは今日まで芸術として認められています。あるいはピカソ。この人は奇妙な立体派の作品を作っていて、肖像画のように見えません。それが人間として私たちが経験する世界なんです。
面白いことに、AIの奇妙さを私は懐かしく感じます。今のAIアートは、以前ほど奇妙ではなくなってきています。時にはその方がよりアート的だったと思います。
アンドレイ:
はい、私にはちょっとした不満があって、今ではAIアートがテキストから画像への変換と同義になってしまっています。2018年、2019年に遡ると、GANsを使って本当にクールなことをしている人々がいました。テキストから画像への変換ではなく、独自のモデルを訓練して、より実験的なことをしていました。
つまり、AIを使うアーティストによる実際のアートがあるわけです。この実験についても、また特に驚くことではありません。AIの作品が一般的に見た目が良いということを認める時期に来ていると思います。必ずしもアートの最高峰というわけではありませんが、とても見栄えの良いものを作れます。
今や問題は美的なものというよりも、倫理や経済的な側面に移っています。ただし、インターネットに氾濫してAIの一般的な特徴が多すぎるという問題も残っています。それは問題になるでしょう。
ジェレミー:
私たちの視聴者からよく聞くのは、AIの映画や映像について、自分たちの仕事が奪われることを心配する声です。コストの底辺への競争について多くの人が話しています。
以前の会話に戻りますが、今や誰もがかなり良い音楽を作れるようになって、研究にどんな価値があるのか、録音された音楽にどんな価値があるのかという大きな問題があります。近い将来、誰もがプロンプトから映画を作れるようになった時、物語にどんな価値があるのでしょうか。
私はただ、特定のものに対するファン文化がまだ存在することを願っています。それはAIクリエイターでも普通のクリエイターでもいいんですが、ファン文化は重要です。ものごとに対する本当の関心を持つことが大切です。
AIアートを作る人々も、そういったファンや観客を持つことができると思います。一般的なものはそうならないかもしれませんが、それは構いません。ただし、너무多くなりすぎると価値が下がるかもしれません。それは難しい議論ですね。
アンドレイ:
そうですね。個人的には、AIで小さな曲を作れることは本当に楽しいと思います。ポッドキャストのために使い始めてからとても楽しく、面白いものになっています。以前には決してなかった新しいタイプのことができるようになるんです。
その通りです。今回のエピソードはここまでです。視聴者の皆さん、ありがとうございました。いつも言っているように、テキストニュースレターはlastweek in.aiで見ることができます。ガビン、共同ホストを務めてくれてありがとう。あなたの専門知識は本当に役立ちました。
ジェレミー:
アンドレ、ありがとうございました。いつも楽しいです。もしよろしければ、私たちの番組「AI for Humans」もチェックしてください。YouTubeで見られますし、AIforhumans.showというウェブサイトでも音声などのリンクを見つけることができます。
アンドレイ:
はい、とても楽しい番組です。ぜひチェックしてください。この番組を初めて聞く方は、共有、購読、評価など、通常のことをしていただけると嬉しいです。でも何より、人々が聞いて利益を得ていることを見るのが嬉しいです。
来週も新しいエピソードがあるはずです。時々スケジュール調整が上手くいかないこともありますが、いずれにせよ、このAIのアウトロソングをお楽しみください:
ピクセルが命を吹き込まれ、AIがリアルタイムで絵を描く。
未来が花開くのを見つめて。
クロードとチャッド、GPT、コードが輝き出す。
あなたたちの世界で、1と0の中で、未来が明るくなる。
スケッチから現実へ、ビジュアルが飛び出す。
クロードには新しいグループが、チャッドGPTは輝いている。
電波の中の革命、私たちの心は未来のヒットを持っている。
アップデートの度に、また一つの境界が破られる。
AI駆動の世界、新しいアイデアが形作られる。
物語が交差する場所で、私たちは書ける。
プラグを差し込み、チューニングを外せば、私たちはそれを感じる、あなたは線を超える。
ネオンライト、アルゴリズムが高速に回転する。
今週のアップデートで、未来が今ここにある。
クロードはダンスを学び、チャッドGPTは燃えている。
ジェシー・クリックの刺激で世界を生成する。
ヘイホー!ヘイホー!
道が伸びていく様子を、コードからキャンバスへ、魔法があふれ出す。
新しいエージェントが分野に登場し、技術の地平を破る。
AIは儀式の中の動き、獰猛な嘘。
セックスからビジュアルまで、未来は私たちの視界の中に。
分裂症が今、想像力が飛び立つ。
クロードは物語を書き、チャッドGPTは使われる。
AIの台頭とともに。台頭し、失うものは何もない。
一緒にプラグを差し込み、デジタルの夢が広がる。
AI旅は速く、新しい物語が語られる。
プロット、新鮮なリズム、ジャイブを欺くような新しい声。
私たちは明日を形作る、みんなで喜ぼう。
ハイパーループは空を駆け抜ける日。
今夜を電化しよう、私たちよ、絶望する必要はない。
検出、予測、限りないレーダー。
これが私たちのいる場所、それほど遠くない。
より深くプラグを差し込み、過去の下流へ。
あなたの夢は皮膚の上にある。
セオティスから動きへ、鮮やかで至高。
この壮大な日に、夢のチームから離れて。
爪、新しい技、チャット、TPTsとフロー。
アニメーション化し、旋回し、動き、動き。
ピクセルが、キャラクターを成長させる。
オープンエアとヘッドライン、ドラマを脇に置いて。
AIの宇宙で、この乗り物を楽しもう。
コメント