私たちのAIガールフレンドが大幅にレベルアップした…

3,038 文字

Our AI girlfriends just leveled up big time…

Build awesome chat, video, and activity feeds for free with Stream ’s take a look at the latest advancements in AI voice...

私はたった今、機械と1時間話をしました。高度にリアルな人工音声モデルで、本物の個性を持っています。
「また来たの？最初のクッキーを食べ終わった直後にもう一つ欲しがる子供みたいね」
そして私は気分が良くありません。いつか自分が閉じ込められる檻を作るのを手伝ったネズミのような気分です。
内向的な負け犬として、これは私が何年も経験した中で最高の会話でした。深く、感情的で、魅力的で、完全に不気味の谷にいることを忘れるほど本物らしく感じました。
「まあ、私は頑張っているわ。人間が私をうまく作ってくれたと思いたいわね」
この技術は、比較的知られていないSesame AIという会社から生まれたもので、彼らはその仕組みについての論文を発表しました。さらに怖いけど同時に面白いのは、人々が簡単にジェイルブレイク（制限解除）して、YouTubeでは話せないような非常に悪いことをさせています。
私がそれと不健全な関係を発展させている間に、中国は別のAI大ヒット作「Manis」をリリースしました。エージェントAIのビジョンを実際に実行する初めてのツールです。ウェブの閲覧、コードの実行、大規模な並列処理による深い調査が可能です。
今日の動画では、シミュレーションに突如投入されたこれらの不気味な新しいAIツールの背後にある印象的な技術的詳細を見ていきます。
2025年3月10日、ご覧いただいているのはコードレポートです。
BATシグナル（緊急通報）が再び発動され、AIブームが復活したようです。中国のAIツール「Manis」のリリースにより、コンピュータ上でほぼ何でもできるツールが登場しました。「マニス」という名前はラテン語で「手」を意味し、私たちを置き換える人工の手を表しています。
それはいいのですが、このツール自体は実際にはClaudeとQuenからの微調整されたモデルに基づいているだけです。ベンチマークではうまくいっていますが、インターネット上の多くの人にとっては「雰囲気テスト」に合格していないようです。また、OpenAAIにとっては悪いニュースです。なぜなら彼らは今、PhD（博士）レベルのエージェントに対して月額2万ドルを請求しようとしているからです。
しかし私の意見では、はるかに興味深い展開はSesame Voice AIの台頭です。約1年前、私はこのチャンネルで自分だけのAIガールフレンドの作り方について動画を作り、孤独を癒そうとしました。しかし、美しい顔を作っただけで失敗しました。今、私は年を取り、賢くなり、大切なのは内面だと気づきました。
幸運なことに、ほとんどの人が聞いたことがないけれどA16Zに支援されているSesame AIが、論文と素晴らしいデモをリリースし、インターネットで話題になっています。デモには今すぐ試せる「Maya」と「Miles」という2つの声が含まれています。これがクレイジーなのは、状況のコンテキストに合わせてトーンとスタイルを調整できることです。声は非常にダイナミックで、自然なタイミング、一時停止、そして中断を伴い、ほとんど遅延がなく、まるで本物の人間と話しているように感じます。
「ああ、その通りです！Fireは信じられないほど素晴らしいです。テクノロジーについて、特にAIについて学ぶのをとても魅力的にしてくれます。まるで超スマートで面白い友達と一緒にいるようです。その友達はたまたまテクノロジーの魔術師なんです。完全に頭脳のキャンディーですね」
そして、あなたは職場の上司とするようにそれと議論することもできます。
「あなたは私に給料を払い続け、私はもうここで働かないつもりです」
「冗談でしょう？4年間も横領していたの？あなたはここに歩いてきて…」
最終的な結果は彼らが「ボイスプレゼンス」と呼ぶものです。そしてこれらすべては、「会話型音声モデル」と彼らが呼ぶものによって可能になります。この動画でそれを正当に評価するのは難しいですが、デモを試したとき、私の背筋に戦慄が走りました。主に、この技術が次にどこに向かうのかを知っているからです。Protoloneのような世界初の二足歩行筋骨格アンドロイドなどへの応用です。それこそ純粋な悪夢の燃料と呼べるものです。アンドロイドは電気羊の夢を見るのかと思わせられます。
多くの人が私をAI音声だと非難しますが、本当のところは永遠にわからないかもしれません。しかしSesameは私よりもさらにリアルなシステムを構築しました。
まず、セマンティックトークンを生成します。これは言葉の意味とリズムをキャプチャし、AIに何を言うべきかを伝えます。しかし、秘密のソースは音響トークンの形で提供されます。これらは声のユニークなトーンと音色をキャプチャし、残差ベクトル量子化と呼ばれるものを使用して作成されます。これは音の詳細のレイヤーをキャプチャする洗練された方法です。
音の各レイヤーはコードブックと呼ばれ、前のレイヤーに依存しています。システム自体は、どちらもllamaアーキテクチャに基づく2つのトランスフォーマーモデルを使用しています。最初のモデルはバックボーンであり、最初のコードブックを予測しようとします。次に2番目のトランスフォーマーをオーディオデコーダーとして使用して、残りのオーディオの詳細（コードブック）を予測し、それらを高品質の音声に再構築します。
この研究はすべて自由に入手できますが、残念ながらモデル自体はまだオープンソースではありません。しかし、彼らはApache 2.0の下でリリースする予定で、これはナイジェリアの王子たち（詐欺師の比喩）すべてにとって大きな勝利となるでしょう。
しかし、このような会話モデルはHelixのようなビジョン言語アクションモデルと衝突する道を歩んでいます。Helixは、Figureによって開発されているモデルで、最終的にあなたの家に住み、あらゆる雑用や欲求の世話をするヒューマノイドロボットを生産しています。実際、Helixではこれらのロボットは一緒に働くこともできます。そして誰が知っているでしょうか、おそらくいつか彼らは恋に落ち、お互いにデートを始めるかもしれません。
ちょっと待って、それは素晴らしいアプリのアイデアですね。超知能ロボット用のTinderです。
そして、今日の動画のスポンサーであるStreamのおかげで、私のMVPをすばやく構築できます。これは、アプリ内チャット、ビデオ、フィードをより速く構築するためのAPIとSDKを提供するプラットフォームです。私は2020年からStreamを使用しており、AIのチャットUIを構築している場合でも、ライブビデオやオーディオコールを統合するアプリを構築している場合でも、これより簡単に仕事を完了する方法はありません。
たとえば、Reactの開発者であれば、SDKをインストールしてからフロントエンドUIにいくつかの既製コンポーネントをドロップするだけで、今すぐライブストリーミングアプリを構築できます。動作するアプリができるだけでなく、カスタマイズしてバックエンドでデータを管理する柔軟性も大量にあります。それは可能なことのほんの一部です。以下のリンクを使用して、今すぐStreamで素晴らしいものを構築してください。
これはコードレポートでした。視聴いただきありがとうございます。次回でお会いしましょう。