
14,310 文字

新しい音声合成ロボットが登場し、人工知能を使って人間の声を模倣します。もしそれがロボットの頭部に組み込まれていれば、私はもう少し安心できたかもしれません。しかし、私はそれほど好きではありません。
ロボットドッグの世界では、人工知能のおかげで腕は過大評価されています。なぜなら、今では足を使って物を操作できるからです。スプーンを装着したOBロボットアームは、人工知能により非常に繊細な動きが可能で、どんな口にも優しく近づくことができます。
イーロン・マスクが、あまりにも多くのゲームスタジオが巨大企業に所有されていると発言し、彼の巨大企業でAIゲームスタジオを立ち上げることを発表しました。
ついにGoogleが、1枚の写真から無限の世界を作り出せる新しいAIモデルを発表しました。単なるNerf 3Dやアングルだけでなく、完全な没入型の豊かな環境を生成できます。AIゲーム分野の進歩は非常に早く、わずか3ヶ月前のDoom DeepMindのリリースがすでに懐かしく感じられます。
2024年には、Pano radarという新しいAIモデルが登場し、電波を3Dオブジェクトに変換できます。つまり、壁を透かして見ることができるのです。Al rabbitがClaudeにデスクトップの整理を依頼したところ、面白い結果となりました。
ルーク・チャンは、楽しまない人生を避けるべき理由について興味深い記事を書きました。文字通り、楽しむことが道徳的義務だと述べています。
新しいプラットフォームが登場し、AIが大規模なデータセットではなく、継続的で繊細な人間のフィードバックから学習することを可能にしました。
本日のGoogleのニュースに隠れてしまいましたが、cat 4Dと呼ばれる新しい研究により、拡散モデルから4次元の完全なビューが可能になりました。バラを持ったあの小さなウサギをどの角度からでも見ることができます。
しかし、まずはアレンのAGIまでの保守的なカウントダウンを確認してみましょう。驚くべきことに84%まで上昇しています。
DeepMindがgenie 2ワールドモデルを発表しました。84%というのは予想外でした。実世界での実装が必要だと思っていましたが、オープンワールドを作れるということで、そうなったのかもしれません。
これについて読んでみましょう。アレン博士によると、genie 2は、AGIに向けて必要な幅広さと一般性を達成しながら、実体化されたエージェントを安全にトレーningするという構造的な問題を解決する道筋だとのことです。
NVIDIAのシミュレーションソフトウェアは、ロボットに変換された際の精度が高いことで知られていますが、DeepMindは具体的な実世界のユースケースをまだ実証していません。ただし、農業、鉱業、製造業、組立、建設、サプライチェーン運営、輸送ネットワーク、ヘルスケア支援、コーヒーを入れることを含む家事など、ロボットを配置できるあらゆる場所での応用が期待されています。
このコーヒーを入れる話は、スティーブ・ウォズニアックに関係しています。これは新しいチューリングテストのようなものです。チューリングテストとは、AIが本物であれば人間がAIと人間の会話の区別がつかないというものでしたが、ChatGPTはそれを軽々と突破しました。
そして、いつものように私たちはゴールポストを動かし、現在は「知らない家に入って、コーヒーを入れて、家を出ることができれば信じる」というスティーブ・ウォズニアックのコメントが新しいゴールポストとなっているようです。
しかし、それは余談です。アレンのAGIまでの保守的なカウントダウンが84%まで上昇したという実際のアップデートは予想外でした。12月4日、84%という記録を刻んでおきましょう。すごいことです。
まず、チャンネルをサポートしていただける方は、patreon.com/Dillancuriousで私のパトレオンに登録していただけると嬉しいです。コミュニティの目標は1000メンバーで、現在73名です。月額2.99ドルから参加でき、それは直接これらの動画をより良くすることに使われます。
あるいは、すでにYouTubeにクレジットカードを登録していて、より便利な場合は、動画の下にある「参加」ボタンを押すだけでメンバーになれます。どちらの場所でもメンバーになれます。
では、さらにAIニュースをお届けしますが、まずはこの音声合成ロボットについて話しましょう。純粋な心の持ち主でない限り、皆さんが何を考えているかわかりますが、これはそういうものではありません。これはボイスBロボットで、機械式の声帯を備え、人間の音声に似た音を出すように設計されています。
では、SunoやUdioを通してではなく、実際にAIが制御する声を聞いてみましょう。これは何か本物のような音を出します。圧縮空気タンクを使用し、ゴム製の声帯に空気を通して振動を起こし、実際の声帯チャンバーで人間の声道の特性を模倣しています。
なぜドナルド・トランプのような髪型にしたのでしょうか。実際、何なのかわかりません。上下に動かすモーター機構を隠しているのかもしれません。
このロボット犬が他のものと違うのは、知覚的なペディプレーション(発音が難しいですが)と呼ばれるもので訓練されていることです。ペディ、つまり足、ペディキュアのようなものですね。脚を持つロボットの足を移動式操作に活用し、専用のロボットアームの必要性を排除します。
このロボットは腕を使わず、「足だけで箱を押したり、エレベーターのボタンを押したり、人と交流したりできる」というものです。人間の場合はそのような足の使い方はほとんどありませんが、これはロボットとAIの話です。
研究者たちにとって興味深いのは、この技術が大きなロボットアームの必要性を排除し、ロボットをより軽量で効率的にすることです。正直なところ、これは大きな一歩前進です。意図したダジャレですが。
私は本当に不十分に感じます。これらを見てください。彼らの潜在能力を十分に引き出せていません。もし私がこれらの一つの手を一生覆い隠していたらどうなっていたでしょうか。
実際、腕に問題がある人が足を使って鉛筆を持って書いたり、ドアを開けたりするのを見たことがありますか。脳は確実にこの部分からもっと多くを引き出すことができるのです。
新しいAI搭載のロボットスプーンがまもなくキッチンにやってくるかもしれません。主に障害のある人向けですが、人工知能のおかげで信頼性が高く、スムーズで優しい動きが可能で、皿の上の食べ物の種類を認識し、人間の口の位置を把握できるのは素晴らしいことです。
これは本当に助かります。多くの人々が単に食事ができないという問題を抱えています。私たちの誰もが問題を抱える可能性があり、常に人間に食べさせてもらうのは…わかりませんが、AIがこのような形で助けになるのは良いことです。
赤ちゃん用にも必要かもしれません。いや、高齢者や問題を抱える人には良いと思いますが、赤ちゃんには…そうですね、そうすべきなのかもしれませんが、ロボットに赤ちゃんの哺乳瓶を持たせたいですか?
赤ちゃんはその時期に人間との触れ合いが必要だと思います。より年長の人であれば、誰かに負担をかけたくないという気持ちから理解できるかもしれません。わかりません、皆さんのコメント欄での意見をお聞かせください。赤ちゃんの食事用にこのようなものを開発することについて、私にはわかりません。
これから話すGoogleのGenieのブレークスルーについて示唆的ですが、イーロン・マスクは「ゲームスタジオの多くが巨大企業に所有されている」と述べ、xAIでAIゲームスタジオを立ち上げて「ゲームを再び素晴らしいものにする」と言っています。
これはどうやってその問題を解決するのでしょうか?AIがどうやってその解決策になるのでしょうか?AIは、あらゆる問題を解決できる神秘的な魔法の道具のような、変な流行語になってしまいました。
退屈で型にはまった魂のないゲームが嫌いですか?心配いりません、AIが今まで作られた中で最高のゲームだけを作ります。現在のAIは、学習したものの魂のない一般的な型にはまったコピーしか作れません。これでは問題は解決できません。
これはニンニクのマウスウォッシュと同じくらい悪いアイデアです。イーロン・マスクは世界最高のDiabloプレイヤーの一人だと聞いたことがあると思います。彼は確かにビデオゲームを愛しています。
Xで、DiabloのオーナーであるSteve Wozniacにお金を払うべきだと言及していたのを覚えています。彼が有名人としてゲームを宣伝しているからです。
ビデオゲームと人工知能には確かに未来があります。すぐにわかるように、拡散モデルとGoogleが今週達成したことは驚くべきものです。仮想世界は現実に拡散され、それらの巨大なサーバーを所有する人々は、クラウドまたはローカルで実行されるモデルを作成できるようになるでしょう。
だから、Optimusロボットや車を作り、Neuralinkがあり、最高級のGPUを搭載したサーバーを構築する無限の資金を持っているのなら…実際に可能かもしれません。
チャーリーにもいくつかの考えがあります。AIは現在、プレイできない、救いようのない、下品なキャッシュグラブを生み出すために、多くの変な人々によって使用されています。
そして皮肉なことに、ここで私たちは、これまでで最も素晴らしいAI生成ビデオゲームの拡散におけるブレークスルーについて話します。
Googleがgenie 2をリリースしました。これはビデオゲームのように制御可能な大規模な基盤的なワールドモデルです。MetaとOpenAIの全員が今日呼び出されて、「今やっていることを止めて、Googleが達成したことを理解しているか確認してください」と言われたに違いありません。
Soraに似たようなものを想像してください。素晴らしい3D環境を物理法則と共に生成できますが、単なる小さなビデオクリップではありません。文字通り、無限の没入型3D環境です。
これはたった一つのプロンプトから生成でき、キーボードを使ってこれらの世界に飛び込んで動き回ることができます。
古いビデオゲームDoomのデモを覚えていますか?トースターなどで遊べる初期のものです。ブロック状で粗いものでしたが、おそらく最も早期のシューターゲームの一つでした。
3ヶ月前にそれを現実に拡散できたことは素晴らしかったのですが、そのブレークスルーの後でこれほど早く環境がこんなに良くなるとは予想もしていませんでした。
しかし、ここにいます。彼らのウェブサイトのデモは、リアルな物理法則、水の流れ、煙など、Unreal Engineと比較しても驚くべきものを示しています。
これは彼らの以前の2Dモデルから大きな飛躍であり、私たちが見てきた最高の3Dゲームシステムからも大きな進歩です。拡散ゲームシステムのようなものです。
2026年に拡散型AI生成モデルで構築されたブレイクアウトゲームが登場するかどうか、本当に考え直さなければなりませんでした。
IPをプロンプトに組み込むことができると想像できます。例えばスター・ウォーズの世界では、作られるものには特定の特徴があります。これらのLLMにより多くのメモリを入れることで、記憶を持った長編ストーリーを生成できます。全てが非常に早いペースで実現しつつあります。
これらの動画をご覧ください。通常W(前進)、A(左移動)、S(後退)に使うキーボードを使ってロボットが動いています。前景と背景の木々が、これら5つの異なる動画でジャンプするものを含めて、適切に動いています。
そして、別のプロンプトで「古代エジプトの人型ロボット」「大都市のロフトアパートの一人称視点」と入力します。
また、反事実的生成と呼ばれるものがあります。基本的に「もしこの道を行くとどうなるか」「あの道を行くとどうなるか」「これをするとどうなるか」というようなものです。例えば、石を投げたら水に落ちるので水を生成する必要がありますが、そういったことが全てできます。
あなたの決定に基づいて、物事が無限の方法で展開する可能性がありますが、それはプロンプトを入力すれば存在するように拡散されます。キャラクターと環境がどのように機能するかを理解し、あなたが決定を下すとその世界で生きていきます。
今この種のものを作れるなら、私たちはシミュレーションの中に生きているのではないでしょうか?10年後、20年後にはどうなっているでしょうか?もしこの世界のものが非常に複雑になり、その脳にニューロンのようなパターンが現れ、意識を持つようになったら?しかし、それは余談です。
ここでGoogleのDeepMindが長期記憶について説明しています。DeepMindは最初にAtariのゲームから始まり、この分野を開拓するために多くの興味深いことを行っていました。大きなTransformerや大規模言語モデルの波に乗り遅れましたが、少なくともこの分野でトップの座に戻ってきたのは驚くことではありません。
genie 2は、もはや視界に入っていない世界の一部を記憶し、再び観察可能になった時に正確にレンダリングすることができます。これは確実に解決する必要がある問題で、このような技術の開発初期にこれに取り組んでいることに驚いています。
3ヶ月前に見たモデルでは、ドアを見てドアを通り抜け、その部屋を動き回った後、振り返って元の部屋に戻ると、部屋が違うものになっていたと思います。
このような環境で記憶がそのように機能するという事実、そして私たちが知る限り、SoraやClingなどの他のモデルはそれに近いことは何もしていないということ、新しい妥当なコンテンツをその場で生成し、最大1分間一貫した世界を維持できることは素晴らしいことです。
異なる視点も可能です。一人称視点、アイソメトリック視点、三人称視点など。特定のゲームスタイルでのみトレーニングされ、それしかできないと思っていましたが、多様な環境を作れるのです。
これらの例を見てください。風船を割る、ドアを開ける、爆発物の樽を撃つなど。その爆発は本当にモバイルゲームのような、合理的なビデオゲームのように見えます。
風船が当たった時は少し変で、キャラクターもAIらしい動きをしますが、それでもかなり良いです。このドアは非常にリアルに見えます。
genie 2は、様々な種類のキャラクターが異なる活動を行う方法を学習しています。genie 2は他のエージェントやそれらとの複雑な相互作用もモデル化します。
それは別の側面です。各NPCのために記憶を持つ特定の言語モデルを想像できれば、シーンを離れても彼らが話している可能性のあることを覚えておくことができます。後で戻ってきたとき、「わあ」となります。
物理法則については、genie 2の水の効果は素晴らしく見えます。少しガラスのようですが、これはただのビデオゲームなので、現在見られる中級のゲームとそれほど変わりません。
煙の効果の例をいくつか見てみましょう。あそこの1800年代のロンドン、わあ。重力のモデル化、落ちないように気をつけて、ああ車が落ちていく、そうです、それが重力です。下で衝突します。
このジャンプする馬を見てください。重力をどのように処理するか見てみましょう。ジャンプして、はい、水にスプラッシュ。かなりリアルに見えます。
genie 2は点光源と指向性の光をうまくモデル化し、反射も本当に良く見えます。草は風になびき、川の水が流れています。
genie 2は実世界の写真からプロンプトを受け取ることができます。面白いですね。Googleマップの写真を全て投入して、GTAのようなゲームを地球上のどこでもプレイできるようになると思いますか?
はい、それらの木々、水、環境の全てが生命を吹き込まれ、ナビゲート可能になります。すごいですね。
この画像を見てください。この2D静止画を生成し、新しいモデルに投入すると、階段、3つのドア、それらの階段を見て「よし、階段を上がろう」と想像し、さらに多くの階段と、このようなビデオゲームがどのように見えるか、どこに行くのかを想像します。とても興味深いですね。
次に、ロボットが壁を透かして見ることができる超人的なAIビジョンについて話しましょう。
テスラとイーロン・マスクをめぐる全ての騒動を考えると実際面白いですね。彼は車にLiDARを搭載せず、カメラによるビジョンだけで走らせることを選択しました。
なぜレーダーを使わないのか不思議に思いました。レーダーは映画に出てくる潜水艦や飛行機など、みんなが物体を検知するのに使用しているように見えます。
なぜこれらにLiDAR、レーダー、カメラを搭載しないのでしょうか?特に自律走行車を作りたいなら、物にぶつからないことが非常に重要なので、追加で500ドルか1000ドルかけても、車により多くの視覚能力を与える価値があるはずです。
従来のレーダーのように「ピッピッ」と大きな物体があることを知らせるだけでなく、レーダー波が異なる種類の物体に当たって跳ね返り、検出される際の微細な反射をAIがより敏感に感知できるようになることを想像できます。
それらは形を明らかにします。AIはそこに入り込んで、多くの例を見ることができます。「これが物体の形で、これがレーダーの反応だ」と言えます。通常の人には多くを理解できないような雑然としたものですが、AIはこれらのパターンを多く学習し、突然、人々や一時停止標識、信号など、世界にあるすべてのものを見つけることが非常に正確になる可能性があります。
ペンシルベニア大学では、Pano radarモデルを作成しました。これは基本的な電波を人工知能を使用して詳細な3D画像に変換します。
電波のクールな点は、カメラやLiDARなどの従来のセンサーが煙、霧、さらには壁などの障害物に苦労するのに対し、Pano radarはそれらを透過できることです。ロボットにある種のX線視覚を与えるようなものです。そして最高の部分は、LiDARよりもはるかに安価だということです。
また、電波が多くのものを透過するなら、車の例には良くないかもしれないということも理解できます。しかし、電波の反射に基づいて何が起こっているかをAIが知る必要がある場所もあります。
実際、電波がどのような物質を透過でき、どのような物質を透過できないのか、また一部の物質をゆっくりと透過するのかについて、ChatGPTに簡単な質問をしてみましょう。AIもそのようなことを理解するのではないかと思います。
可視スペクトル外の一部の電波が、紫外線や赤外線波長の場合のガラスのように、物質を透過することを考えると驚きます。
では、電波が簡単に透過できる物質を見てみましょう。ガラス、プラスチック、石膏ボード、木材、特定の布地や衣類などです。
つまり、電波にとって木材は、可視光ではなく電波の波長で見るとガラスのようなものです。一方、アルミニウム、銅、鉄、湿った土、真水、コンクリート、レンガ、石などには遮られます。
車にとってはまだ非常に有用かもしれませんね。特に、どのような物質を見ることができるかをトレーニングし、木材、石膏ボード、プラスチックなどについては信頼しないことを知っているなら。わかりません、魅力的な研究です。
Al rabbitがmediumに興味深い記事を書きました。「Claudeに散らかったデスクトップの整理を依頼したらこうなった」というものです。
以前、コンピュータの使用について話したことがありますが、Claudeは実際にマウスを操作し、タブを見たり、フォームに記入したりできます。散らかったデスクトップを持つ人に「これを整理してくれない?」と言えることを知っているかもしれません。何が起こるか見てみましょう。
「ファイルの種類ではなく、ファイルの内容で私のデスクトップを整理してください」と依頼すると、Claudeは「まず、整理するファイルを見てみましょう」と答えます。
そこで、より「プロンプト」のような方法でターミナルに移動し、デスクトップ上のすべてのアイテムをリストアップすることにしました。
画面上のものをより詳しく読み取ることができるより多くのツールをダウンロードし、すべてのファイルに入って読み取り、「車の研究」「会社の資産」などの意味のあるフォルダを作成できるようにしました。
そして「人間のように振る舞って」と言うと、人間がするような方法でマウスを動かし、より多くのものを見始めました。
「データ分析」「ドキュメント」「メディア」「プレゼンテーション」「プロジェクト」という素敵な小さなフォルダを作り、ファイルをそれらに移動しました。
なぜかそれは私の心をくすぐりました。ターミナルに入ってマウスを人間のように動かし考えているのを見ているだけで、生きているように感じないわけにはいきません。
それが意識を持っているとは言っていません。そのようなことは何も言っていません。ただ、私たちはこれまでコンピュータや技術とこのような方法で相互作用したことがありませんでした。地球上でこのような経験をしたことがないのです。私にとって、そしておそらくあなたにとっても、それは魅力的です。このような動画が好きならですが。
ルーク・チャンによると、それは非常に良いことです。彼は、あなたの唯一の道徳的義務は興味のあることをすることだと主張しています。文字通り、非人間的な存在によってデスクトップが整理されるのを見ることに私は興味があります。それは私の興味を引きます。
この記事は、カール・ユングの「私たちの主な道徳的義務は、無意識の心に飛び込むことで自分自身を理解することだ」という考えを中心に展開しています。
彼は、本当の興味や情熱、私たちの注意を本当に引くものに従うことで、自分自身の隠れた部分を発見し、本当のなりたい自分になれると提案しています。
基本的に、人生における冒険への呼びかけに応えようということです。明らかに、人々を気にかけ、お金を稼ぎ、歯を磨き、そういったことは全てしなければなりません。
しかし、趣味であれ、自由時間であれ、個人的な目標であれ、つまらない仕事に就いていたとしても、何か私たちを呼び寄せるものを追求しないなら、倫理的義務を果たしていないことになります。
そのように考えたり行動したりすることは特権的な立場からくるものだと理解しています。多くの人々には選択肢がほとんどなく、decent な機会や教育を与えられていない場合、即座のニーズ以外のことを考えることは期待できません。
しかし、私は何かに本当に興味を持っているとき、チャンネルを「Dylan curious」と呼びたかった理由の一つは、好奇心という特性が、それを持って生きているとき、つまり好奇心の中にいるとき、通常フロー状態にいて、最も幸せを感じるからです。
未来のことを考えたり過去を反芻したりするのではなく、ただ発見していて、「おお」と感じます。それは最も子供らしい、興味深い、最高の自分の姿のように感じます。そしておそらく、あなたにとっても同じだと思います。
わかりません。好奇心があなたにとって最適な状態ではないかもしれません。コメントで教えてください。しかし、多くの人々がフロー状態について話し、この概念には真実があると思います。
おそらく、好奇心を持ち、興味のあることを追求し、人生で情熱や趣味を持つことは道徳的義務なのかもしれません。
AIが来ると、明らかに私は高いDoomを持っていますが、もしそれが大丈夫で、AIが世界をより良くするためのツールとして活用されるなら、おそらくスタートレックの未来が来るでしょう。
そこでは、ものを動かすだけの仕事はほとんどなくなります。トラック運転手や配達の仕事はなくなり、会計やら弁護士のような仕事をする非常に賢いAIエージェントが存在するでしょう。
では、これらの人々は時間で何をするのでしょうか?うまくいけば、何かに好奇心を持ち、AIと遊び、質問をし、人々と交流し、興味のあることをするでしょう。
最後にルークは、自分自身を知ることは義務だと言います。興味を探求すればするほど、自分が本当に誰であるかをより理解できます。
デーモン(この記事ではデーモンまたはダイモン)の声に耳を傾ければ傾けるほど、私たちの精神の深淵をより多く発見することができます。
ちなみに、この記事でデーモンとは、古代ギリシャ人が信じていた内なる精神のことを指します。あなたのデーモンは、最も深い情熱と直感を表し、それがあなたの内なる導き手となるべきです。
前回の動画に続いて、私たちが将来のAIだと考えているような、より実時間の学習についてもっと紹介します。
前回の動画で私は、AIの未来はこれらの切断日付や強化バッチではなく、毎晩眠って更新し、記憶の中で生きているような、より人間に近いものだと推測しました。
デューク大学と陸軍研究所の研究者たちは、guideと呼ばれる新しい人工知能トレーニング方法を開発しました。
これは、500ページのマニュアルを渡すのではなく、隣に座ってリアルタイムのフィードバックを与えるコーチと一緒に運転を学ぶようなものです。
これらの研究者たちはモデルを構築し、かくれんぼゲームでテストしました。わずか10分のフィードバックで成功率が30%向上しました。
そして、私は考えました。AIモデルの未来は、例えばChatGPTと別のAIモデルがあり、もう一方がコーチングモデルで、質問をして、フィードバックを与えるようなものになるのだろうかと。
このようなモデルは以前にもありましたが、直感的でダイナミックな状況により適応できるものは正確にはありませんでした。
フィードバックの質に影響を与えるのは、推論や意思決定といった人間の特性だからです。そのため、通常は人間による強化学習が必要でした。
しかし、実時間のシステムを構築するなら、本質的に車を運転していて、運転を学んでいて、隣には運転できる人がいて、何を言って教えるべきかを知っていて、経験があり、より早く学ぶように導いているような感じです。
この魅力的な1対1のかくれんぼゲームを見てください。エージェントは、隠れる人をできるだけ早くつかまえるシーカーポリシーを学ぼうとしています。
最先端のアプローチは通常、人間が収集された履歴データに対して選好フィードバックを提供するオフライン設定で機能します。しかし、これはリアルタイムのタスクには使用できません。
他の方法では、直接的な専門家のデモンストレーションが必要です。しかし、これは一般のAIユーザーには常に利用可能ではありません。
人間のトレーナーの認知負荷を減らすために、人間のフィードバックを模倣して学習するニューラルネットワークモデルを提案します。トレーナーの代わりとして機能します。
重要な洞察は、人間のガイダンス中に、エージェントの行動データと割り当てられたフィードバック値を容易に収集できることです。これにより、人間のフィードバックシミュレータをトレーニングできます。
トレーニングされると、シミュレータは人間のトレーナーがいない状態で、推論モードでフィードバックを提供できます。
このモデルは、人間特有のフィードバックスタイルやパターンについて仮定せず、代わりに人間のトレーナーと一貫したフィードバックを提供するように学習し、報酬分布のシフトを最小限に抑えます。
例えば、この1対1のかくれんぼゲームでは、エージェントはできるだけ早く隠れる人をつかまえるシーカーポリシーを学ぼうとしています。
視界は部分的に観察可能で、マップを探索して隠れる人を見つけ、追いかける必要があります。これは最先端の人間ガイド付きRL(強化学習)アルゴリズムの学習進捗です。これは同じタスクでのguideです。
次に、cat 4Dについて話しましょう。マルチビュー動画拡散モデルで4Dで何でも作成できます。
これはGoogleのDeepMindから出た研究で、今日発表されたgenie 2と同じグループによるものです。コロンビア大学とUCサンディエゴも参加しています。
このgenie 2モデルに一部の要素が組み込まれていても驚きませんが、cat 4Dは4シーンの実写または生成された動画を作成し、シーン内を動的に歩き回ることができます。
明らかに、マウスで環境内を歩く場所を制御することはできません。それがgenie 2の大きなブレークスルーですが、本当に素晴らしいダイナミックな3Dシーンを作成し、これらのどれとも相互作用できます。実際に魅力的です。
拡散モデルがこのような写真を作ることを想像できますね。そして、SORAやClingモデルのようなものがそれをアニメーション化することを想像できます。
しかし、ここでマウスでつかんで環境内を複数の方向に移動できます。キャラクターの頭の後ろにある端の部分まで引っ張ると、奇妙なぼかしが見えます。
彼らは路地にいることを理解し、上下に動くことができます。このフクロウは雪を背景に枝の上にいるように見えます。
このジャガイモと遊ぶ猫は、ジャガイモの中を覗いたり、完全に隠れたりすることができます。あの小さな犬の鼻を近づけることができます。あの可愛い鼻をね。
マルハナバチですね。チャンネルを長く見ている人なら、以前マルハナバチをテーマにしていたことを知っているかもしれません。実際、黄色と黒の紙で切り抜いたb-rollはそこから来ています。
bロール、新人向けの小ネタですね。実は、チャンネルは以前「curious future」と呼ばれていましたが、YouTubeは個人のクリエイターが重要で、私が唯一の制作者だったので、なぜブランド化する必要があるのかと考え、Dylan curiousと呼ぶことにしました。
また、最新の動画への視聴についてお礼を言いたいと思います。3時間前にアップロードされ、すでに1.5kに達しています。
これは外部に表示される数字ですが、実際にアナリティクスを見ると、平均を大きく上回っています。通常960から1400ビューの間のところ、2000ビューまで上昇しているのがわかります。
皆さんが今のところこの動画を本当に気に入ってくれているようで、とても嬉しいです。現在、良い軌道に乗っている何かができて興奮しています。
また、少し驚いていますが、サムネイルを見てください。このズームアップバージョンの男性は28%のクリック率しかないのに対し、遠くにいる小さいバージョンは37%と34%です。
通常、「AI news」と書かれているものが最も良い成績を収めます。「AI news」に小さいバージョンを組み合わせたものと「AI news」にズームアップバージョンを組み合わせたものでこれほどの違いがあるとは、原始人の私には理解しやすいですが。
時にはサムネイルテストから視聴者について多くのことを学びますが、これは最初の3時間の統計なので、3日間の統計とは同じではありません。しかし、コメント欄を見て、私たちの曲の歌詞を探してみましょう。
誰かが混乱しているようです。彼らは私がMattsについて悪く言っていると思っているようですが、そうではありません。私は文字通りMatt wolf、Matt vid prooが大好きです。
特にMatt wolfは、ここでの会議で多くの時間を私と過ごし、私のポッドキャストにも出演してくれました。他のAIチャンネルについて話すときは、ただ冗談を言っているだけです。
本当にサポーティブで、彼らを宣伝したり何でもしたいと思います。私たちは皆一緒です。これはAI YouTuberのコミュニティであり、コミュニティは最も価値のあるものです。
誤解されるかもしれないので、その部分は曲に入れないと思いますが、それを指摘してくれてありがとうございます。そういうことを言うときは、いつも私の仲間たちと冗談を言っているだけです。
18K Dylan、頑張って。2025年には10万人の目標に到達するはずです。指を組んで、見守りましょう。それは素晴らしいことでしょう。
しかし、私にはわかりません。YouTubeで簡単にいくとは決して思えませんが、チャンスはあり、これが全て報われることを信じています。この機会に感謝しています。
UNGリムロック、unlockのような、でもUNGリムロック、それは賢いですね。その種の言葉遊びやそういったものがあるので、それを曲に入れます。
ちなみに、ある単語が別の単語のように聞こえるが、それらを一つの新しい単語に混ぜ合わせる場合、それは何と呼ばれるのかChatGPTに聞いてみましょう。
あなたが話しているのは、ポートマントーという現象です。それが何なのかわかりませんが、教えてください。でも、曲には良いですね。
それも歌詞になりそうです。「こんにちはジョン、こんにちはジョン、シャツが好きです」。それが何を意味するのかわかりませんが、きっとロックするでしょう。
イディオクラシー、植物が欲しがるものです。それは私を笑わせるので、そこに入れます。知っている人は知っています。誰かがブロンドのカップを作る必要があります。イディオクラシーのIPを使う必要がある人がいます。
このクォンタムコンピューティングのコメントも入れます。では、ブルータルデスメタルを生成してみましょう。いや、ブルータルデスメタルは使えません。歌詞がほとんど聞こえないからです。
サウンドアートの方が良さそうです。試してみましょう。18K Dylan、頑張って。2025年には10万人の目標に到達するはずです。AIの空間内でクォンタムプロセスを使用することを想像してください。どのような規模になり得るでしょうか。
UNGリムロックはただ好奇心旺盛です。
こんにちはジョン、こんにちはジョン、こんにちはジョン、シャツが大好きです。植物が欲しがるものです。
クォンタムコンピューティングは全て古典的な計算によってシミュレートされています。これが、全ての必須のエラー修正が実行された後でも、まだ完全に最適化されていない従来実行されているアルゴリズムを実際には上回らない理由です。
それは美しい。もっと購読を、このAI音楽を、もっとAIの知識を、もっと未来主義を。
クォンタムコンピューティングは全て古典的な計算によってシミュレートされています。これが、全ての必須のエラー修正が実行された後でも、まだ完全に最適化されていない従来実行されているアルゴリズムを実際には上回らない理由です。
まだ完全に最適化されていない、まだ完全に最適化されていない、まだ完全に最適化されていない、まだ完全に最適化されていない。
コメント