AIビデオが超リアルに進化中… (その他のAIニュース)

6,343 文字

AI Video is getting UNREAL... (and other AI news)

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

本日、いくつかの大きなAIニュースがあり、とても興味深いものでした。特にロボット工学分野において、いくつかのブレイクスルーや新しい発見がありました。X上のヒューマノイドHubの指摘によると、CMUの研究者たちがenvidiaと共同で、ASAPという2段階のフレームワークを開発しました。このフレームワークは、ヒューマノイドロボットの俊敏性を高めるもので、まず人間のデータで事前学習を行い、その後デルタアクションモデルを使用して実世界での修正を加えることで、シミュレーションとの不一致を調整します。
ロナウド、コービー、レブロン・ジェームズのような全身を使った俊敏な動きを実現しています。サイドジャンプや様々な距離での前方ジャンプ、前蹴り、右蹴りなどの特定の動きも見せています。あの「カンフーファイティング」という歌を覚えていますか？確かに全員がカンフーをしていたわけではないでしょうが、このロボットは確かに稲妻のように速いですね。
APダンスや、激しい運動の前のストレッチ、スクワット、あるいはスクワットプラス前傾など。ロボットよ、背中を痛めないようにね。ASAPの前後での違いを見ることができます。ASAPによる微調整前後のレブロン・ジェームズの動きを比較すると、より滑らかで俊敏になり、より協調性が増していることが分かります。
他のニュースとして、以前の動画でも取り上げましたが、メタ（フェイスボック）がpartnerを発表しました。これは基本的に、家の中やその他の場所でもあなたについて回る、独自のロボット仲間を作るというアイデアです。指示を与えることができ、拡張現実メガネや仮想現実ヘッドセットを使用することで、その思考や推論をあなたの目の前に表示することができます。
これはオープンソースプロジェクトなので、多くの開発者がこの技術の様々な面白いアプリケーションの開発に参加することが期待されています。また、habitat 1.0、2.0に続いて、habitat 3.0も提供されます。habitat 3.0はシムズゲームのように見え、基本的にはビデオゲームのような3D環境で、実際の家の3Dスキャンを使用してシミュレーション内でロボットを訓練することができます。
10万個以上の様々な3Dオブジェクトがシミュレーション内に組み込まれているとのことで、シミュレーションでロボットを訓練し、その重み付けや脳、ニューラルネットを実際のロボットに移植して、あなたの家で活用することができます。今のところ、これに興奮している人もいれば、非常に恐れている人もいるでしょう。いずれにせよ、2025年はAIロボットの年となるでしょう。
AIビデオニュースでは、バイトダンスがomnium oneをリリースしました。これは1枚の画像から非常にリアルな人間の動画を作成することができ、とても優れています。アインシュタインや他の誰の画像でも入力すれば、非常にリアルな人間の動画を作成できます。音声と映像の入力が可能で、オムニコンディショントレーニングを導入することで、感情関連のデータをスケールアップし、ジェスチャーのリアリズムや体の動きを大幅に改善しています。
このomnium oneは、従来の人間のアニメーションの次のステップと言えます。音声を使用してポーズを変更したり、参照画像を使用したりすることができ、これらすべてが統一されたトレーニングフレームワークの中で行われます。OpenAIが最近のモデルシリーズの1つで使用した命名規則（例えばo4のOはOmniの意）と同様に、ここでの命名規則も似ています。
このモデルは拡散トランスフォーマーアーキテクチャーを基盤としており、マルチモーダルモーションを活用してトレーニングの効率性とビデオ品質を向上させています。このような動画や動く画像を扱う中国発のモデルで常に驚かされるのは、そのサイズが小さく効率的だということです。これは、Deep seekモデルについて話していたことと似ています。
チップやコンピューティングリソースが限られている企業や組織では、必要は発明の母という考えのもと、米国企業から出てくるものと比べてはるかに軽量でありながら、信じられないほど優れたモデルを生み出しています。これらの動画は、既存の動画からの感情の複製を可能にする動画駆動アニメーションをサポートしており、音声と動画を組み合わせて体の部分を独立して制御することができます。
リップシンクの正確さやジェスチャーの表現力において、他の最先端モデルよりも優れた性能を発揮します。これは通常の動画だけでなく、白黒動画や漫画のようなスタイライズされたキャラクター、擬人化されたオブジェクトなども非常にうまく扱うことができます。
しかし、それだけではありません。本日、Luma AIからray2も発表されました。これは別のAIビデオ会社で、様々な動画モデルを指す名称が多くあるため少し混乱するかもしれません。Luma AI、Ray 2、dream machineは、すべて同じ会社や同じ開発者の異なる部分を指しています。これは彼らの最新版で、画像から動画への変換という新機能を備えています。
Luma AIによると、この機能は動画生成を次のレベルに引き上げ、これまでにない自然な動き、リアルな物理現象、一貫性を実現するとのことです。現在、無制限プランのユーザーがアクセスでき、今後数日以内に他のサブスクリプション層にも提供される予定です。古典的な絵画、歴史的な工芸品、エイリアンの自撮り、家族写真、さらにはミームまでアニメーション化することができます。
申し訳ありませんが、あなたの一日を台無しにするかもしれません。dogeミームの背後にいるあの犬は、2024年に亡くなりました。「なぜそんなことを知る必要があったのか、その可愛いシバ犬が亡くなったことを知らずに生きていけたのに」と思うかもしれません。でも、私も知る必要はなかったのですが、一人で苦しむのは嫌なので。
気分を明るくするために、スケートボードに乗る僧侶の映像もあります。これらのRay 2によるLuma AI Labsの画像から動画への変換は、かなりすごいものです。約束通り、一貫性、物理法則、動きの表現は非常に優れています。これらの珍しい、奇妙な映像でさえも。これは実際のカメラで撮影するのは簡単ではないはずで、データとしてそれほど多くの映像が存在するはずがありません。
しかし、本当にその見た目を見事に再現しています。これはトラッキングショットと呼ぶべきでしょうが、このような動画を指す際に何通りかの呼び方があるように思います。まさに信じられないほど没入感があり、リアルです。明らかに本物ではありませんが、ある意味で非常に生き生きとしています。
生き生きといえば、ピクサー映画の冒頭で暴れ回るあのピクサーのランプを覚えていますか？アップルのエンジニアたちは、それを現実世界で実現する必要があると考えました。彼らはelegantを導入しようとしています。これも新しい技術をリリースする際の命名規則に従っています。二番目の単語の母音を多く落とすという規則があるんです。metaの人間とロボットのコラボレーションはpartnerと呼ばれていることを思い出してください。自分でスタートアップを立ち上げる際は、そのように名付けるとよいでしょう。
elegantのアイデアは、ランプのような日用品をロボット化することです。必ずしもヒューマノイドロボットである必要はありません。ランプは良い例だと思います。単に必要な場所を照らすといった機能的なものだけでなく、より表現力豊かで、手を振ることができ、手のジェスチャーに反応できます。
何かできないことを頼まれた場合、エラーメッセージを表示するのではなく、「一生懸命頑張ってるけどできない」といった可愛らしい仕草をして、頭を下げて恥ずかしがり、「ごめんなさい、できません」と伝えます。これらの多くについて私が懸念しているのは、最初の2、3回は素晴らしいのですが、より一般的になり、これらのオブジェクトをより頻繁に使用するようになると、その可愛らしさがすぐに苛立ちに変わってしまうかもしれないということです。
最初の1週間は過度に表現豊かなモードにして、時間が経つにつれて「早く仕事を終わらせて」モードに切り替えられるようにしてほしいと思います。何かができなかった時に毎回10秒のアニメーションを見せるのではなく。それでも、これには非常に期待しています。
アップルからの別の非常に興味深い論文で、今私たちが話している多くのことをサポートするものが発表されました。強化学習に関する論文で、「自己対戦から頑健な自律性が生まれる」というものです。交通、車、自転車などで満たされた街全体を想像してください。基本的にGTAのようなものです。これはアップルのjiga flowで、様々なアクター（歩行者から大型トラックまで）をシミュレートできます。
並行して約4万回のシミュレーションを実行し、1秒間に740万の判断を行うことができるそうです。このシミュレーションでは、これらの車を解き放ち、人間の運転映像などのデータに頼ることなく、非常に上手に運転することを学習させることを目標としています。これは自己対戦と呼ばれ、車は自身で学習します。
2人用ゲームやマルチプレイヤーゲームでこのような breakthrough（ブレイクスルー）を多く目にしてきましたが、この論文では、自動運転という別の領域でもこれが驚くほど効果的な戦略であることを示しています。シミュレーションにおいて、前例のない規模で完全に自己対戦から頑健で自然な運転が生まれることを実証しています。
約6億キロメートル（フリーダムユニットでは約10億マイル）の運転をシミュレートし、これはGiga flowという一括シミュレータによって可能になります。8 GPUノード1台で1時間あたり約42年分の主観的な運転経験を合成し、訓練することができます。1時間あたり42年分の運転を行った後、これらのAIエージェント（自動運転車）は特定の方針を開発します。
この方針は、3つの独立した自動運転ベンチマークで最先端の性能を達成しています。つまり、これは自動運転の最良の方針として見られているものを生み出しています。訓練中に人間のデータを一切見ることなく、実際の人間のドライバーが存在する記録された実世界のシナリオでテストした場合でも、これまでの最先端の性能を上回っています。
これが重要な部分です。なぜなら、アルファ碁ゼロの時代に遡って多くのことを目にしてきましたが、それは人々が理解し始め、目覚め始めた最初の時でした。Deep seek r10のようなものでもっと目にするようになっています。人間のデータを減らし、より強化学習に頼ることで、驚くほど効果的な戦略が生まれる傾向があります。
Deep seekの論文でも驚きが見られ、このアップルの論文でも同様です。科学者たちは誇張的な発言で知られているわけではありませんが、「驚く」「驚くほど良い」「驚くほど効果的」「驚くほど頑健」という言葉を好んで使用し、人間のデータや例に頼るのではなく、強化学習と自己対戦を使用してAIが自身で学習する場合のAIの能力を説明します。
r10は教師付き微調整、つまり人間のデモンストレーションを削減し、より強化学習に頼りました。そしてそれは驚くほど上手くいきました。イリヤ・サツキエヴィッチと彼の会社SSI（Safe Super Intelligence）を覚えているかもしれません。人工超知能への直接的なアプローチを目指す唯一の製品です。他には何もなく、超知能への直線的なアプローチです。この会社は現在20億ドルの評価額とされており、これは9月の前回の資金調達ラウンドでの5億ドルの評価額の4倍になります。seoa Capital、アンドレセン・ホロヴィッツ、DST Globalなど5つの投資家から10億ドルを調達しました。
もちろんSSIはまだ収益を生み出していません。収益やマイルストーン、継続的な製品リリースに焦点を当てるのではなく、超知能の実現という1つの目標を持っています。もちろん、超知能を手に入れれば、ビジネスプランの開発を依頼することもできるでしょう。これは少し冗談めいていますが、実際にそうではありません。SSIとイリヤはこれを掲げており、投資家に短期的な現金フローや利益を期待しないよう明確にしています。SSIは平和裡にスケールアップを目指しています。
短期的な商業的プレッシャーから彼らの進歩を守っているのです。もちろん、他のOpenAIやAnthropicは、より商業的な方向にシフトしています。OpenAIは昨年約40億ドルの収益を上げ、今年は約120億ドルを見込んでいます。イリヤは彼らが正確に何をしているのかについてはやや秘密めいています。この新しいプロジェクトを「新しい山を登る」と表現していますが、他の詳細はあまり明かしていません。
さらにAIビデオの話題として、Pika labsも新機能のPE editionsを発表しています。PE editionsは、AIの企業が様々な機能や製品に対してあまり良くない命名規則を持つ世界において、実際にかなり良い命名方法だと思います。PE editionsはもちろんビデオインペインティングです。参照画像とプロンプト、実際の映像があれば、AIで生成された画像であれ何であれ、既存の映像に追加することができます。
これは、AIやAIビデオにそれほど興味のない一般の人々、いわゆる「ノーミーズ」（この用語は好きではありませんが）にとって、キラーアプリになると思います。これに対して人々がどれほど熱狂するか想像してみてください。誰もがスマートフォンを持っており、誰もが動画を撮影します。そして今や、画像があれば、撮影した映像に何でも追加できるのです。
ビーチでの映像に恐竜を追加したり、T-Rexに追いかけられる様子を作ったり、誰かが寝ている映像に巨大なクモが顔を這い回る様子を追加したり、可能性は無限大です。もちろん、AIビデオはこれで終わりではありません。clingがcling elementsを発表しました。これは複数の画像をclingの動画生成モデルに与えると、それらの要素をすべて組み込んだ動画を生成するというものです。
被写体のスタイルや、相互作用する他のオブジェクトなど、自分の写真でも面白いことができます。自分の写真を使って、想像上の背景や超高速な車などを追加したり、自分をミレニアム・ファルコンに乗せて、あの有名な12パーセクでのケッセル・ランを再現したりできます。ちなみに、この引用は全く意味が通じません。どうやって12パーセクでケッセル・ランができるのでしょうか？パーセクは距離の単位です。
これは「私の車はとても速くて、5マイル以内で店に着きます」と言うようなものです。ここで締めくくりたいと思います。今日は多くのことを学びました。主にハン・ソロが嘘つきだということと、dogeミームの背後にいた小さな犬が亡くなってしまったという少し悲しいニュースです。しかし、AIは素晴らしい進歩を遂げています。
ここまで見ていただき、ありがとうございます。私の名前はWes rthです。次回またお会いしましょう。SLSサリュート。