中国からまた驚異的なAIが登場: DeepSeekに続いてByteDanceから（とてつもなく衝撃的）

4,481 文字

Yet Another INSANE AI From China: First DeepSeek Now ByteDance (Beyond Scary)

ByteDance has unveiled OmniHuman, an advanced AI that can generate full-body deepfake videos from just a single photo, c...

中国がDeepSeekに続いて、さらなる衝撃的なAIを投入しました。これは今までで最大のゲームチェンジャーになるかもしれません。TikTokを運営するByteDanceが開発したOmnium-1は、1枚の写真から自然な動き、ジェスチャー、さらには歌唱までこなす全身ビデオを生成できるAIです。信じられないほどリアルで、ディープフェイク技術を新たな次元に押し上げており、これには重大な意味合いが含まれています。
Omniumは基本的に、1枚の写真から不気味なほど生き生きとした映像を作り出せる、AIによる新しいビデオ生成アプローチです。単なる顔の置き換えや口の動きの同期だけではありません。全身のアニメーション、ジェスチャー、動き、さらには楽器演奏まで、音声と完全に同期させることができます。しかもたった1枚の画像からです。
これは何か黒魔術レベルのAI魔術に違いないと思われるかもしれませんが、そう遠くない考えです。これまでのディープフェイクアプリやツールは、通常多くの参照画像やビデオを必要とするか、明らかに偽物とわかる不気味な見た目になってしまいました。一方Omniumは、最小限の入力で非常に説得力のあるディープフェイクを生成できるようです。これは、友人たちよ、まさにゲームチェンジャーなのです。
記事によると、ByteDanceは18,700時間から19,000時間もの膨大な動画データセットでOmniumを訓練したとしています。これは膨大なコンテンツ量です。具体的なソースについては非常に慎重ですが、TikTokの膨大なコンテンツライブラリがあれば、人間の動きや話し方のパターンの例に事欠くことはないと安全に推測できます。
arXiv上に投稿されたOmniumの論文では、研究者たちがテキスト、音声、ボディポーズなど複数の条件付けシグナルを使用して、人間の動きや話し方をAIに教えた方法が説明されています。これを「オムニコンディション」アプローチと呼び、基本的にAIに異なる入力を与えることで、話す、歌う、ジェスチャー、さらには楽器演奏など、様々なシナリオのビデオを生成できるようにしています。
ByteDanceがリリースしたサンプル動画の中には、架空のテイラー・スウィフトのパフォーマンスが含まれており、本物かどうか二度見するほど信じられないほど説得力があります。また、アルバート・アインシュタインが講義をする鮮明な白黒映像もあり、現代のHDカメラで撮影したかのような品質です。アインシュタインは「感情のない芸術とは何でしょうか？それは空虚なものとなるでしょう」と手振りを交えながら話しており、まるで本物のアインシュタインがそこで芸術について語っているかのように見えて、不気味なほどです。
また、実際には行われなかったTEDトークの映像もあり、別のデモンストレーションでは、ワイングラスを持つ人物が表示されていますが、AIがその特定のポーズに苦労しているかのような奇妙な動きが見られます。完璧ではありませんが、従来のディープフェイク手法からの進歩は巨大です。
アスペクト比、体型のプロポーション、クリップの長さも調整できると述べられています。つまり、友人やセレブの写真1枚があれば、それに音声やボーカルを加えてモデルに入力するだけで、その人物が踊り回ったり、大きなジェスチャーをしたり、スピーチを行ったりする完全な動画を生成できます。古い家族写真をアニメーション化するアプリのようなものですが、次元が上がってハリウッドレベルに近いビデオの錯覚を作り出せるのです。
しかし、この極めてクールな技術には暗部もあります。私たちは既にディープフェイクがソーシャルメディアに広がり始めている時代に生きています。記事では世界中での複数の事例に言及しています。
例えば、台湾の選挙日には、中国共産党と関係のあるグループがAI生成の音声クリップを投稿し、地元の政治家が実際にはしていない親中候補の支持を表明したように聞こえる内容を流しました。モルドバでは、マヤ・サンドゥ大統領が実際には辞任していないにもかかわらず、辞任を表明するディープフェイク動画が作られました。南アフリカでは、ラッパーのエミネムが野党を支持するというディープフェイク動画が選挙期間中に出回りました。
このように、誤情報のリスクは深刻です。それも政治だけの話ではありません。ディープフェイクは、詐欺師が有名人の偽動画を作成して偽の投資を勧誘する金融詐欺にも使用されています。DEI（多様性・公平性・包摂性）に関する報告では、AI生成コンテンツが2023年に1,220億ドル以上の詐欺被害に関与し、2027年までに米国だけで400億ドルに達する可能性があるとされています。これは驚異的な額です。
したがって、昨年多くのAI研究者が署名したオープンレターを含め、厳格な規制を求める声が上がっているのも不思議ではありません。米国では10以上の州がAIによる人物偽装に対する法律を制定または提案しています。カリフォルニア州では、裁判官がディープフェイクコンテンツの削除を命じたり、投稿者に罰金を科したりできる法律が検討されていましたが、その法案は現在停滞しているようです。
大きな問題は、特に高品質なディープフェイクは検出が非常に困難なことです。ソーシャルネットワークや検索エンジンがAIベースの検出ツールやラベリングシステムを導入していると主張していても、AI生成コンテンツの量は爆発的に増加しています。ID認証企業のJumioが2024年5月に実施した調査では、60%の人が過去1年間にディープフェイクに遭遇したと回答し、さらに72%が日常的にディープフェイクに騙されることを心配していると答えています。また、大多数が新しい規制法の制定を支持しています。
ByteDanceはOmniumの公開についてどのような立場をとっているのか気になるところですが、それはまだ不透明です。ByteDanceは少なくともこれらの記事が書かれた時点では、モデルを一般に公開していません。しかし、AIコミュニティでこれまで見てきたように、新しいモデルがデモンストレーションされると、誰かが複製や逆行分析を試みるのは時間の問題です。したがって、ByteDanceが公開を控えても、生成AIの人気の高まりを考えると、他の研究所やオープンソースの取り組みから同様のシステムが登場する可能性は高いでしょう。
プラスの面として、専門家たちはいくつかの潜在的な有益な応用を指摘しています。例えば、教育での使用が検討されており、マリリン・モンローやハンフリー・ボガートのような歴史上の人物を復活させて講義を行わせたり、学生の興味を引き付ける仮想教育アシスタントとして活用したりする可能性があります。また、ByteDanceはTikTokを所有しているため、クリエイターがこれらのリアルなアバターやAI駆動の代役を使用して、休憩を取りながらもコンテンツを継続的に生成できる可能性があります。
南カリフォルニア大学のフレディ・トラン・ノーガー教授は、故人となった俳優を新作映画に起用したい場合、この技術が可能性を開くかもしれないと指摘しています。もちろん、大きなスクリーンでどのように見えるかはまだ不明ですが、スマートフォンやラップトップでは説得力のあるリアルさを実現できる可能性があります。
一方、NYUスタインハート校の非常勤教授であるサマンサ・G・ウルフは、負の影響について警告しています。彼女は、偽のCEOや政治指導者の動画が、人々が実際に信じてしまった場合、大きな企業や政府の混乱を引き起こす可能性があるという考えを強調しています。つまり、賭け金は非常に高くなる可能性があるのです。
また彼女は、AIがますますリアルに見えるようになるにつれて、偽物を信じてしまう可能性が急上昇すると述べており、それがまさに多くの懸念を引き起こしている原因だと指摘しています。
ByteDanceのアプローチについてもう少し詳しく見てみましょう。彼らは、従来の人間のアニメーション技術は一般的なビデオ生成モデルとしてスケールアップが困難でしたが、Omniumはオムニコンディショントレーニングを使用することでこの問題を克服したと述べています。
これは、音声、テキスト、体の動きをすべて1つのトレーニングパイプラインで組み合わせることでデータの無駄を減らしたことを意味します。18,700時間以上の人間の動画コンテンツを使用してこれを行い、その結果、ニューラルネットワークは音声と同期した全身アニメーションを効果的に作成できるようになりました。これは、主に顔や上半身のアニメーションに限定されていた従来の手法からの大きな飛躍です。
記事の一つでは、Omniumが異なるアスペクト比に対応できることも指摘されています。つまり、標準的な縦型のTikTok用のポートレートや、人物の全身を表示するワイドショットを作成できます。また、最終的な動画がクローズアップになるか全身になるかを制御して、表示される体の部分も調整できると述べられています。
もう一つの興味深い点は、Omniumが既存の動画を編集できることです。つまり、誰かのクリップがあれば、そのジェスチャー、手足の動き、あるいは表情を変更することができます。これは記録されたコンテンツの大規模なやり直しが可能ということです。かなり驚くべきことです。
もちろん、誤用への懸念も多くあります。偽の政治広告、偽のセレブリティ推薦、そして誤情報がどれほど急速に広がるかについて人々は心配しています。米国の一部の州ではすでにAIによる人物偽装に対する法律がありますが、連邦レベルの規則はまだありません。一方、専門家たちは、特に今後の選挙の前により強力な検出ツールが必要だと指摘しています。
ByteDanceは近くコンピュータビジョンの会議でOmniumを披露する予定ですが、このような技術の開発に取り組んでいるのは彼らだけではありません。Google、Meta、Microsoftもこの競争に参加しています。しかし、ByteDanceはTikTokからのデータ量の多さという大きな優位性を持っています。「TikTokを作ったことがあれば、あなたもOmniumの訓練を手伝ったかもしれない」というジョークも出ているほどです。
最終的に、このAIはディープフェイクがどれほど進化したかを証明しています。1枚の写真と音声クリップだけで、スピーチからギターソロまで、誰かがほぼ何でもこなす超リアルな動画を作成するのに十分です。クリエイティブな用途には刺激的ですが、同時に多くの警告も発しています。
コメント欄で皆さんの考えを聞かせてください。動画を楽しんでいただけたなら、ぜひいいねと購読をお願いします。ご視聴ありがとうございました。また次回お会いしましょう。