OmniHumanが驚異的な動画生成を披露、Googleが2.0 Flash LiteとProモデル、そしてロボットを発表

9,528 文字

OmniHuman Surpreende Com Geração de Vídeo Insana, Google Lança Modelos 2.0 Flash Lite e Pro e Robôs
OmniHuman da ByteDance Chinesa Gera Vìdeos Hyper Realistas a Partir de uma Imagem com Áudio! Gemini 2.0 da Google Lança ...

中国の人々は休むことなく仕事に励んでいて、今回彼らはOmni Humanモデルをリリースしました。皆さんがご覧になっているような素晴らしいアニメーションを、単に1枚の画像から作成できるのです。そして、きれいな音声を入力すれば、それに合わせて完璧に話すことができます。技術は驚くべき速さで進歩しています。ロボット工学の進歩についても見ていき、さらにGoogleのGeminiが人工知能にもたらす新機能についても簡単に見ていきましょう。
チャンネル登録してくださった皆様、いいねを押してくださった皆様、そして特に、この人工知能チャンネルをスポンサーとしてサポートしてくださっているメンバーの皆様に感謝申し上げます。
ByteDanceの人工知能は、1枚の画像から実在の人物やアニメキャラクターをアニメーション化することができます。昨年、私たちは素晴らしい動画生成器や画像生成器を手に入れ、年末には全てが成熟し、完璧な状態になっていたことにお気づきでしょう。今年、これらが単純にレベル2に入り、すでにレベル3に向かっていて、その品質が驚異的なものになっているのは当然のことです。
ByteDance(TikTokの親会社)の研究者たちは、画像とオーディオのサンプルから動画を生成する新しいフレームワーク、OmniHuman 1を発表しました。TikTokの親会社の新システムは、静止画に動きと発話を追加して動画に変換します。ByteDanceの研究者たちは、動画生成における基本的な課題、つまり自然な人間の動きを大規模に作り出すという課題を解決するためにOmniHuman 1を開発しました。
以前のシステムは、より多くのトレーニングデータを受け取った際に困難に直面していました。多くのデータには関連性のない情報が含まれており、それをフィルタリングする必要がありましたが、その過程で貴重な動きのパターンが失われることがよくありました。これに対処するため、OmniHuman 1は、テキスト、画像、音声、体のポーズなど、複数の入力タイプを同時に処理します。このアプローチにより、システムはトレーニングデータをより効果的に活用できます。研究者たちは約19,000時間の動画素材を学習させました。
つまり、テキストや画像だけでなく、テキスト、画像、音声を使用し、さらにテキスト、画像、音声、ポーズも使用するトレーニングを行うということです。ポーズというのは、腕や手、目がどこにあるかを示すスケルトンのことです。このステージが進むほど、つまり画像、音声、ポーズを使用すると、より強力な動きが得られます。また、送る情報が多ければ多いほど、テキスト、画像、音声、ポーズなど、より多くの情報があればあるほど、トレーニングは簡単になります。テキストと画像だけのトレーニングの方が、実際には音声やポーズを追加した場合よりも難しく、トレーニング率が低くなるのです。これは非常に興味深いことですね。
品質は本当に進化していて、このタイプのアニメーションは単に驚異的です。音声と口の動きが完璧に同期しているだけでなく、画像も美しく、全てが意味を成しています。このアインシュタインのアニメーションを見てください。アインシュタインが話すときの彼の表情、それは単に信じられないほど素晴らしいものです。
これについて話すのは興味深いですね。例えば、私が一度動画を撮影していて、ここにある私の大きな頭を消す必要があったんです。そして、元に戻すのを忘れてしまい、この画像のような静止画で長時間話し続けてしまいました。編集の時になって初めて、自分の姿を戻し忘れていたことに気付いたんです。これは過去の動画でのことでしたが、気付いたとき、「6、7分も静止画のまま何も起こらないのは良くない」と思いました。そこで、私のアバターを置いて、誰も気付かないようにしようと考えました。その時、何人かの人はコメントしましたが、大多数の人々はそこにアバターがあることに気付かず、動画は普通に進みました。なぜなら、人々は時々何が起こっているかをよく見ていないからです。
この少年を見てください。唇の同期の品質を見てください。そして最も興味深いのは、表情や抑揚、まばたきが話している内容と非常によく同期していることです。話されている内容に合わせた表情が非常に自然です。このような動物のアニメーションでも同様で、品質は本当に驚異的です。このような人形のアニメーションを作るには、通常は何千ドルもの費用と巨大なアニメーターチームが必要でしょうが、今では単にAIに入力するだけで数分で作れてしまいます。
表情や唇の同期が単に素晴らしいことにお気づきでしょうか。ここでは、体の他の部分や手のジェスチャーも含むケースを強調しています。「私の自伝を読んで、私の本を読んで、そして理解してください」という具合に。例えば、Ryzen(訳注:原文のry Janと思われる)を使用して手を動かすような動画を作る場合、その手の動きは話している内容とはあまり関係なく、送信した動画との関連性が強くなります。しかしここでは、手のジェスチャーが話している内容と一緒に参加し、言葉と同期しているのです。
彼女が話している内容と表情、体の表現、グラスを上げる方法、話し終わった時にグラスを下げる方法、全てが非常に自然で、人工的な感じがしません。これはテキストだけでなく、音楽と一緒に歌う動画にも当てはまります。まるで本当に歌っているように見えます。ご覧のように、これらの動画の多くは権利の関係でプライベートになっています。音楽を含むものは常に問題になります。
この新しい動画生成、この単に驚異的な新しい画質についてどう思いますか?YouTuber、テレビ、映画、映画館、これら全てが終わってしまうのでしょうか?なぜなら、人工知能による生成で全てができてしまうからです。
YouTubeは、チャンネルが人工知能で作られていて、あまりにも人工的に見える場合、つまり自動化されたコンテンツや機械的なコンテンツがあると人々が気付く場合、そのチャンネルにペナルティを課すことを覚えておいてください。チャンネルが良いか悪いかに関係なく、YouTubeはそのようなチャンネルにペナルティを課します。切り抜きチャンネルなど、今日作られている一連のものに対して、YouTubeはペナルティを課しています。なぜなら、プラットフォームにとって、人々がこの偽のコンテンツに気付き始めるたびに、人々はYouTubeを非難し、そのためにYouTubeの使用を止めてしまうと理解しているからです。
プラットフォーム自体が、実際の人々が本物のコンテンツを作り、顔を出して、皆さんとここで会話するようなコンテンツを重視していることは非常に興味深いことです。しかし、誰も気付かなくなり、皆が幸せで、もはや人工知能かどうかを気にしなくなるレベルに達するのでしょうか?あるいはさらに良いことに、人工知能の方が人間よりも自然で人間らしいため、人々は人工知能に話してもらうことを好むようになるのでしょうか?それは十分にあり得ることですね。皆さんはどう思いますか?
次のニュースです。ロボット工学のスタートアップFigure AIが、独自の人工知能モデルを構築するためにOpenAIとのパートナーシップを放棄しました。これは非常に興味深いです。なぜなら、OpenAIは多くの企業とパートナーを組んでいましたが、特にDeepSeekの出現後、これらのパートナーシップを失っているからです。DeepSeekは、巨大な企業なしでも人工知能を作ることができることを多くの人々に示しました。
人型ロボットを開発するスタートアップのFigure AIは火曜日に、OpenAIとのパートナーシップを終了し、独自の人工知能モデルを開発すると発表しました。私は、このチャンネルIntelligência 1 Grauでも、独自の人工知能を開発するコミュニティを作るためにどうすべきか考えています。特に、Andrej Karpathyの動画を見ているのですが、まだ終わっていない3時間の巨大な動画で、彼はChatGPTのようなLLMsの深い理解について話しています。
私が今まで見た中で気に入っているのは、基本的に最初の1時間で、彼は自分の作業スペースを共有し、ChatGPTの作り方を理論と実践の両方でステップバイステップで説明しています。使用しているツールを示しながら。もし人工知能モデルを作ることを考えているなら、この人の動画を見ることを強くお勧めします。なぜなら、たとえ解決したい問題全てを解決できなくても、また、あなたのモデルが世界最高のモデルにならなくても、少なくともいくつかの解決策を見つけることができるからです。
価格やコストの理解を含め、これらのものがどれだけの価値があるのか、コストがどのように下がっているのか、そしてゼロからブラジルのデータで小さなモデルをトレーニングする方法などを理解することができます。そして、これは私がやりたいことです。人々を集めてブラジルのデータセットを作り、ゼロからAIのトレーニングを始めることです。もしかしたら、ここでクラウドファンディングを行えば、このレベルで何かできるかもしれません。皆さんはどう思いますか?
続けますと、創設者のブレット・アドコックによると、同社はロボットの視覚および音声機能のためのOpenAIのマルチモーダルAIモデルの使用を停止する計画です。同社は今後30日以内に新機能を公開する予定で、アドコックは人型ロボット工学で見られたことのないものになると主張していますが、詳細は明らかにしていません。
これは非常に興味深いですね。私が気付いたのは、OpenAIが画像モデルとビジョンモデルを手放したことです。SORAもDALL-E 3も、もはや大きなモデルではなく、他のもっと優れたモデルが見つかっています。そして、おそらく多くの人々を待たせたため、ここのロボット工学の人々は独自に動き、ゼロから構築を始めました。
アドコックは、この分裂は統合の課題に起因すると述べています。「現実世界でロボットに組み込まれたAIを大規模に解決するには、ロボットのAIを垂直統合する必要があることがわかりました」と彼はTechCrunchに語りました。これは非常に理にかなっています。なぜなら、そこにはロボットがあり、単なるコンピュータの画面ではなく、センサーや多くの情報があり、人工知能がそれを知っている必要があるかもしれないからです。
「ハードウェアをアウトソースできないのと同じ理由で、AIをアウトソースすることはできません」。この変更は驚くべきことです。なぜなら、OpenAIは単なる技術パートナーではなく、Figure AIの主要な投資家でもあるからです。言い換えれば、OpenAIは開発パートナーではなくなりますが、投資家としては継続するようです。
このスタートアップは昨年初めに6億7,500万ドルの資金を調達し、26億ドルの評価額を得ました。そして、DeepSeekのトレーニングが500万ドルかかったことを考えると、一見したところでは、この6億7,500万ドルで十分そうに見えます。
Figure AIの現在の焦点は産業用途に置かれています。BMWはすでにサウスカロライナ工場でFigureロボットを使用することを約束しており、同社の最新モデルであるFigure 02には、発話能力とカメラシステムを向上させるOpenAIのモデルが搭載されています。この分裂のタイミングは偶然ではないでしょう。OpenAIは2020年10月に言語モデルに集中するためにロボット工学部門を閉鎖しましたが、現在はハードウェア開発の計画とともにロボット工学チームを再構築しており、potentiallyはFigure AI自体と競合する関係になる可能性があります。
さて、パートナーなのかそうでないのか、それぞれ別々の道を行くのか、それとも半分だけパートナーシップを組むのか、私には理解できません。ここでコメントしてください。人工知能は自身のロボット用モデルを持ち、今日私たちが使用しているモデルとは全く関係ないと思いますか?理にかなっていますよね。
そして、これもロボット工学に関することですが、NVIDIAの研究者たちがロボットのトレーニングで大きな進歩を示しました。シミュレートされたロボットの動きと実世界の動きの間のギャップは、常にロボット工学における大きな障害でした。今、NVIDIAのGEAR Lab とカーネギーメロン大学の研究者たちは、そのギャップを埋めるのに役立つフレームワークを開発しました。
これは、シミュレーションで解決できる学習の部分がありますが、シミュレーションと現実の間にあるギャップがあり、物事がどのように行われたかによっては、うまくいかない場合があるからです。
ASPと呼ばれる彼らのシステム(Align Simulation and Real Physics)は、既存の方法と比較して、シミュレートされた動きと実際の動きの間の誤差を約53%削減します。これは完璧ですね。このシステムは2段階で機能します。まずシミュレーションでロボットをトレーニングし、その後、専門モデルを使用して実世界での違いを考慮します。ロボット工学に携わる人々は、これら2つの段階をよく知っています。これは非常に一般的で、まずシミュレーションを行い、その後、実世界で何が起こるかを確認します。そして、実世界がその困難を示すにつれて、改善を行っていきます。
このモデルは、仮想的な動きと物理的な動きの間の変動を識別し、調整することを学習します。研究チームが指摘するように、シミュレーションと現実のギャップはロボット工学の最大の課題の1つです。ASPを使用すると、ロボットは今や、ジャンプやキックなどの複雑な動きをシミュレーションから直接実世界に転送することができます。これは単に、シミュレーションが非常に良いレベルにあることを意味します。なぜなら、シミュレーションと実世界の間の直接的な変換は非常に難しいからです。
ロボットが遊んでいるのを見てください。あそこで回転したり、ジャンプしたり、少しぎこちない動きをしていますが、仮想トレーニングからアスレチックなパフォーマンスを行っています。Unitree Go1ヒューマノイドロボットでのテスト中、チームは1メートル以上の前方ジャンプを含む、様々な敏捷な動きを実演しました。このシステムは一貫して他のアプローチよりも優れた動きの精度を示しました。
チームはさらに一歩進んで、クリスティアーノ・ロナウド、レブロン・ジェームズ、コービー・ブライアントなどのスポーツ選手をロボットに模倣させました。NVIDIAの研究マネージャーでGEARの責任者であるJan-Yanは、観客が追いつけるように動画の速度を落とす必要があったと述べています。そこでロボットがダンスを踊っています。コービー・ブライアントを模倣するロボット、これは非常に興味深いですね。なぜなら、今や彼らは仮想的に学習し、突然実世界でそれを始めることができるからです。
しかし、このプロジェクトはハードウェアの限界も明らかにしました。ダイナミックな動きの間、モーターは頻繁にオーバーヒートし、データ収集中に2台のロボットが損傷を受けました。私は多くのロボット工学の経験があり、多くのシミュレーションを行ってきましたが、シミュレーションから出て壁に衝突したり、何か非常に変なことをしたりして損傷を受けるのは非常に一般的です。
チームはこれを始まりに過ぎないと考えています。ASPは将来、ロボットにより自然で多用途な動きを教えるのに役立つかもしれません。彼らは他の研究者が開発できるように、GitHubにコードを公開しました。
さて、皆さん、ロボット工学に興味が湧きましたか?シミュレーションプロジェクトから実際のプロジェクトに移行した経験があれば、その仮想から現実への変換を正しく行うことができたか、できなかったかをコメントしてください。これは非常に難しいことです。
次のニュースです。GoogleのGemini 2.0モデルファミリーが、FlashLightとProで拡大します。Googleは動いていますね。Googleは、それぞれ異なるユースケースのために設計され、異なるパフォーマンスとコストのバランスを提供する、Gemini 2.0の3つの新しいバリアントでAIモデルファミリーを拡大しています。
12月に導入された基本的なGemini 2.0 Flashモデルは、より高いレート制限と改善されたパフォーマンスで一般に利用可能になりました。GoogleはまたAPIを通じて現在パブリックプレビュー中の、開発者向けの低コストバリアントであるGemini 2.0 FlashLightを発表しています。つまり、プログラマーであれば、このFlashLightを使用してプロジェクトを作成することができます。
ラインナップを完成させるのは、Googleが実験的と説明するGemini 2.0 Proで、複雑なプロンプトとコーディングタスク用に設計されています。Flashバージョンの2倍の200万トークンのコンテキストウィンドウを備えています。モデルは現時点ではテキスト出力のみをサポートしていますが、Googleは今後数ヶ月でFlashとProに画像、音声、そしてライブビデオ機能を追加する予定です。3つのモデル全てが入力として画像と音声を処理できます。
ここに表があります。画像出力、音声出力は近日中に登場予定で、Gemini Flashには決して搭載されないことを示すXマークがありますが、入力については全てマルチモーダルで、全てにアクセスできます。つまり、画像生成と音声生成がないだけです。非常に興味深いですね。
GoogleはまたGemini 2.0でFlash Thinkingモデルをテストしています。これはGoogleの推論モデルで、OpenAI O3やDeepSeek R1に相当し、Googleのものはプロmp Thinkingと呼ばれ、OpenAI O3やDeepSeek R1と同様に、回答を生成する前に追加の推論ステップを実行します。これらのモデルはYouTube、Maps、Google検索にアクセスできます。注目すべきは、主力モデルであるGemini 2.0 Ultraがこの発表に含まれていないことです。
そして、ここでいつものことですが、Gemini Pro 2.0がベンチマークをリードしています。一般的に私たちはGoogleのベンチマークをあまり信頼していませんが、彼らはそれでも行います。Googleのベンチマークデータは、Gemini 2.0 Proが数学的タスクにおいて、ほぼすべての分野で前任者を上回っていることを示しています。MathBenchで91.8%、Hidden Mathで65.2%のスコアを記録し、Flashバリアントを大きく上回っています。
一般的なFlash 2.0バージョンは、FlashLightとProの間のスコアを記録し、古いモデルの1.5 Proを上回っています。現在、私たちが良い人工知能の良い兆候として理解していることは、非常に知的で推論を行うことができるルートモデル、ベースモデルを持っているということです。
例えば、DeepSeekにはDeepSeek V3モデルがあり、そのDeepSeek V3から既に知的なR1を作成して推論を行います。OpenAIも同様で、GPT-4モデルからO3を作成して推論を行います。したがって、今日のモデル自体、これらの特徴の重要性は、それが良いルートモデル、良いベースモデルであるかどうかです。Thinkingを適用すると素晴らしい推論モデルになることに、私たちは十分な注意を払う必要があります。そして、これが現在私たちが期待していることです。
APIの価格については、Googleは以前の短いコンテキストと長いコンテキストのクエリの区別を廃止しました。これは、パフォーマンスが向上しているにもかかわらず、混合テキストと画像のワークロードがGemini 1.5 Flashよりも低コストになる可能性があることを意味します。これは非常に良いことですね、パフォーマンスが向上し、かつ安価になります。
全体的に、Gemini 2.0 Flashはその前任者よりも高価ですが、新しいFlashLightは古い1.5 Flashと競合するように設計されています。同じ価格で、ほとんどのベンチマークでより優れたパフォーマンスを発揮します。実際のテストでのみ、2つのモデルが比較可能な品質を提供するかどうかが示されます。Googleについて語る場合、私たちは実際のテストを本当に待つ必要があります。
ここに非常に簡単な価格表があります。これらの価格は100万トークンあたりの価格です。これらの値は非常に安価で、どれも1ドルに達していません。1ドルに最も近いのは音声入力ですが、それでも1ドルには達していません。したがって、これらのモデル全てが非常に低いレベルにあることは間違いありません。私がよく言うように、これは無限の使用です。0.075ドル、これは無限の使用です。使い続けても、支払いは無料と言わないためだけのものです。
全てのモデルは、Google AI StudioとVertex AIを通じて、そしてGoogleのプレミアムチャットボットであるGemini Advancedを通じて、コンピュータやモバイルデバイスで利用可能です。したがって、アプリケーションを持っているか、これらのものを使用できる場合は、既にこれらの2.0モデルを使用することができます。これらをテストすることを強くお勧めします。
Geminiの新しいモデルをテストする気になりましたか?Geminiを手放さない、そして日々のタスク全てにGeminiを統合しているユーザーの一人であれば、コメントしてください。個人的に、私はGoogle AI Studioが人工知能を使用するための最高のウェブプラットフォームだと考えています。特に、他のモデルが時々できたり、できなかったり、支払いが必要だったり、不要だったりする会話や画像の共有、画面共有などの機能が、ここでは無料で利用できるからです。
画面を共有して、画面に表示されているものについて会話することができ、何も支払う必要がありません。単にここで会話を始めれば、全てが機能します。そして、テキストの部分には、彼らが話した全てがあります。2.0 FlashLightプレビュー、2.0 Pro、2.0 Flash Thinking、全てがここにあります。アクセスして使い始めるだけで、全てが機能しています。
このようなビデオを見続けたい場合は、チャンネルをサポートするためにメンバーになってください。メンバーはWhatsAppグループへのアクセス、事前公開ビデオを利用できます。いいねをお願いします。ありがとうございました。

コメント

タイトルとURLをコピーしました