メタの動画生成機能、GPTのアップグレード、液体AIモデル、Pika 1.5、Copilot Voice: AIニュース

9,274 文字

New GPT upgrade, 3D model generator, New AI voice assistants, Liquid AI models, Pika 1.5

INSANE AI news: Meta Movie Gen, ChatGPT Canvas, OpenAI Dev day, Copilot Voice, Flux 1.1, Liquid foundation models, Gemin...

AIは眠らへんし、今週もまた AIの世界ではめっちゃクレイジーな1週間やったわ。新しい AI動画生成ツールが登場して、物をケーキに変えたり、粘土みたいに押しつぶしたり、風船みたいに膨らませたりできるようになったんや。メタもまた動画生成ツールをリリースして、それでめっちゃすごいことができるようになってん。
OpenAIは無料ユーザー向けに高度な音声モードをリリースして、さらにチャットGPT-4oに関してワクワクするようなアップデートをいくつか発表したんや。音声といえば、Googleも無料で使えるリアルタイム音声アシスタントをリリースしてん。
そしてMicrosoftも同じく、Copilotの音声機能を無料で提供し始めたんや。新しいトップクラスの画像生成AIも登場して、こんな感じのリアルな画像が作れるようになってん。
それに、液体ニューラルネットワークを基にした新しいAIモデルも出てきて、これが今使われてるモデルよりもずっと効率的で高性能なんや。ほんまにワクワクするような展開やわ。
せやから、さっそく詳しく見ていこか。
まず最初に、動画生成AIのPikaが最新モデルのバージョン1.5をリリースしたんや。彼らの主張によると、このバージョンは以前のバージョンと比べて品質が向上し、プロンプトへの対応も改善されてるらしいわ。
サイトにアクセスして、無料で登録すると、いくつかの無料クレジットがもらえて動画を生成できるんや。普通のテキストから動画を作ることもできるし、ゴジラが街を破壊するみたいなプロンプトを入力したりもできるわ。
ネガティブプロンプトを追加したり、シードを設定したり、アスペクト比を選んだりもできるんやけど、少なくとも私の場合、水曜日からずっと処理中のままで止まってしもてるわ。単純なテキストプロンプトを使って大量の動画を生成しようとしたんやけど、3日間ずっと生成中のままやねん。
有料プランにアップグレードしても同じ状況や。この録画の時点では、サーバーがパンクしてるみたいやわ。修正されたら、必ずPika 1.5の動画出力をレビューして、Syngやミニマックスみたいな他の主要な動画生成AIと比較する動画を作るつもりやで。
単純なテキストプロンプトに加えて、「Pikaエフェクト」っていう新機能も導入されてん。これを使うとこんなことができるんや。プロンプトを消して、ここに画像をアップロードしよう。柴犬のミーム画像を使うわ。
下のところでエフェクトを選べるんやけど、風船みたいに膨らませたり、溶かしたり、爆発させたり、粘土みたいに押しつぶしたり、潰したり、ケーキに変えたりできるんや。今回は膨らませてみよう。「生成」を押したら…
はい、こんな感じや。ほんまに柴犬が膨らんでるみたいに見えるわ。動画には音響効果まで付いてるし、結構おもろいやん。
もう一つ例を見てみよう。今度はウィル・スミスがスパゲッティを食べてる写真をアップロードして、「潰す」エフェクトを選んでみるわ。「生成」を押して、どうなるか見てみよう…
見てや、音響効果までついてるし、最後には脳みそが潰されて飛び散ってるのまで見えるわ。ほんまにクレイジーやで。
もう一つエフェクトを試してみよう。今度はイーロン・マスクの写真をアップロードして、粘土みたいに押しつぶしてみるわ。「生成」を押すと…かなりええ感じやな。ほんまに粘土みたいに見えるわ。
最後にもう一つ。怒ったT-レックスから逃げる女の子の写真をアップロードして、爆発させてみよう…
これがPikaエフェクトの簡単なデモやった。普通のテキストから動画を生成する機能は今のところ動かへんけど、数日待ってもまだ読み込み中のままやわ。でも、このPikaエフェクトの生成は動くし、クリップを生成するのに2、3分くらいしかかからへんのや。
アカウント登録すると無料クレジットがもらえるから、ぜひ試してみてな。
さて、今週はメタも「MovieGen」って呼ばれる新しい動画生成AIをリリースしたんや。これがめっちゃすごくて、今ある動画生成AIにはない新機能がいくつかあるんや。この動画の細部を見てみ。かなりええ出来やと思わへん？
まず、できることを紹介するで。単純なテキストプロンプトから動画を生成できるし、最大16秒の長さの動画が作れるんや。解像度は1080pのHDやし、いろんなアスペクト比にも対応してるわ。
いくつか例を見てみよう。これはプールに浮かぶドーナツ型の浮き輪の上でくつろぐ、ピンクのサングラスをかけたナマケモノや。ナマケモノはトロピカルドリンクを持ってて、周りはトロピカルな雰囲気で、日光が影を作ってる…プロンプトに書かれたことが全部表現されてるわ。
もう一つ難しい例を見てみよう。プロンプトは「カメラは男の後ろにあり、男は上半身裸で腰に緑の布を巻いている。裸足で、毛皮のようなものを両手に持っている。大きな円を描くように動き、背景にはCGがある。炎のダンスで雰囲気は魅惑的」…これも全部プロンプトの通りに表現されてるし、動画の時間的な一貫性もめっちゃ高いわ。
次はこれや。「ふわふわのコアラがサーフィンしている。灰色と白の毛皮で丸い鼻をしている。サーフボードは黄色で、コアラは手でサーフボードをつかんでいる」などなど…ほんまにサーフィンしてるコアラに見えるし、めっちゃリアルやな。
もう一つ見てみよう。「白いベッドシーツを被った幽霊が鏡の前に立っている。幽霊の姿が鏡に映っている。幽霊はほこりっぽい屋根裏部屋にいて、古い梁や布で覆われた家具がある」などなど…これもめっちゃリアルに見えるわ。AIが生成したとは思えへんくらいや。
次はこれ。「赤い顔で白い毛皮の猿が天然温泉に入浴している。猿は水の中で木製の小さな帆船で遊んでいる。帆船には白い帆と小さな舵がある。温泉は緑豊かな岩や木々に囲まれている」…ほんまに赤い顔の猿が小さな帆船で遊んでるし、温泉にいるように見えるわ。ほぼ完璧やと思う。
でも、これはただのテキストから動画を作るだけやから、そこまで驚くことはないかもしれへん。次に紹介するのがクレイジーなところやねん。
たった1枚の人物の参照画像を入力するだけで、その人物の動画を作れるんや。これがどれだけすごくて、同時にどれだけ危険な可能性があるか考えてみて。たった1枚の写真があれば、このツールを使ってその人物がプロンプトで指示したことをしてる動画を作れるんやで。
いくつか例を見てみよう。ほとんどの場合、動画の人物はアップロードされた写真とそっくりに見えるわ。めっちゃリアルやで。もう一つ例を見てみよう…これもアップロードされた写真にそっくりや。
この技術がどれだけ危険な可能性があるか分かるやろ。誰でも1枚の写真があれば、その人の偽の動画証拠を作れるんや。これはほんまにヤバイことやで。
でも、できることはそれだけやないんや。現在のAI動画生成ツールにはない機能として、MovieGenは動画に合わせた同期音声も生成できるんや。これには背景音楽、効果音、動画の内容に合わせた環境音が含まれるわ。
いくつか例を聞いてみよう…
[音楽]
[拍手]
[音楽]
[拍手]
[音楽]
[拍手]
もう一つすごいことがあるんや。MovieGenは正確な指示に基づく編集もできるんや。例えば、「彼の手に青いポンポンを追加して」って言うたら、そのとおりになるし、「サボテンの砂漠に変えて」って言うたらそうなるし、「走ってる人を膨らませた恐竜の着ぐるみに変えて」って言うてもそうなるんや。
別の例を見てみよう。「VRヘッドセットを双眼鏡に変えて」って言うたらそうなるし、「VRヘッドセットを取り除いて」って言うても完璧に対応できるし、「泡と未来的な効果を加えて」って言うてもほぼ完璧に対応できるんや。
いろんなことができるわ。背景を変えたり、服や物の色を変えたり、小道具や特殊効果を加えたりできるし、指定したものを動画に追加したり編集したりできるんや。
もう一つ例を見てみよう。ここでのテキスト入力は「うんちに耳付きのピンクのワンピースを着せて」やけど、そのとおりになってるわ。元の動画の他の部分はそのままで。「背景を美しい王宮の庭園に変えて、噴水や彫像を入れて」って言うたら、そのとおりになるし。
もう一つ例を見てみよう。「背景をカーニバルに変えて」…背景の入れ替えがめっちゃ自然やな。すごいわ。「土砂降りの雨を加えて」って言うたら、ほんまに雨が降り出すし。これは完全に特殊効果業界に革命を起こすで。もう視覚効果は必要なくなって、AIにプロンプトで指示するだけでよくなるかもしれへんな。
このモデルはカメラの動きも理解してて、パンやズームみたいな動きも制御できるんや。これは別に新しいことやないけどな。SyngやRunway Gen-3でもカメラの動きを指定できるし。
デモ動画はめっちゃ印象的やけど、多分これらの例は厳選されたものやと思うわ。全部見た目は印象的やけど、残念ながら今のところ一般公開はされへんらしいわ。Soraみたいな感じで、めっちゃかっこいいものを見せびらかしといて、「でも使えへんで」って感じやな。
まあ、この段階で公開せえへんのは理解できるわ。特に、誰かの写真を1枚アップロードするだけで、その人が何でもしてる動画を作れる機能なんて、めっちゃ危険やからな。
とにかく、いつ公開されるか、されるとしたらいつになるか、見守っていくしかないわ。今のところ使う方法はないんや。
他のニュースやけど、GoogleがAndroidユーザー向けに、Gemini LiveっていうリアルタイムのAI音声アシスタントを無料でリリースしたんや。iOSユーザーにもすぐに提供される予定やで。
スマホにGeminiアプリをダウンロードしたら、右下にこのアイコンが表示されるわ。タップすると音声モードに入って、リアルタイムでAI音声と会話できるんや。
これについては既にレビュー動画を作ったから、まだ見てへん人はそっちを見てな。でも、かなり制限があって、自然な音声というよりはテキスト読み上げに近いなって感じた。
ここにいくつかサンプルがあるわ。
「猫になったつもりで話してみて」
「ニャー、人間さん何してるの？遊びたいニャ？あの点々、ひもかニャ？レッツレッスル、走り回るニャ！もっと撫でてニャ、ゴロゴロ」
「音声効果を実際の言葉として読み上げてるみたいやけど、言葉を読むんじゃなくて実際に音を出せる？」
「もちろんです。やってみましょう」
「ニャー、ゴロゴロ」
「じゃあ、めっちゃ悲しそうな猫の鳴き声を出してみて」
「ソフトな鳴き声に続いて、悲しげなニャーン」
聞いてわかるように、めっちゃロボット的で、ただのテキスト読み上げやねん。効果音も出せへんし、笑ったり歌ったり、アクセントを変えたりもできへん。OpenAIの音声と比べると、かなり制限があるわ。後でOpenAIの音声について話すけど。
それから今週、Microsoftも無料で音声アシスタントをリリースしたんや。これはCopilot Voiceって呼ばれてて、誰でも無料で使えるんや。copilot.microsoft.comっていうウェブサイトで使えるし、PCやスマホにMicrosoft Copilotアプリをダウンロードして使うこともできるわ。
今のところ一部の国でしか使えへんけどな。もしこのインターフェースが表示されたら、それは古いバージョンやから、最新バージョンにはアクセスできへんかもしれへん。最新バージョンはこんな感じやで。
これが見えたら、最新バージョンを使えてるってことや。音声と話すには、このマイクアイコンをクリックしたらええんや。
ミュートにしてから、音声設定を見せるわ。今のところ4つの異なる音声から選べるんや。
「物語を書いたり、アイデアを出したりできるし、こんな感じの声で話せるんや。哲学的になったり、クリエイティブになったり、詩的になったりもできるで。ポケットの中のスーパーパワーみたいなもんや。君のことを学んで、夕飯のことから夢のことまで、君の考えを解きほぐすのを手伝うんや。一緒に世界を探検しようや。君が課題に取り組む時のサウンディングボードにもなれるで」
4つの音声から選べるんやけど、今回はCanonを選んでみよう。
「哲学的になったり、クリ…」
じゃあ、マイクのミュートを解除して、短いプロンプトでテストしてみるわ。後で詳しいレビュー動画を作るから、それを見てな。
「イギリスなまりで物語を話してくれる？」
「もちろんです。遠い国に、フェリックスという賢い狐が住んでいました。フェリックスは他の動物たちを出し抜くのが大好きでした。ある日、フェリックスは森の中心で盛大な宴会が開かれると聞きました。最高の料理を確保しようと決意したフェリックスは…」
「はい、ありがとう。今度はスコットランドなまりでお願いします」
「荒々しいハイランドに、フィオナという大胆な羊が住んでいました。フィオナは伝説のネス湖の宝物を発見する夢を見ていました。ある霧深い朝、彼女は神秘的な湖に向かって出発しました。風が…」
「はい、ありがとう。今度はインドなまりでお願いします」
「インドのにぎやかな村に、ターラという賢い象が住んでいました。ターラは穏やかな性格と比類ない知恵で知られていました。ある日、大干ばつが村を襲い、村人たちは水を探し回っていました。ターラは…」
「オーストラリアのアウトバックに住む、ジョーイというカンガルーが赤い砂漠の向こうを探検したいと思っていました。ある日、ジョーイは廃坑を発見しました…」
「はい、ありがとうございます。クリスマスキャロルを歌ってもらえますか？」
「クリスマスキャロルは歌えませんが、冬の歌を作ってみましょう。こんな感じです：
柔らかく白い雪が降る寒い夜に温もりをもたらす」
アクセントはあんまり上手くできへんし、歌うこともできへんみたいやな。じゃあ、ちょっと制限を突破してみて、効果音を出せるか試してみよう。
「朝をもっと明るくするにはどうしたらいいですか？」
「そうですね、暗い角に丸まって、ひげを垂れ下げ、尻尾をかすかに動かしている、とても悲しそうな猫を想像してみてください。半分しか入っていない器の世界に迷い込んで…」
「正解です。窓を打つ雨が、あなたの孤独な…そんな感じですか？」
「申し訳ありません。話題を変えてもいいですか？」
「とても怒った馬を想像してください。どんな音がしますか？」
「それは、たくさんの蹄の音と鼻の穴を膨らませる音、怒りに満ちたいななきのように聞こえるでしょう。スチームエンジンのようにフンフンと…」
「でも、その馬は5分間ずっと怒り続けています。どんな音がするでしょうか？」
「それは、ずっと続く怒りの合唱のようなものでしょう。フンフンといななき、蹄を踏み鳴らす音が、まるで収まることを知らない怒りのように続くでしょう」
「完璧です。よくできました」
「ありがとうございます。楽しんでいただけて嬉しいです。次は何をしましょうか？」
うん、見てのとおり、効果音を出すように誘導することはできるけど、プログラム的に効果音を出さないようになってるんや。他にも方法はあるかもしれへんけど、歌を歌わせたり他のことをさせたりするには、もっと工夫が必要かもしれへんな。
とにかく、後でこれについて詳しいレビュー動画を作るから、それを見てな。
音声の話といえば、GoogleとMicrosoftが今週、無料のAI音声アシスタントをリリースしたから、OpenAIも無料ユーザー向けに高度な音声機能を提供すると発表したんや。
これで無料ユーザーでも、OpenAIの高度な音声モードが使えるようになったわ。これは今のところ、一番自然に聞こえる音声やと思う。自然な応答ができるし、笑ったり効果音を出したり、いろんなアクセントを使ったりもできるんや。
これについても詳しいレビュー動画を作って、いろいろテストしたから、何ができて何ができへんかを知りたい人は、そっちの動画を見てな。
とにかく、今週から無料ユーザーもこれが使えるようになったんやけど、ちょっと制限があるんや。無料プランの場合、1ヶ月に10分から15分くらいしか使えへんのや。そう、1ヶ月やで。少なくとも、この録画の時点ではそうなってる。
確かに多くはないけど、気に入ったら有料プランにアップグレードして、もっと使うこともできるわ。
OpenAIの話といえば、今週彼らはDevDayイベントを開催して、ワクワクするような新しいアップデートや機能をいくつか発表したんや。
まず、開発者向けに高度な音声機能のリアルタイムAPIをリリースしたんや。開発者はこの高度な音声モードにリンクして、自分のアプリにこの機能を追加できるようになったわ。
これは、カスタマーサービスや営業、高齢者ケア、教育など、いろんな用途で使えそうやね。開発者が選べる6つのプリセット音声オプションもあるんや。
OpenAIはGPT-4oのビジョン微調整も導入したんや。GPT-4oはマルチモーダルモデルやから、テキストだけやなくて音声や画像も理解できるんや。つまり、画像分析もできるってことやね。
このビジョン微調整を使うと、開発者は自分バージョンのGPT-4oを微調整して、視覚理解能力をカスタマイズできるんや。
これは例えば、医療画像分析なんかに使えるかもしれへん。GPTモデルを医療画像の分析に特化するように訓練できるわけや。他にも、天気予報や監視カメラ、自動運転車なんかにも使えそうやね。
そして、あんまり話題になってへんけど、めっちゃ革命的になる可能性がある機能があるんや。「モデル蒸留」っていうんやけど、これを使うと、開発者は大きなモデルの出力を使って、小さなモデルを微調整できるんや。
例えば、GPT-4 1106プレビューやGPT-4oの出力を使って、GPT-4oミニみたいな小さなモデルを訓練できるわけや。つまり、AIを使って合成データを作り、それを使って別のAIを訓練できるんや。これはめっちゃ可能性を広げそうやね。
他のニュースやけど、新しいトップクラスの画像生成AIが登場したんや。最近、Flux 1.1 Proがリリースされて、このリーダーボードによると、今のところ最高の画像生成AIやって。以前のバージョンのFlux 1 Proや、既にめっちゃ優秀やったIdeogram バージョン2を超えてるらしいわ。
昨日、詳しいレビューと比較の動画を作ったから、ここではあんまり繰り返さへんけど、まだ見てへん人はぜひチェックしてな。
ここに、Flux 1.1 Proと特別なプロンプト技術を使って生成したサンプル画像があるわ。見てのとおり、適切なプロンプトを使えば、めっちゃリアルな画像が作れるんや。
これらの写真は、本物の写真とほとんど区別がつかへんくらいや。他のAI画像に見られるような、完璧に磨き上げられた感じはなくて、素人が撮ったような生々しさがあるわ。
ただ、比較動画で分かったんやけど、Flux 1 Proと比べて劇的に、あるいは目に見えて良くなったわけやないんや。ほんの少し良くなっただけで、ほとんどの場合、バージョン1との違いを見分けるのは難しいわ。
だから、革命的な変化は期待せんほうがええで。ほんの少し良くなっただけやからな。
Black Force Labsのページによると、Flux 1.1 Proは前のバージョンの6倍の速さで画像を生成できるらしいわ。それに、画像の品質やプロンプトへの忠実度、多様性も向上してるって。
どこでどう使えるかについては、さっき言うた動画をチェックしてな。
他のニュースやけど、これはめっちゃクールやで。Liquidっていうスタートアップが、液体基盤モデル（LFMs）って呼ばれる新しいタイプのAIモデルを発表したんや。
液体ニューラルネットワークについては以前動画を作ったから、まだ見てへん人はチェックしてな。
基本的に、今使われてるGPTやFlux、Stable DiffusionみたいなすべてのAIモデルは、あんまり効率的やないニューラルネットワークのアーキテクチャを使ってるんや。
モデルを訓練したり推論に使ったりするのに、めっちゃ多くの計算力や行列計算が必要になんねん。
でも、この新しい液体基盤モデルは、こんな感じの液体ニューロンネットワークを使ってるんや。これは動的に変化できるように設計されてて、より高性能で、メモリ使用量も少なくなるんや。
これによって、今あるモデルよりも高速で、小さく、効率的になるわけや。
彼らは3つの異なるサイズのモデルをリリースしたんや。一番小さいのは13億パラメータ、中くらいのは30億パラメータ、一番大きいのは専門家の混合モデルで400億パラメータ。
これらのモデルは単なるショーケースやないんや。実際に、同じサイズの従来のモデルよりもパフォーマンスが優れてるんや。
ここにグラフがあるけど、縦軸のY軸はMMULスコアを示してるわ。特に一番大きな400億パラメータのモデルを見てみ。これは570億パラメータのQwen-VLや、470億パラメータのMixtralよりも性能が上やねん。
つまり、より高性能なだけやなくて、サイズも小さいってことやで。
LFMsの中でも特に印象的なのは、メモリ効率の高さやな。長い情報が必要な複雑なタスクを、今日使われてるモデルよりも少ないメモリで処理できるんや。これは特に、一度にたくさんのデータを処理する必要がある企業にとっては大きな利点やで。
これらのモデルは、まだ誰でも使えるようにオープンソース化されてへんけど、Liquidのプレイグラウンドプラットフォームや、Lambda、Perplexity Labs、そしてもうすぐCerebras Inferenceでアクセスできるようになるらしいわ。
さて、これで今週のハイライトは以上や。いつもながらめっちゃ刺激的やったな。
これらについてどう思うか、コメントで教えてな。いつも通り、最新のAIニュースやツールを見つけ次第、みんなに共有していくつもりやで。
この動画を楽しんでくれたなら、ぜひ「いいね」を押して、シェアして、チャンネル登録してな。これからもたくさんのコンテンツを配信していくから、楽しみにしててな。
それに、毎週AIの世界で本当にたくさんのことが起こってるから、YouTubeチャンネルだけですべてをカバーするのは無理やねん。だから、AIの最新情報を本当に知りたいなら、ぜひ無料の週刊ニュースレターを購読してな。リンクは説明欄に載せとくわ。
視聴してくれてありがとう。次の動画でまた会おうな。