AIニュース: OpenAIが「ブルーベリーモデル」を発表? Metaの驚異的な新AI音声、Sora 2、その他

7,365 文字

おはようさんです。今週はAIに関するニュースがたくさんあって、いろんな話題が出てきたから、みなさん、見逃してもうたかもしれませんな。せやから今日は、みなさんが見逃したかもしれんことについて、ちょっとまとめて話させてもらいますわ。
まず最初に、ワイ自身もほとんど見逃すとこやったんやけど、OpenAIがSora AIビデオをリニューアルするっちゅう話があったんです。これ、アプリの今後の開発について書かれた記事なんやけど、めっちゃ面白いんですわ。なぜかっちゅうと、私らはまだSoraを使えてへんのに、Clling 1.5とかRunwayとかLumabsみたいな競合他社のモデルが、どんどん進化してきてるからなんです。
ここに書かれてる情報は、AIニュースのリークについてはかなり信頼できる情報源からのもんなんですけど、こう書かれてます。「長らく待たれてたストロベリーの発表と、めっちゃ大規模な資金調達の真っ最中やから、2月に世界中で大騒ぎになったビデオ生成モデルのSoraのこと、忘れてもうてるかもしれへんな。当時、何人かの投資家が言うてたんやけど、Soraのデモがめっちゃすごくて、すでに何億ドルものベンチャーキャピタル資金を調達してた競合のAIビデオスタートアップにとっては、ちょっと心配なことやったんや」
6ヶ月経った今でも、OpenAIはまだSoraを発表してへんのやけど、それもすぐに変わるかもしれへん。OpenAIは新しいバージョンのSoraを開発中らしいんです。多分これはSora 2になるんやと思うんやけど、今年の初めに見せたデモよりも、もっと高品質で長いクリップをすぐに生成できるようにしたいらしいんです。これはOpenAIの幹部と話をした人の情報やねんけど。
これ、めっちゃクレイジーやと思いません? ワイらはまだSoraを使えてへんのに、こんなことになってるなんて。これにはいくつか理由があると思うんです。まず一つ目は、Soraが世界中であんまりええ評価を受けへんかったってこと。多くの人、特にSoraについて声を上げてた人たちは、このツールの公開を拒否したんです。ワイも多くのクリエイターや色んな人と話したんやけど、ほとんどの人がこのツールを望んでへんかったんです。
そして、もう一つの理由は、OpenAIがコンピューティングリソースの問題を抱えてたってこと。コンピューティングリソースが足りんくて、約束してたスーパーアラインメントチームにも割り当てられへんくらいやったんです。結局そのチームは解散してもうたんやけど。
コンピューティングリソースっちゅうのは、要はGPUのことで、推論やいろんなことに使うんです。ChatGPTで音声生成したり画像生成したりする時も、こういうリソースを使うんやけど、会社を成長させながら新しいモデルも開発せなあかんOpenAIにとっては、かなりキツイことなんです。
OpenAIがここでやろうとしてるんは、もう一回競合を追い抜くことやと思うんです。Soraが発表された時、AIビデオがこんなにええ品質になるなんて誰も思ってへんかったんやけど、今度は完全に競合を圧倒するレベルまで持っていこうとしてるんちゃうかな。
ここに書かれてるんやけど、OpenAIはSoraの学習のために何百万時間ものビデオを集めてるらしいんです。これらのビデオは高解像度で、いろんなスタイルや被写体を含んでるらしいんやけど。
でも、なんでOpenAIはSoraの進化にこんなに時間かかってるんやろ? そもそも製品として発表できへんかった問題は何やったんやろ? ワイが忘れてたんやけど、Soraの発表の時に問題になったのは、クリップの生成にめっちゃ時間かかるっちゅうことやったんです。1分ほどの短いクリップを生成するのに10分以上かかってたんです。
これが問題やったんは、例えばRunwayのGen 3を見たらわかるんやけど、めっちゃ速いんです。実際にGen 3でどれくらい速いか、今からお見せしますわ。
（Runwayのデモを行う）
これ、30秒くらいで生成できたんです。クオリティはともかく、めっちゃ速いですよね。Soraは10分かかってたんやから、これはかなりの差です。もちろん、10分でも実際に撮影に行くよりは速いんやけど、プロジェクトで使おうと思ったら、1分くらいのクリップを生成するのに10分もかかるんじゃ、あんまり効率的やないですよね。
例えば、ある映画監督のPatrick Cedarbergさんは、使えるクリップを1つ作るのに何百回も生成せなあかんかったって言うてはります。つまり、Soraは使いにくかったってことなんです。これ、実際そうなんですよ。AIソフトを使ってる時、理論的にはええ感じに聞こえても、実際に使えるアウトプットを得るには何回も生成せなあかんことがあるんです。これ、ちょっとイライラしますよね。
100個のクリップを生成して、その中から一番ええのを選ぶようなシステムを作るんかもしれへんけど、それやったらもっと推論とコンピューティングリソースを使うことになるし。やっぱり、こういうツールは使いやすくなければアカンのです。
この部分の動画は重要やと思うんです。なぜかっちゅうと、将来的に改良されたSoraモデルは、こういった問題を解決するはずやからです。Soraは、AIを一般の人にも知ってもらうきっかけになった大きなツールの一つやと思うんです。テキストじゃなくて、テキストからビデオを作るっちゅうのは、みんなが「すごい!」って思うもんやからね。
でも、ワイが思うに、Soraはバックエンド製品になるんちゃうかな。映画スタジオとかが使うようなツールになるんやと思います。でも、さっきも言うたように、他の会社も追いついてきてます。RunwayとかClling AIは、大手企業と提携して、日々使えるようなものを作ってます。さっき見たRunwayのスピードやったら、OpenAIも競争するのはちょっと大変かもしれへんな。
他のAIニュースもあるんやけど、Meta Connectっていうイベントがあったんです。これ、めっちゃすごかったです。Metaがやったことに、ワイはほんまに驚きましたわ。
LLaMA 3.2の発表は、OpenAIの高度な音声モードとか、他のAI開発とか、OpenAIで起こってるドラマとかに隠れてしもうたんやけど、これ、めっちゃええ発表やったんです。この70Bモデルは、ビジョン機能も含んでて、しかもオープンソースなんです。これは開発者がめっちゃクレイジーなことをできるようになるってことですわ。
もちろん、1Bとか3Bのモデルもあって、これらはオンデバイスで動くんやけど、めっちゃ効果的なんです。これを見ると、将来的にどんなAIシステムが出てくるか、想像できますよね。例えば、スマホにネイティブでこういうモデルが搭載されて、いろんなことができるようになるとか。このデモでも見られるように、エージェント的な機能を使えるようになるとか。
開発者がこれを活用して、スマホでネイティブに動くものを作れるようなエコシステムができれば、これがAIの未来やと思います。ただ、残念なことに、Metaが持ってるこういう技術は、ワイが住んでる場所みたいな規制の厳しいところじゃ、まだ使えへんのです。
例えば、このAI音声なんかは最近デモが行われたんやけど、これはMeta版のChatGPTみたいなもんです。ChatGPTほどすごくはないけど、Metaのユーザーベースを考えたら、めっちゃ効果的やと思います。Threadsは1億人以上のユーザーがおるし、InstagramとWhatsAppは10億人以上のユーザーがおるんです。これ、世界人口の17分の1か18分の1くらいですからね。めっちゃすごいことですわ。
（AIアシスタントとの会話のデモ）
これ、AIの中でもめっちゃ過小評価されてると思うんです。なぜかっちゅうと、これによって異なる文化がつながる可能性があるからです。これから5年から10年の間に、AIが簡単にコンテンツを翻訳できるようになるんです。
例えば、あるイベントでのスピーチがあったんやけど、英語に翻訳されたバージョンの方が、元の言語で話されたものよりも支持を得たんです。なぜかっちゅうと、より多くの人が理解できたからなんです。しかも、ただの吹き替えじゃなくて、その人が話してるように聞こえたんです。
これから、英語を話す人たちは、小さな国からのコンテンツクリエイターがどんどん出てくるのを見ることになると思います。もし英語が母語じゃない人で、別の言語を話す人やったら、自分のコンテンツを他の言語に翻訳するのはめっちゃおすすめです。より広い範囲に届くし、特にビジネスや収益を増やしたい人には、めっちゃええと思います。
この技術のおかげで、今まで言語の壁で楽しめへんかったコンテンツも楽しめるようになるんです。めっちゃすごいことやと思うんやけど, 今のところあんまり評価されてへんのがもったいないです。YouTubeも似たようなことをやろうとしてるみたいやから、もしかしたら近々、ワイがスペイン語やフランス語で話すのを聞けるかもしれませんね。
Metaの他の発表も見てみましょう。ワイ、本当はこれらも元の動画に入れるつもりやったんやけど、その時具合悪くて、できへんかったんです。申し訳ないです。
Metaは、他の会社とは全然違うアプローチを取ってると思うんです。他の会社が基盤モデルに focus してる間に、Metaはユーザー層の拡大に focus してるんです。将来的には、これの方が重要になるかもしれへんな。
Meta AIは、テキストだけじゃなくて、画像も理解できるようになったんです。この新しい機能を使って、他の誰も作ってへんような機能を作ってるんです。これはめっちゃ面白いです。
例えば、Imagineっていう編集ツールを使えば、どんな写真でもアップロードして、自然言語で正確に編集できるんです。ワイの家族はこれが大好きで、写真を撮ってはもっと面白くする、みたいなことをよくやってます。ワイの娘の一人が本を書いたんやけど、Meta AIを使って本のイラストを描いたんです。めっちゃ楽しいし、すごいです。
でも、今日一番大きなAIニュースがあります。Meta AIに自然な音声対話機能を追加したんです。しかも、これはもう今日から数日以内に利用可能になります。
ワイは、音声の方がテキストよりもAIとの対話には自然やと思うんです。そして、多分これが私たちがAIと対話する最も頻繁な方法になる可能性があると思います。単純に、めっちゃええんです。
これからは、Instagram、WhatsApp、Messenger、Facebookなど、主要なアプリ全てで、Meta AIと自然な音声会話ができるようになります。楽しくしたいんで、いろんなシステムボイスを用意したんやけど、それに加えて、有名な声優さんとも協力して、Meta AIに声を提供してもらってるんです。例えば、ジョン・シナ、ジュディ・デンチ、クリステン・ベル、キーガン＝マイケル・キー、アコワフィナなんかがおるんです。ちょっとやってみましょうか。
（ライブデモの様子）
ライブデモって、リスキーなもんですよね。予測できへんし、技術的な問題が起こる可能性もあるし、恥ずかしいことになる可能性もあります。でも、人を引き付けるし、印象に残るし。でも、ワイはやってみます。何が起こっても大丈夫なように準備はしてますけどね。
マーク（ザッカーバーグ）はそのデモをうまくやり遂げたんですけど、正直、Googleのことを思うとかわいそうになりますわ。Googleがライブデモをやる度に、めっちゃ失敗してるんです。宇宙がGoogleに対して陰謀を企ててるんちゃうかってくらいです。
これを見ると、OpenAIがめっちゃ先行してるって言われてることが、どれだけプレッシャーになってるかわかりますよね。新しいものを出すために、OpenAIのスタッフ、特に安全性研究者は、締め切りが近づくと1日20時間も働かなあかんらしいです。これらの製品を出す最後の障壁がセーフティチェックやからです。
今、MetaのAIがリアルタイム音声変換を持ってて、Googleも持ってて、先週ようやくOpenAIも出したわけです。まさにAI生産性の軍拡競争の真っ只中にいるわけですね。
OpenAIに関して、ちょっと皆さんに見てもらいたいものがあるんです。これは、人々がAIシステムをどう見てるかが変わってきてることを示してると思うんです。AIの初期、といっても2、3年前の話なんですけど、Googleの研究者のBlake Lemoineっていう人のことを覚えてます? ほとんどの人は聞いたことあると思うんですけど、簡単に説明しますね。
このBlake Lemoineっていう人は、Googleのエンジニアで、AIが生命を持つようになったと考えたんです。ワイは、AIが生命を持ったかどうかについては、そうやと言うつもりもないし、そうやないと言うつもりもありません。AIはブラックボックスやし、人間のことだってまだわかってへんことがいっぱいあるんで、誰にもわからへんと思います。
人によっては、これらは単なるチャットボットやって言うし、別の人は「でも、それってどうやって知ってんの?」って言います。私たちだって、頭の中で何かをシミュレーションしてるだけかもしれへんしね。
結局のところ、この人の話は大騒ぎになって、多くの人がこの人のことを、チャットボットが感情を持ってると思ってるバカやって言うたんです。でも最近、OpenAIが、これらのニューラルネットワークが少し意識を持ってる可能性があるって言い出したんです。
これがめっちゃ面白いと思うのは、この記事が2022年のもので、ChatGPTが出る前の話やからです。でも、今のOpenAIのO1モデルについて、何て言ってるか見てみましょう。
「O1モデルを学習させて、実際に話し始めたら、こういう質問をし始めたんです。数学のテストでより高いスコアを取るようになって、その推論過程を見ることができました。そしたら、自分自身に疑問を持ち始めて、めっちゃ興味深い内省をし始めたんです。これは何か新しいものを発見したって感じた瞬間でした。これは新しい何かになるって。それは、いろんなものが一緒になった、めっちゃパワフルな瞬間でした」
「その思考を読んでると、人間を見てるような感じがする? それともロボットを見てるような感じ?」
「スピリチュアルな体験みたいな感じです。でも、そのAIに共感できるんです。『あ、これ多くの人がしそうな間違いやな』とか、一般的な概念に疑問を持ってるのが見えたりして。スピリチュアルやけど、奇妙なくらい人間的な振る舞いをするんです」
これを聞くと、こんな疑問が湧いてきません? これらのモデルについて、私たちは一周回って、「うん、これらのモデルは完全に意識を持ってて、感情もあるんや」って言い始めるんやろうか? これは哲学的な議論になるんやけど、ワイにはよくわからへんのです。
これらのモデルが何ができるかを疑問に思い始めると、必然的に私たち自身のことも疑問に思わなあかんようになるんです。何度も見てきたんやけど、「これらのモデルは推論してへん」とか「これをしてへん」とか言うんやけど、これらのモデルは人間と同じような間違いをするし、人間と同じように改善もするんです。
例えば、「計算過程を示せ」って言うたら、人間がスキルを向上させるのと全く同じように改善するんです。LLMに計画を立てる時間を与えたら、人間が作業の能力を向上させるのと全く同じように改善するんです。
この話題については、別の動画で詳しく話したことがあるんで、そのリンクを貼っておきます。でも、皆さんはどう思います? これらのモデルが意識を持ってると思いますか? それとも持ってへんと思いますか?
正直、どっちの議論も筋が通ってると思うんです。意識を持ってへんって言うのも納得できるし、持ってるって言うのも納得できるんです。皆さんの意見を聞かせてください。
さて、他にも人工知能分析のテキスト生成画像のリーダーボードってのがあるんです。これは、テキストから画像を生成するモデルの能力をランク付けしてるんやけど、最近、どこから現れたんか分からへん謎のモデルが出てきたんです。これが「ブルーベリー」って呼ばれてるんやけど、めっちゃ面白いんです。
一見すると、多くの人はこのブルーベリーモデルがOpenAIのストロベリーを参照してるんやないかって思ってます。もしかしたら、今までのモデルを全部上回る画像生成モデルかもしれへんのです。
ワイ個人的には、これがOpenAIのストロベリーをもじった「ブルーベリーモデル」で、めっちゃクールな何かをリリースしたんやないかって思ってます。Soraはめっちゃすごい画像生成能力を持ってるからね。
でも、驚いたのは、最近Flux 1.1 Proが出て、ChatGPTや他のほとんどのモデルよりもめっちゃ優れてて驚いたんです。特に、すぐにオープンソースになったのがすごかったんやけど。それから1、2ヶ月しか経ってへんのに、「ブルーベリー」っていう正体不明のモデルが出てきたんです。
これ、Claudeかもしれへんし、Googleかもしれへんし。まだ大手企業から見てへんものがたくさんあるからね。ワイは本当にどの会社のモデルなんやろって思ってます。Soraやと思う人もおるけど、ワイはたぶんOpenAIやと思います。だって、OpenAIはまだ画像生成の能力をあんまり公開してへんけど、めっちゃ優れてるって知ってるからです。
でも、皆さんはこの超秘密のモデルについてどう思います? もしこれが既に他のモデルよりもめっちゃ優れてるんやったら、何かすごいものが来るんちゃうかなって思うんですけど。