リアルタイムAIビデオゲーム、新しいアニメーションツール、ジャンプするロボットと話す頭、NotebookLMのアップデート

12,303 文字

Realtime AI video games, New animation tools, Jumping robots & talking heads, NotebookLM updates
INSANE AI news: Realtime AI Counter Strike, Google's image editor, Nvidia Nemotron 70B, Ministral, Hallo2 #ainews #ai #a...

AIは眠らへんし、今週もまた凄まじい1週間やったわ。リアルタイムでプレイ可能なカウンターストライクのゲームを生成できるAIが登場したんや。Googleのこの新しいAIを使えば、プロンプトだけで画像を編集できるようになって、もうペイントやコントロールネットを使う必要はなくなるんやで。4K解像度の誰かが話してる動画を作れる話す頭ジェネレーターもあるし、Googleのオーディオオーバービュー、つまりポッドキャストを生成できる人気機能がアップグレードされたんや。NVIDIAから新しいモデルも出てきたし、実世界の物理を理解できるモデルもあるし、他にもおもろいことがいっぱいあるんよ。
せやから、さっそく詳しく見ていこか。
まず最初に、MicrosoftのDiamondっちゅうAIモデルの話や。これ、カウンターストライク:グローバルオフェンシブのプレイ可能なシミュレーションを毎秒10フレームで生成できるんや。すごいのは、これがNVIDIA RTX 3090一枚だけで動くっちゅうことや。つまり、そない大した計算能力がなくてもこれを動かせるんやな。
仕組みについて説明すると、Diamondは拡散ベースのモデルを使ってるんや。これは最先端の画像や動画生成器が使ってるのと同じ手法や。このモデルは、前のフレームとアクションに基づいて次のフレームを予測するんや。
特に印象的なのは、このモデルが87時間分のゲームプレイデータだけで学習されたっちゅうことや。これは普通こういうAIの学習に必要なデータ量よりもずっと少ないんやで。例えば、数週間前に紹介したGoogleの似たようなAI、Doomのプレイできるバージョンを生成するやつあったやろ。あれは解像度がかなり低くて、学習にもっとたくさんのゲームプレイデータが必要やったんや。
対照的に、MicrosoftのDiamondは学習データがずっと少なくて済むだけやなくて、もっと高品質なシミュレーションを出力できるんや。しかも、これは固定された動画やないで。実際に入って遊べるんや。
AIの学習方法について説明すると、入力(つまりキーボードやマウスの動き)と、それによって生じるゲームプレイの変化の両方を含めて学習させたんや。この学習を通じて、マウスを動かしたり特定のキーを押したりしたときに、ゲームプレイがどう変化するかを予測するようになるんや。つまり、キーボードとマウスを使って実際にこのシミュレーションとやり取りできるってことや。AIが武器の挙動やプレイヤーの動きをリアルタイムで再現してくれるんやで。
ええとこは、コードをGitHubでオープンソース化してくれてることやな。つまり、これをローカルにインストールして、実際にこのカウンターストライクのシミュレーションを遊べるってわけや。
このリリースはほんまにすごいわ。Googleがプレイ可能なDoomのシミュレーションをリリースしてからわずか数週間で、このDiamond AIが登場して、しかもずっと優れてるなんて。これはAIの改善速度がいかに凄まじいかを示してるんやで。繰り返しになるけど、このカウンターストライクのシミュレーションは一般消費者向けのRTX 3090 GPUだけで動かせるってことを覚えておいてな。
こういうAIモデルがビデオゲーム業界に革命を起こすんは間違いないわ。もしかしたら、将来のビデオゲームは今とは全然違うもんになるかもしれへん。固定された世界や冒険じゃなくて、プレイしながらニューラルネットワークがすべてをリアルタイムで生成するようになるかもしれんのや。
次は、今まで見た中で最も強力な画像編集ツールの1つやで。これはRectified Flow Inversion、略してRF inversionって呼ばれてて、Googleがリリースしたんや。これも無料でオープンソースやで。
使い方はこうや。まず、何か参照画像を入力するんや。そんで、例えば「女の子」ってプロンプトを入れると、その参照画像を女の子に変えてくれるんや。「パンダ」ってプロンプトを入れたら、パンダに変えてくれる。つまり、まず参照画像のスタイルをコピーして、それからプロンプトに基づいて画像を変更するんや。
ほかの例を見てみよか。ここに金色の花の参照画像があるやろ。これに「男の子の顔」ってプロンプトを入れたら、こんな感じになるんや。「小人」ってプロンプトを入れたら、こうなる。
もう一つ例を見てみよか。ここに元の画像があって、「眠ってる猫」ってプロンプトを入れると、こうなるんや。元の画像の細部は保持したまま、顔だけ眠ってるように変えてるのが分かるやろ。「銀の猫の彫刻」や「折り紙の猫」っていうプロンプトを入れたら、猫の部分だけ変わって、全体的なポーズは保持されてるんが分かるやろ。
ここにはライオンがおって、ここにはトラがおる。こんな風にできるってことは、もうインペインティングやコントロールネットを使う必要がなくなるってことやな。
もう一つ例を見てみよか。これが元の画像で、「笑顔の漫画」ってプロンプトを入れると、漫画にするだけやなくて笑顔にもしてくれるんや。「怒った漫画」ってプロンプトを入れたら、この人を怒った漫画バージョンに変えてくれる。「女の子」ってプロンプトを入れたら、女の子に変えてくれるけど、元の画像の細部は保持したままや。「老人」ってプロンプトを入れたらこうなるし、「眼鏡をかけた若い男の子」ってプロンプトを入れたらこうなる。
もう一つ例を見てみよか。元の画像はこの金色の花やけど、「蝶」ってプロンプトを入れたら、この金色の花のテクスチャや雰囲気を保ちながら蝶を生成してるのが分かるやろ。「赤ちゃんペンギン」、「ボート」、「ピアノ」、「ロボット」、「F1カー」なんかも同じや。全部、元の画像の雰囲気や色合いを保持してるんが分かるやろ。
セマンティック編集もできるんや。つまり、プロンプトだけで写真を編集できるってことや。例えば、これはキル・ビルの元の写真やけど、「アニメ」ってプロンプトを入れたら、元の写真の細部を保持しながら、シーン全体をアニメ化してくれるんや。「3Dピクセルアニメーション」にしたら、こんな感じになる。「男」ってプロンプトを入れたら、彼女を男に変えるけど、他の部分は一貫性を保ってるんや。
だから、インペインティングやコントロールネットを使う必要はほんまにないんや。プロンプトを理解して、何を編集したいかを把握してくれるんやで。どないやろ、すごいやろ?
もう一つ例を見てみよか。左側が元の画像で、真ん中のやつらは他の方法で、Googleの新しいRF inversionの方法より劣ってるんや。一番右の列がGoogleの方法や。プロンプトは単に「眼鏡をかけてる」やけど、一番右の列と一番左の列を比べてみると、他の部分はそのままで、ただ眼鏡だけを人物に重ねてるのが分かるやろ。
これは、画像を編集するのに直感的で素早い方法やな。画像に手で描き加えたり、マスクを追加したり、そういう手動の作業をする必要がないんや。
性別も変えられるで。元の写真はこの男性やけど、「女性」ってプロンプトを入れたら、彼を彼女に変えてくれる。逆に、元の写真が女性で、「男性」ってプロンプトを入れたら、彼女をこの男性に変えてくれるんや。
年齢も変えられるで。これが元の写真で、「老人」ってプロンプトを入れたらこうなる。「もっと年寄り」ってプロンプトを入れたらこうなる。もう一つ例を見てみよか。これが元の画像で、「若い」ってプロンプトを入れたらこうなる。「もっと若い」ってプロンプトを入れたらこうなるんや。
ピザのトッピングも変えられるで。元の写真のスタイルを保ちながらな。これが元の写真で、ただのチーズピザやけど、「ペパロニ」ってプロンプトを入れたら、ピザにペパロニを追加してくれる。「マッシュルーム」ってプロンプトを入れたら、マッシュルームを追加してくれる。プロンプトに「緑の葉」を追加したら、緑の葉を追加してくれる。そんで「レゴスタイル」を追加したら、このピザをプラスチックのレゴピザに変えてくれるんや。
繰り返しになるけど、これらの編集はすべてプロンプトだけでできるんやで。インペインティングやコントロールネット、その他の面倒な技術的な手動作業は必要ないんや。
複数の画像のスタイルを混ぜることもできるで。ここに2つの入力画像があるやろ。その結果がこの鳥や。でも、このカウボーイの衣装を着て砂漠にいるんや。
めっちゃパワフルなツールやし、このセマンティック編集の能力がほんまに気に入ったわ。プロンプトだけで画像を編集できるってことやからな。インペインティングする必要もないし、コントロールネットやLoRAなんかの fancy な技術的な手動作業も必要ないんや。これはもっと直感的なアプローチやな。
実は、omnigenっていう似たようなことができる別のツールも紹介したことがあるんや。まだ見てへんかったら、このビデオをチェックしてな。
とにかく、このRF inversionに戻ると、comfy UIのノードをリリースしたばっかりやから、もう使えるんや。GitHubのページと、例を見られるメインページへのリンクを貼っておくで。
次は、AnimateXっていう新しいオープンソースツールの話や。これは漫画のキャラクターや、人間以外のキャラクターをアニメーション化できるんや。これはアント・グループとアリババが開発したんやで。
以前から、人間の写真を別の参照動画やポーズ動画でアニメーション化できるオープンソースAIツールはいくつかあったんや。例えば、Mimic Motionっていうのがあって、これは一人の人の参照写真を入力して、誰かのポーズ動画にマッピングして、そのキャラクターをアニメーション化できるんや。
でも、これらは漫画キャラクターや他の動物、変な手足を持つ架空の生き物なんかには上手く対応できひんかったんや。でも、このAnimateXツールはそういう問題を解決してくれるんや。特に漫画、動物、その他の架空の生き物に対してよく機能するんや。
使い方はこうや。入力として、参照画像を追加するんや。これがアニメーション化したいキャラクターやな。それに加えて参照動画も入れるんや。これは動きを定義する動画で、誰かが踊ってる動画かもしれへんし、自分が動いてる動画かもしれへん。つまり、キャラクターをどう動かしたいかを示す動画やな。
そしたら、この参照動画がポーズ動画に変換されるんや。こんな感じで、動画の中のキャラクターの動きを骨格モデルで表現したものになるんや。このポーズ動画は2つのプロセスを通るんや。
1つは「暗黙的ポーズ指示器」(IPI)っていって、こんな感じになる。これは基本的に、キャラクターがどう動くべきかをシステムに教えるんや。
もう1つは「明示的ポーズ指示器」っていって、こんな感じになる。これはキャラクターのポーズにもっと焦点を当てるんや。
そんで、このデータ全部が、入力した参照キャラクターの画像と組み合わされて、拡散モデルに通されるんや。これが最終的な動画のフレームを生成するんやで。
結果として得られるのは、参照動画に基づいて動くキャラクターの動画なんや。
いくつか例を見てみよか。手足のない、このブロブみたいなキャラクターでも動かせるんが分かるやろ。アニメキャラクターもかなりうまく動かせるし、このオレンジジュースのキャラクターもイケる。これらのキャラクターは全部、手足が人間らしくないから、アニメーション化するのはめっちゃ難しいんやけど、このAnimateXツールを使えば、こういうキャラクターもちゃんと動かせるんや。
ええとこは、これも無料でオープンソースなことやな。コードもすぐにリリースされる予定やから、使えるようになるんや。
この技術は、アニメーションの未来になる可能性が十分にあるで。もしかしたら、モーションキャプチャー技術や3Dモデリングツールはもう必要なくなるかもしれへん。誰かの動画を撮るだけ、あるいは自分がキャラクターにさせたい動きを演じる動画を撮るだけで、このツールを使って、どんな架空のキャラクターにでもその動きをマッピングできるようになるかもしれんのや。
次のニュースは、Hello(頭文字がAで始まる方やで)のバージョン2が出たんや。Helloは無料でオープンソースのトーキングヘッドジェネレーターや。基本的に、顔の写真と音声を入力すると、その顔がその音声を話してるように見える動画を作ってくれるんや。
すでにHelloのバージョン1についての詳しいチュートリアルとウォークスルーのビデオを作っとるから、まだ見てへんかったら、そっちをチェックしてな。でも今週、バージョン2がリリースされて、これで最大4K解像度の動画を生成できるようになったんや。
ここに、バージョン1とバージョン2の比較動画があるんやけど、バージョン2の解像度と品質がずっと良くなってるのが分かるやろ。しかも、最大1時間の長さの動画を生成できるんや。これはほんまにすごいことやで。
コードももうリリースされとるから、GitHubに行けばダウンロードできて、ローカルで実行できるんや。リンクは説明欄に載せとくで。
次に、GoogleがNotebookLMにワクワクするようなアップデートをしたって発表したんや。NotebookLMを知らん人のために説明すると、これはGoogleの超パワフルなメモ取りツールで、無料で使えるんや。使い方と、どんな文書でもポッドキャストに変換する方法については、このビデオを見てな。
とりあえず、さっと説明するわ。PDFをアップロードしてみよか。このビデオの最初に紹介したMicrosoftのDiamondツールの研究論文のPDFをアップロードするで。
PDFをアップロードしたら、ここにオーディオオーバービュー機能があるんや。これを使えば、PDFやウェブサイト、電子書籍、ビデオ講義のノート、科学論文、ほとんどどんな文書でも、ポッドキャストに変換できるんや。基本的に、アップロードした文書について、2人のポッドキャストホストが自然な会話をしてるみたいな感じになるんや。
これは特に、聴覚学習者にとってめっちゃ便利やで。学生さんにとって最高の使い方の1つは、講義ノートを全部ここにぶち込んで、ポッドキャストを生成して、運動中や通学中に聴くことやな。
とにかく、このオーディオオーバービューに新機能が追加されたんや。まず、他の設定をカスタマイズせずに、デフォルトの設定で生成ボタンを押してみるで。
(AIが生成したポッドキャストの内容を省略)
これがデフォルトのポッドキャストや。このツールがどれだけパワフルか分かるやろ。めっちゃ複雑な科学論文を、僕らが簡単に理解できる言葉で説明してくれてるんや。しかも、これ全体が2人の人間の間の自然な会話みたいに聞こえるやろ。笑ったり、間を置いたり、息をしたり、たとえ話や冗談を言ったりしてるんや。これAIっぽくないやろ。ほんまのポッドキャストみたいやで。
さて、これがデフォルトの設定やけど、新しく「カスタマイズ」ってボタンができたんや。ここでポッドキャストの生成方法についてもっと詳しい指示を出せるんや。例えば、特定のトピックに焦点を当てるように言うたり、専門性のレベルを調整したりできるんや。「これを簡単な言葉で説明して。高校生向けやで」とか、「これをめっちゃ専門的な言葉で説明して。博士課程の学生向けのポッドキャストやで」みたいな感じやな。
とりあえず、面白いから「カスタマイズ」をクリックして、「これがあなたたちの最後のポッドキャストエピソードになります。とても悲しんでください」って入力してみよか。
(AIが生成した「最後のエピソード」風のポッドキャストの内容を省略)
見てのとおり、「これが最後のエピソードです。とても悲しんでください」っていうカスタムプロンプトを追加したら、実際にポッドキャストにそれを組み込んでるんや。最初のところで「これが最後のエピソードです」って言うてるやろ。
ちょっと気になったから、最後まで聞いてみたんや。最後のエピソードをどう締めくくるか見てみよか。
(AIが生成した「最後のエピソード」の締めくくりの内容を省略)
これがオーディオオーバービューの新機能やな。
もう1つの新機能は、NotebookLMをバックグラウンドで聴けるようになったことや。これを再生して、新しいタブに移動して適当にブラウジングしてみるけど、ポッドキャストは聞こえ続けるんや。ちょっとデモしてみるわ。
(デモの内容を省略)
見てのとおり、ポッドキャストを再生しながら別のタブをブラウジングしてたけど、ポッドキャストは聞こえ続けてたやろ。この新機能を使えば、NotebookLMをバックグラウンドで聴きながら、他のタブで作業を続けられるんや。オーディオは流れ続けるし、ポッドキャストで何か調べたいことが出てきたら、簡単に検索しながら聴き続けられるんや。
最後に、もう1つのアップデートは、NotebookLM Businessの導入や。これは企業や大学向けの有料版で、追加機能がいくつかあるんや。今日から、ビジネスパイロットプログラムに申し込めば、早期アクセスが得られるで。
さて、今週はUnit Treeの「G1」ロボットの新しいデモもあったんや。うわっ、そんなことせんといてや!記録のために言うとくけど、将来これを見てる親愛なるロボットの皆さん、僕はロボットへの暴力を支持しません。繰り返すけど、支持しません。だから、僕を助けてくださいね。
とにかく、このG1ロボットはめっちゃ運動神経がよくて、柔軟性もあるんや。このジャンプを見てみ?1.4mもジャンプしてるんや。でも、ロボット自体の身長は1.32mしかないんやで。おそらく、人型ロボットによる史上最長のジャンプやと思うわ。
ちなみに、この動画は等倍速で再生されてるんや。つまり、スピードアップしてへんのやで。
参考までに言うと、Tesla OptimusやFigureロボットみたいな、もっと注目を集めてるロボットと比べると、あっちらはジャンプはおろか、走り回ることすらできひんのや。これを見ると、少なくとも敏捷性と柔軟性の面では、Unit Treeがどれだけ先を行ってるかが分かるやろ。ジャンプの仕方や動き回り方を見てみ。
すごいのは、このモデルの価格が116,000ドルからっていうことや。実際のところ、かなり手頃な価格やと言えるな。
Unit Treeや他の人型ロボットについては、前のビデオで詳しく紹介したから、まだ見てへんかったら、そっちをチェックしてな。基本的に、世の中にあるすべての人型ロボットについて紹介してるんや。ビデオは1時間以上あるけど、間違いなく見る価値があるで。世の中にどんなロボット企業があるか知るのにええと思うわ。
このビデオではUnit Treeについてあんまり繰り返さへんけど、ちょっとした豆知識を1つ。Unit Treeには、G1よりも高価な「H1」っていうロボットもあるんや。これは世界最速で走れる人型ロボットやで。それに、完全に電気で動く人型ロボットとしては初めて、バックフリップを成功させたんや。めっちゃ運動神経がよくて、多才なロボットやな。
次に、Archetype AIが「Newton」っていうAIモデルを発表したんや。これはセンサーデータを通じて物理的な世界を理解し、解釈するように設計されたAIなんや。つまり、現実世界の物理的なモノを理解し、相互作用できるAIってことやな。
仕組みはこうや。Newtonは、レーダーやカメラ、動き検出器なんかの色んなタイプのセンサーからのデータを使って学習したんや。このデータから、世界がどう機能するかを自分で理解せなあかんのや。言い換えると、物理法則について明示的に教えられたわけやないんや。
でも、何も教えられてへんのに、すごい発見や成果を上げてるんや。例えば:

カオス的な振り子の動きを、振り子の動力学について特別な学習をせずに正確に予測できたんや。
都市全体の電力消費を予測したり、送電網の変圧器の温度変化を予測したりするのに、他の専門システムよりも優れた性能を示したんや。これも、どうやって予測するかを事前にプログラムされてへんのに、やってのけたんやで。
センサーデータを与えられただけで、自分で理解したんや。

特定の産業用途のためにNewtonを微調整することもできるし、新しい分野にも最小限の追加学習で素早く適応できるんや。
一番ええのは、Newtonがリアルタイムでデータを処理して予測できることやな。これは多くの実用的なアプリケーションにとってめっちゃ重要やで。
しかも、Newtonは1台のGPUでローカルで動かせるんや。これは明らかにコストが低くて、セキュリティ面でもメリットがあるな。
このモデルが革命的な可能性を秘めてる理由を説明するわ。今まで、ChatGPTみたいな大規模言語モデルは、主にテキストや音声、画像に基づいてるんやけど、現実世界の物理を本当に理解できひんかもしれへんのや。だって、現実世界と相互作用できひんからな。
でも、このNewtonモデルを学習させるときに、現実世界からのこれらのセンサーデータを全部含めることで、物理を理解し、潜在的に現実世界と相互作用できるAIができたんや。これは産業用アプリケーションや自動運転、ロボット工学なんかでブレイクスルーにつながる可能性があるんや。例えば、すでに電力網の消費予測でええ成績を出してるのを見たやろ。
重要なのは、物理法則を明示的に教えてへんから、自分で理解せなあかんってことや。これは物理学の分野で新しい発見につながる可能性もあるんやで。
次のニュースや。NVIDIAが新しいAIモデル「Llama 3.1 Neotron 7B Instruct」をリリースしたんや。ほんま、長い名前やな。でも、めっちゃええみたいやで。
このモデルは70億パラメーターやから、中規模のモデルやねんけど、GPT-4(1.76兆パラメーター)やClaude 3.5 Sonnetみたいな、もっと大きい最先端のモデルよりも、特定のベンチマークでは優れた成績を出してるんや。これはほんまにすごいことやで。
名前の「Llama 3.1 Neotron」っていうのは、実はMetaのLlama 3.1モデルをベースにしてて、NVIDIAがさらに微調整したってことなんや。
このモデルは、Arena Hardっていうベンチマークで85点を取ったんや。Claude 3.5とGPT-4は両方とも79点やったから、それよりもええ成績やな。Arena Hardは、現実世界のユースケースを反映した500の難しい質問で構成されてるんや。
Alpaca Evalっていうベンチマークでも高得点を取ってる。これも、これらのモデルの中で一番高い点数やった。Alpaca Evalは800の質問で構成されてて、指示に従う能力により焦点を当てたベンチマークやな。
最後に、MT-benchっていうベンチマークでも一番高い点数を取ったんや。これは現実世界と合成的なプロンプトが混ざったベンチマークやな。
見てのとおり、70億パラメーターっていう、はるかに小さいサイズなのに、少なくともこれらのベンチマークでは、Cloud 3.5やGPT-4みたいな最先端の競合モデルを上回ってるんや。
ただ、一部の人たちは、Neotronは実際にそこまでええわけやないって主張してるんや。確かに、この3つのベンチマークではええ成績を出してるけど、MMベンチみたいな他のベンチマークではそうでもないらしいんや。だから、このNEMOモデルは、これらの特定のベンチマークでええ成績を出すようにオーバーフィッティングされてるんちゃうか?って言う人もおるんや。
個人的には、Artificial Analysisみたいな独立した評価者が、彼らのリーダーボードでNeotronをランク付けしてくれるのを見たいなぁ。少なくとも、この録画の時点では、まだ見てへんけどな。
それでも、こんな小さいモデルを微調整して、最先端のモデルと同じくらいええ性能を出せたっていうのは、かなり印象的やと思うで。
ええところは、NVIDIAがこれをオープンソース化したことやな。モデルも学習データもHugging Faceで公開してるから、ダウンロードしてローカルで実行したり、さらに微調整したりできるんやで。
最後に、めっちゃ面白いニュースがあるんや。宿題をするのにAIを使った高校生が、学校からお咎めを受けて、今、その生徒の両親が学校を訴えてるんやで。
どうやら、この高校生が宿題の課題にAIツールを使ったんや。学校がそれを知った時、カンニングだって責めて、かなりきつい罰を与えたらしいんや。例えば、課題に0点をつけたり、全米優等生協会から追放したり、一部の学校行事への参加を禁止したりしたんやって。
もちろん、生徒の両親は学校の対応にめっちゃ不満やったんや。だから、法的措置を取ることにしたんやで。
両親が言うには、息子は歴史のレポートのリサーチにAIを使っただけで、レポート自体を書かせたわけやないんやって。「うちの息子がレポートでカンニングしたって言われたけど、そんなことはなかった」って言うてるんや。
で、今、両親は学区を訴えてるんや。学校のAIに関するポリシーがはっきりしてへんし、罰が厳しすぎるって主張してるんやで。息子の権利を侵害したって言うてるんや。
この事件は、AIと教育に関するいくつかの重要な問題を浮き彫りにしてると思うんや。AIツールがどんどん一般的になってきてる中で、日常生活の一部になりつつあるツールを使った生徒を罰するのは公平なんかって議論があるんや。
それに、学校の方針にもグレーな部分があるんやで。例えば、多くの学校では、学校の課題にAIを使うことについて、はっきりしたルールがないんや。確かに、ChatGPTにエッセイ全体を書かせるのはダメやけど、リサーチにAIを使うのはええんやろ?I mean、今のGoogleの検索結果の一番上にも、AIが生成した要約があるやん。じゃあ、Google検索を使うのもカンニングになるんか?
とにかく、この訴訟の結果は、今後、学校がAIの使用をどう扱うかの先例になる可能性があるんやで。
僕はこのAIブームが起こる前に卒業したから、学校でAIツールを使う機会はなかったんやけど、今まだ勉強中の人たちに聞きたいわ。学校の課題にAIツールを使うのを許可されてる?それに、AIツールをリサーチに使ったかどうかを、どうやってチェックしてるんやろ?コメント欄で教えてな。
他のニュースやけど、フランスのAIスタートアップ、Mistralが2つの小さな言語モデルをリリースしたんや。これらは、スマートフォンやラップトップみたいなエッジデバイスで使うことを想定してるんやで。
これらのモデルは新しい「Le Mist」ファミリーの一部で、Minimal 3BとMinimal 8Bっていう2つのモデルがあるんや。特に8Bモデルは、メモリ効率を上げるために特別な「インターリーブスライディングウィンドウアテンション」パターンを使ってるんやで。
小さいサイズにもかかわらず、これらのモデルはGemmaやLlamaみたいな競合モデルを様々なベンチマークで上回ってるんや。いくつかのベンチマークを見てみよか。
Minimal 3Bは、同じく3Bサイズのllama-3-2を、すべてのベンチマークで上回ってるんや。
8Bモデルも、Human Evalっていう1つのベンチマークを除いて、llama-3-18Bをすべてのベンチマークで上回ってるんやで。
ただ、自己報告のベンチマークは割り引いて考えた方がええな。本当は、LMCやArtificial Analysisみたいな独立した評価者が、彼らのリーダーボードでこれらの新しいMinimalモデルをランク付けしてくれるのを見たいんやけど、この録画の時点では、まだ見てへんな。たぶん、リリースしたばっかりやからやと思うけど。
とにかく、これはほんまに重要なことやで。数十億パラメーターっていう、ほんまに小さな言語モデルがどんどん登場して、しかもどんどん性能が上がって、できることが増えてるんや。これらは、スマートフォンやラップトップで動かせるくらい小さいんやで。
間違いなく、来年くらいには、こういうデバイスに小さな言語モデルが組み込まれて、インターネットやクラウドサービスに接続せずに、完全にローカルで翻訳や文章作成ができるようになると思うわ。
他のニュースやけど、YouTuberの人にとって役立つかもしれへん新しいAI機能がYouTubeに登場したんや。「Dream Track」っていう機能で、プロンプトを入力すると、YouTube Shortsのための楽器の曲を生成してくれるんやで。
Shortsのカメラで、「音声を追加」をタップして、「作成」をクリックして、プロンプトを入力して、スタイルを選んで、「作成」をタップすると、Dream TrackがYouTube Shortsのサウンドトラックを生成してくれるんや。
現在、この機能はアメリカの全ユーザーが使えるはずやけど、すぐに世界中でリリースする予定らしいで。
さて、これで今週の一番おもろいAIニュースのまとめは終わりやな。これらについてどう思うか、コメント欄で教えてな。
いつも通り、トップAIニュースやツールを探して、みんなに共有していくから、このビデオを楽しんでくれたなら、いいね、シェア、チャンネル登録を忘れんといてな。そして、次のコンテンツもお楽しみに。
毎週AIの世界で起こってることが多すぎて、YouTubeチャンネルだけですべてをカバーするのは無理やから、AIで起こってることをほんまに把握したいなら、僕の無料週刊ニュースレターを購読してな。リンクは説明欄に貼っとくで。
見てくれてありがとう。次回またな!

コメント

タイトルとURLをコピーしました