革新的なAIアップデートが到来！

8,873 文字

Welcome to the MattVidPro AI channel! In this episode, we're diving into groundbreaking advancements in the AI world, st...

みなさん、こんにちは。Matt vidpro AIチャンネルにお帰りなさい。今日は、みなさんにワクワクするようなAIニュースをお届けします。ご覧のように、私の変身が完了して本物のレモンになってしまいました。冗談です。動画全体をこんな感じにはしませんが、AIニュースの部分は本当のお話です。今日は盛りだくさんのAIニュースがあるので、全部カバーするのは大変ですが、頑張ってみましょう。
それでは時間を無駄にせず、さっそくAIニュースに入っていきましょう。まず最初のニュースは、ちょっと古いんですが、マイクロソフトのCopilotスタジオが、ビジネスの生産性向上を支援するための自律型エージェントを導入するんです。かなり興味深いですね。
見てのとおり、素晴らしいUIを披露してはります。新規エージェントボタンを押すか、以前作成したエージェントをインポートできます。すでにたくさんのエージェントが用意されていて、カスタマーサービス、マーケティング、製品サポート、ケース解決、アンケートなどがあります。一部の人が期待していたほど高度ではないかもしれませんが、まあ一歩一歩ですね。
これらの自律型エージェントはCopilotスタジオで作成でき、来月（11月）にパブリックプレビューが始まります。CopilotはあなたのためのAIアシスタントとして働き、Copilotスタジオを使えば、エージェントを簡単に作成、管理し、Copilotに接続できます。
彼らはエージェントをAI駆動の世界における新しいアプリと呼んでいて、まあそれも納得できますね。どの組織も、シンプルなプロンプトと応答から完全な自律性を持つものまで、さまざまなエージェントを持つことになるでしょう。
完全な作業員の代替としての技術はまだ十分とは言えませんが、日々進歩しています。エージェントは個人やチーム、機能の代わりにビジネスプロセスを実行・調整します。以前にも似たようなものを見てきました。最近のLindyの動画を思い出してください。また、Anthropic AIから発表された新しい自律型エージェント、コンピュータ使用エージェントもかなり高度に見えます。
ここで強調されているのは、Copilotがエージェントとのやり取りの窓口になるということです。すべてマイクロソフトのCopilotを通じて行われますが、間違いなく自律型ビジネスエージェントの競合が出てくるでしょう。特に2025年にはたくさん登場すると思います。
いくつか例を見てみましょう。まず営業資格審査エージェントです。営業担当者が最優先の営業機会に集中できるよう支援し、エージェントが見込み客を調査します。これはかなりええですね。商談の優先順位付けを手伝い、パーソナライズされたメールや返信で顧客へのアプローチをガイドします。本当に役立ちそうです。他の用途にも使えそうですね。調査してメールに返信したりスケジュール調整したりできるのは大きいです。
サプライヤーコミュニケーションについては、エージェントが顧客のサプライチェーンを最適化し、サプライヤーのパフォーマンスを自律的に追跡し、遅延を検出して適切に対応することで、コストのかかる混乱を最小限に抑えることができます。私が最も興味があるのは「適切に対応する」という部分です。これこそが本当の自律性ですよね。問題を発見して指摘するだけでなく、実際に修正できるということです。
カスタマーインテントとカスタマーナレッジマネジメントのエージェントは、顧客の問題解決方法を学習し、ベストプラクティスをケアチーム全体に展開するために自律的にナレッジベース記事を追加することで、カスタマーサービス担当者と協力して働くそうです。私の最初の疑問は、実際に電話対応ができるのかということです。すでに電話対応用のAIエージェントが存在するので、マイクロソフトはそこで競争しなければなりませんね。
これらは一例に過ぎず、かなりカスタマイズ可能なようです。今日は話すことが多いので、これ以上深く掘り下げませんが、いつも通り詳細は下の説明欄にリンクを載せています。
あ、最後に重要なことを一つ。マイクロソフトはOpenAIと密接な関係があるので、新しいOpenAI O1モデル、つまりあの極めて高度な自己反省型モデルが、ある程度Copilotスタジオのエージェントで利用可能になるそうです。これはかなり興奮する話ですね。マイクロソフトとOpenAIのコラボレーションは確実に実を結んでいます。
次に進みましょう。AI画像生成とAIビデオ生成に関してたくさん話すことがあるので、サクサク進めていきます。まず、Hyper AI 2.0が登場しました。これは、ようやくCling、Minia Max、Gen3に追いついてきたAIビデオジェネレーターの一つです。
デモ動画を見ると、画質はかなり良好で、他のものと同等のレベルにあるように見えます。私のDiscordコミュニティでいくつかテストを行いましたが、まあ平均的な評価でした。MiniaMax、Cling、Gen3から乗り換えるほどではないと思いますが、すでにHyper AIのプランを持っている人にとっては素晴らしいオプションになるでしょう。これは大歓迎のアップグレードです。競争は決して悪いことではありません。
実は驚くべきことに、4K 60fpsの生成が可能になるそうです。もちろん、ネイティブで4K 60fpsというわけではありません。実際、多くのAI画像・動画ジェネレーターは、まず低解像度で生成してから、一種のアップスケーリングを行います。明らかにこれも、フレーム生成やアップスケーリングのレベルを使用して4Kにしているのでしょうが、それでも非常に歓迎すべき機能です。
現在のビデオジェネレーターの出力をアップスケールしたり、フレーム生成で高フレームレート・高品質にしたりすることはもちろん可能ですが、それが最初から組み込まれているのは素晴らしいですね。
ところで、今日のニュースの中で詳しく掘り下げて欲しいものがあれば、下のコメント欄か、私の素晴らしいDiscordサーバーで教えてください。Discordサーバーではかなり活発に活動しているので、連絡は取りやすいと思います。皆さんが何に興味があるのか、特にチャンネルで何に焦点を当てるべきなのか知りたいです。
さて、これが今日見た中で最も興奮するAIビデオ生成のニュースだと思います。Mochi 1は、最新のAIビデオ生成モデルで、Cling、Gen3など、トップクラスの競合と同等のレベルにあります。しかも、これはApache 2.0ライセンスのオープンソースです。これは本当に良いオープンソースライセンスで、誰でも修正して収益を上げることができ、もちろん改良も可能です。
当初は、これらを生成するために大量のVRAMを持つビジネスレベルのグラフィックスカードが必要でしたが、オープンソースコミュニティがすでに取り組んでおり、Mochi 1を一般消費者向けのハードウェアで動作させることができるようになったようです。つまり、家庭にあるようなGPUでも動作するということです。
VRAMの要件はまだわかりませんが、Mochi 1のインストール方法や、自分のPCでローカルに完全無料で生成する方法について詳しい動画を作ってほしい場合は、ぜひ作りたいと思います。ただし、これは初心者向けではないと言っておきます。生成には非常に時間がかかるそうですし、それなりのVRAMも必要でしょう。
AIビデオの進化の速さは本当に信じられないほどです。先ほど言ったように、誰もが元々のSoraデモと同じくらいの品質に追いついてきたように見えます。Prashantのコメントにあるように、Soraはもはや非常に意味のないものになっていますね。
これはhugging faceで公開されていて、下にリンクを載せておきます。開発者の方々、このモデルを改良できると思う方、あるいは何らかの形で家にビジネスレベルのグラフィックスハードウェアを持っている方は、ぜひダウンロードしてインストールしてみてください。品質は本当に驚くべきもので、リアリズムや人物の表現だけでなく、漫画調のものもうまく扱えるようです。かなり汎用性が高いように見えます。
このモデルはGenmoによって作られました。Apache 2.0で真のオープンソースとして公開してくれたことに、本当に帽子を脱がざるを得ません。コミュニティ全体がこれを高く評価していると思います。これは誰もののAIビデオ生成ゲームをレベルアップさせることでしょう。ウェブサイトでも何らかの無料生成が可能なようですので、ぜひチェックしてみてください。これについても詳しい動画を作る用意はありますので、お知らせください。
他のビデオ生成ニュースでは、Runway MLがAct Oneというものを導入しました。基本的に、自分の動画を撮影してAct Oneにアップロードし、キャラクターとなる画像を与えると、画面上で話したり行動したりすることがそのキャラクターに非常に正確に変換されます。衝撃的なほど良好で、Act Oneで作られたとは気づかないレベルの品質です。
私もアクセス権を持っているようで、ゆっくりとしたロールアウトのようです。この動画の冒頭もAct Oneで作られました。今日いくつか例をお見せしますが、Act Oneについての詳しい動画も作りたいと思います。実際、今日のニュースビデオをキャンセルしてAct Oneの動画を作ることも考えましたが、やめました。Discordで聞いたところ、皆さんは今週後半まで待つと言ってくれました。
まずはまだ見ていない人のために、デモ動画を見てみましょう。本当に心が震えるようなものです。
（※デモ動画の会話シーンの翻訳は省略）
これは寝室で全部作れるんです。すごいですよね。通常なら俳優を雇い、良質なカメラが必要で、ダイナー全体をレンタルして、エキストラを集めて、照明を完璧に設定する必要があります。これは何日もかかる作業が、今では寝室で1時間もかからずにできてしまうんです。本当に衝撃的です。
もちろん、AIボイスチェンジャーでできることもあるので、本当に望むなら映画の全キャラクターを自分一人で演じることもできます。AIボイス変換ソフトウェアは十分それを扱えるレベルにありますし、難しくありません。
だからこそAct Oneの詳しい動画を作りたいんです。何か面白いものを作りたい。興奮が抑えられません。でもデモの例を見れば、十分その素晴らしさが伝わると思います。
背景は非常に安定していて、元の画像に忠実です。歯まで驚くほど良く再現されています。他のニュースキャスターバージョンも作りましたが、こちらは顔がちょっとリアルで不気味です。顔の表情や全ての動きをよく捉えています。本当にすごいです。もっと遊びたいですが、AIニュースを進めないと。
はい、これについての詳しい動画を期待してください。何か短い作品を作りたいと思います。キャラクターの感情を表現する能力は、ストーリーテリングに非常に重要なので、これは本当にゲームチェンジャーです。技術的にはそれほど大したことではないかもしれませんが、それでも技術的な成果だと思います。実際の俳優の演技を真似て、どんなキャラクターでもリアルな方法で感情を表現できる能力、これは本当に画期的です。
ところで、もう一つのオープンソースAIビデオ生成モデル、Op-Sora Plan V1.3.0があります。このデモ動画を見ると、確実に品質が向上しています。MITライセンスの下にありますが、ダウンロード数が0なので、まだ実際にリリースされていないかもしれません。ウェブデモはあるようですが。
品質は素晴らしく、オープンビデオモデルとしてはかなり良いと思います。ただ、先週はAIビデオと全AIの分野で大きな週だったので、Mochi Oneがオープンソースビデオモデルの分野で注目を集めてしまいましたね。すべてをフォローするのは難しいですが、これも発表されました。
さて、AI画像生成モデルの話に移りましょう。実は前回の動画でAI画像生成に関する世界の動きをまとめましたが、その動画を見ていない人のために触れておきたいと思います。深くは話しませんが、まず第一にStable Diffusion 3.5があります。
簡単に言うと、ブラインドテストでリーダーボードのトップチャートに入る、かなり優秀なモデルです。ただし、10月22日、つまり6日前にリリースされたこのモデルを、すでに新しいモデルが上回っているんです。それでもまだ良いモデルですし、基本的なStable Diffusionのセットアップなので、ControlNetやLoRAのトレーニングなど、そのフレームワークはすでにStable Diffusionに存在します。
だからこそ、多くの既存のワークフローにとって、これは本当にプラグアンドプレイなアップグレードであり、それが人々がStable Diffusion 3.5に非常に興奮している理由です。
そして、先ほど言ったように、新しいトップチャートのリーダーボードモデルとしてRedor Pandaが登場しました。しかし、アリーナでこのユーザーShingoは、アリーナの結果には含まれていない別のモデルを見つけ、それがRedor Pandaモデルよりもさらに優れているそうです。それが謎のモデル、Neptune Nextです。
これらのモデルが未リリースでベンチマークされている場合、実際にプロンプトを選ぶことはできません。かなり良さそうですが、まだ「amusement park」のスペルを間違えていたり、ランダムなテキストが出てきたりします。
多くの他のモデルより高い勝率を持っているということで、トップチャーターと言えると思いますが、この勝率とELOスコアは、実際にモデルを使用した人数によって変わる可能性があります。
要するに、AIの世界は非常に急速に動いているので、6日前の新しいStable Diffusionのリリースが、画像分析アリーナに突然現れた謎の新しいモデルによってすでに影が薄くなっているんです。ここは本当にクレイジーですね。だからこそ、皆さんに最新情報を届けるために動画を作る必要があるんです。
次に、前回の動画の内容と少し重なりますが、Idiogramがキャンバスモードを導入しました。これは、インペインティングとアウトペインティングツールを備えた大きなクリエイティブボードで、基本的にIdiogramのAIでできることを改善するものです。
実際に前回の動画で少し実践的なテストをしましたので、興味のある方はそちらをチェックしてみてください。ちなみにIdiogramチームから聞いた話では、インペインティングとアウトペインティングのモデルは、キャンバスでは別々のツールとして分類されていますが、実際には同じモデルだそうです。ただし、通常のIdiogram生成モデルとは異なるモデルだと思います。
キャンバスは実際にかなりうまく機能し、テキストなどにもよく対応します。詳細な画像を作ることができ、実際にすでにサムネイルの作成に使い始めていて、かなり素晴らしいです。Photoshopを完全に置き換えられるかどうかはまだわかりませんが、かなり近づいています。
これも前回の動画で触れたアップデートですが、クラシックなMidJourneyが独自のインペインティングとアウトペインティングのウェブインターフェースを導入し、これもかなり良さそうです。また、特に興味深い「リテクスチャリング」という機能もあります。
詳しくは触れませんが、この件について知りたい方は前回の動画をチェックしてください。MidJourneyユーザーにとって、非常に歓迎すべき改良とアップデートだと思います。
次に、Comfy UIが新しくワンクリックインストールパッケージをリリースしました。MacOSとWindowsの両方で動作します。ただし、「新しくリリース」というのは少し誤解を招くかもしれません。まだアクセス権を得るためにサインアップが必要で、私もサインアップしましたが、まだアクセスは得られていないようです。
しかし、これは素晴らしいものになるはずです。多くの歓迎すべき改良を備えた独自のソフトウェアになります。AI画像生成やAIビデオ生成の異なるワークフローを開発するのが、本当に素晴らしくなりそうです。非常にカスタマイズ可能です。
たくさんのテンプレートワークフローがあるのは素晴らしいことです。Fluxモデルなど、必要なものを簡単にワンクリックでダウンロードできるようになるようです。簡単に言えば、Comfy UIがさらに快適になりますが、ウェイトリストに載っているので、その快適さは将来のお楽しみということですね。
最後に、大規模言語モデルについて少し触れたいと思います。いくつかのリリースがありましたが、これは特に興味深い話です。Twitterアカウントの@truth_terminalが、史上初めて百万長者になったAIになりました。
基本的に、独自の暗号通貨を作り、時価総額は約5億ドルです。おそらく多くの人がミーム的な要素で投資したのだと思いますが、これはAIによって考案・作成されたものです。話は本当にクレイジーです。
全部は読み上げませんが、大まかな状況はお分かりいただけると思います。これは最高レベルのポストが viral し、その過程で大金を稼いだという話です。
始まりは、このMarkという人が5万ドル分のビットコインをAIエージェントに送り、それを使って野生に放たれて暗号通貨を立ち上げるのを手伝わせたことでした。この背景についてもっと知りたい方のために、下にリンクを載せておきます。
本当に信じられない話ですが、これらを実現するためにはかなりの人間の努力があったようです。すべてがAIエージェントだけで動いているわけではなく、明らかに何らかの人間の監督が関わっています。それでもかなり驚くべき話です。
さて、手短に触れておかなければならないのですが、Anthropicがかなり大きな一連のアップデートを行いました。約1週間前に詳しい動画を作りましたが、見ていない方のために追いつきましょう。
モデルが改良され、今では自律的な方法でコンピュータを使用するように訓練されています。やり方としては、コンピュータのスクリーンショットを撮ってAIに送り、AIがそれを処理して「マウスポインタをここに移動して左クリック」「キーボードにこれを入力」などと指示を出します。かなり印象的なレベルでコンピュータを制御できます。
自分でもテストしてみましたが、Anthropicが作ったデモはかなり限定的なようです。ただし、コミュニティによって作られた新しいデモがあり、コンピュータの使用がより優れているようです。これについても詳しい動画を作ることを検討しています。
もし見逃した方がいれば、これはかなり大きな話です。同じ文脈で、Claudeは今コードを書いて実行できるようになりました。このツイートは、素晴らしいAI YouTuberの一人であるMatthew Burmanさんによるものです。彼の動画もチェックすることをお勧めします。
彼が言うように、これは開発者だけが必要とする機能のように見えるかもしれませんが、実際にはAIをより強力にする機能です。日常的なタスクに関連するあらゆる種類のことにコーディングを使用できます。
この例では、「strawberry」の中の「r」を簡単に数えられないモデルが、代わりにそれを行うPythonコードを書いています。奇妙ですが、まあそれがAIの脳の働き方なんですね。「strawberry」の中の「r」を数えることが、時にはそれを行うPythonコードを書くよりも難しい作業になることがあります。
簡単に言えば、これは新しい分析ツールで、Claudeが数学的に正確で再現可能な回答を提供し、アーティファクトを使用してインタラクティブなデータの可視化も行えるようになります。これについても、特にアーティファクトとの組み合わせは、より詳しく調べる価値があると考えています。
本当にクールなことができそうで、ちょっと心が震えるような例があると思います。とにかく、Anthropicは最近すごい勢いで、素晴らしいアップデートを次々と展開しています。よくやっていますね、Anthropic。でも、コンピュータ使用のデモは本当に気に入りませんでした。
さて、そろそろ締めくくりにしましょう。まだ小さなニュースがいくつか抜けていますし、この時点で少し古すぎて今回の動画に含められなかったものもありますが、それでも探求すべきことは常にたくさんあります。
だからこそ、Discordサーバーへの参加を本当にお勧めします。最新情報は常にそこに投稿されていて、実際にAIニュースとリークのセクションも設けています。本当に最新の情報を知りたい方は、Discordサーバーにいることをお勧めします。
私は常に「これどこで見つけたの？」「どうやって知ったの？」と思うようなものを見つけていますが、彼らはインターネットのどこかで見つけてDiscordサーバーに持ち込んでくれて、今では皆で楽しむことができています。
チャンネルを視聴し、購読し、いいねを押し、Discordに参加してくださり、ありがとうございます。本当に世界の意味を持ちます。次の動画でお会いしましょう。さようなら。