今日のトップAI発見: 最新の研究成果が明らかに

6,651 文字

おはようさんどす、コミュニティのみなさん。最新のAI研究論文の発表やで。月曜の朝からLLMの話題やけど、まだ計画立案はあかんみたいやな。でも大規模な推論モデルならどないやろ？ open1の研究を見てみよか。
アリゾナ州立大学の研究グループが言うてはんのは、複数の行動を論理的に整合性取れるように組み立てて、タスクの結果を出すっちゅう計画立案能力、これがAIの得意分野やと思われてたけど、実際はちゃうねんて。
いろんなテストをしてみたけど、最先端のLLMでも計画立案はまだあかんらしいわ。それに、前に言われてた「ワンショットプロンプティング」が「ゼロショットプロンプティング」より優れてるっちゅうのも、必ずしもそうやないみたいやね。
多くのLLMでは、ワンショットの例を与えると逆に結果が悪くなるらしいわ。だからゼロショットの方がええみたいやね。特にLlamaファミリーのモデルではそうみたいやで。
ほな、公式の結果を見てみよか。横軸はAIが立案できる計画の長さで、縦軸は正確さやね。見てみ、ここに100%の完璧な結果があるやろ。これはFast Downwardっちゅうシステムの結果や。これについてはあとで説明するわ。
ほんで、ここに従来のLLMの性能があるんやけど、青い線がOpenAI O1プレビュー版で、赤い線がO1ミニやねん。これらが長期的な計画立案、因果推論、論理的推論なんかでは最高のモデルになってるわけや。他のLlamaなんかのLLMは、ここらへんでほぼゼロに近いんよ。
なかなか面白い情報やけど、ひょっとしたら「Fast Downwardって何や？」って思うてはるかもしれへんな。私も調べてみたんやけど、2011年9月にMalte Helmertさんが書いた論文で出てきたんや。これ、2006年からある古典的な計画システムで、ヒューリスティック探索をベースにしてんねん。
めっちゃ興味深い論文で、このモデルの仕組みについて詳しく説明してあんねん。もちろん2006年やから、AIモデルちゃうけど、他の種類の論理にアクセスできる力を見せてくれてるわ。古典的なモデルやけど、すごいパワーがあるんやな。
でも、AIモデルを使いたいなら、長期的な計画立案や複雑なタスクの先読みには、O1ミニと他のLLMを見てみるのがええかもしれへんな。
次の論文いこか。これはマイクロソフトアジア、EIIモナー大学、ファン大学の共同研究やね。「ガイドラインだけを使って、フューショットプロンプトを避けられへんか？」っちゅう研究や。
知ってはるやろけど、プロンプトエンジニアリングではフューショットの方法論とか、フューショットのチェーンとかあるやん。でも、ここではもっと明示的に「これがガイドラインや」って言うてるんや。モデルに「以下のガイドラインに沿って推論せえ」って指示するわけや。
もちろん、タスクに特化した知識も必要やけどな。で、ここで面白いのは、データセットからタスク特有のガイドラインを自動的に学習するフレームワークを提案してるんや。
これええやん。データセットを入れるだけで、システムがドメイン特有の知識とタスク特有のガイドラインを理解して、AIエージェントがガイドラインを作り出すんや。
仕組みはこうや。まず、フィードバックエージェントが各質問と回答の結果を評価して、より効率的な最適化戦略を導くための洞察を集めんねん。
次に、ガイドラインエージェントが各フィードバックからガイドラインを導き出して、ローカルメモリに保存すんねん。
最後に、ツリーガードエージェントが全てのガイドラインを階層的に集約して、グローバルな視点から重複のないガイドラインを得るんや。
そうやって、新しいガイドラインができあがんねん。自動的にプロンプトを改善する仕組みも含まれてるで。興味あったら見てみてな。
次の論文に行こか。これはLLMの話や。古いデータ、正しくないデータをどうやって忘れさせるか、っちゅう研究やね。プリトレーニングデータやファインチューニングデータに含まれてた古い情報を、AIシステムやAIエージェントから洗い流すにはどうしたらええんやろ？
ニューヨーク大学とCapital 1の研究やけど、Llama 27bっちゅう古いモデルで実験してんで。結果はなかなかええみたいや。アンラーニングデータセットでは、かなりの忘却が見られたらしいわ。古い時代遅れの情報をアンラーニングする最初の方法かもしれへんな。
さて、次はちょっと難しい話になるで。「量子コネルのUnetにおける特徴埋め込み配置の影響」やて。量子埋め込みコネル、量子機械学習、トークン相関アライメントの量子物理学の話や。このチャンネルの次の企画、量子AIの準備やね。
でも、次はもっと現実的な話に戻ろか。ジョージア工科大学、カリフォルニア大学バークレー校、IBMリサーチの共同研究や。より効率的なニューロシンボリックAIの話やで。
現在のアーキテクチャを最適化できへんかって考えたんや。結果、最適化できる部分がようけあったみたいやで。人間のような認知AIを目指すニューロシンボリックAIアルゴリズムの相互作用を見てんねん。
CPU、GPU、アクセラレータのレイヤー最適化、ベクトルシンボリックアーキテクチャの協調設計なんかを調べてんで。
最近のニューロシンボリックシステムは、推論と認知能力を持つ人間とAIの協調シナリオで大きな可能性を示してるんやけど、彼らはニューロシンボリックAIのワークロード特性と潜在的なアーキテクチャを理解しようとしてんねん。
アルゴリズムを体系的に分類して、実験的に評価・分析してんで。実行時間、メモリ、計算演算子、スパース性、システム特性（CPUやGPUとか）の観点から見てんねん。
研究の結果、ニューロシンボリックモデルは既製のハードウェアでは非効率やってことがわかったんや。ベクトルシンボリックや論理演算のメモリ依存性、複雑なフロー制御、データ依存性、正規化のばらつき、限られたスケーラビリティが原因やて。
つまり、もっと良いニューロシンボリックAIを作るには、システム全体をもっと最適化せなあかんってことやな。IBMリサーチもやってるし、なかなか興味深い研究やで。
次はおもろい研究やで。マルチエージェントシステムにおける協調的レジリエンスの定義についてや。単一のシステムやなくて、マルチエージェントシステムの話やねん。
各エージェントにストレスをかけたら、システムはどう反応するんやろ？スケーラビリティはどうなる？ワークロードを増やしたり、いろいろ変えたりしたら、システムの堅牢性はどうなるんやろ？
単一のエージェントと、マルチエージェントで構成されたシステムでは、どう違うんやろ？まず、マルチエージェントシステムにおける協調的レジリエンスの明確な定義を提案せなあかんて言うてんねん。
それから1つか2つのテストをして、それを調べるんや。面白いアイデアやで。単純なところから始めて、マルチステージで協調的レジリエンスを測定する方法論を図解してんねん。
システムにストレスをかけたときの、エージェント間の相互作用や複雑さを理解しようとしてんねん。ほんまに素晴らしい研究や。
驚いたんは、これがコロンビアのロス・アンデス大学の研究やってことや。あっちの同僚の皆さん、こんにちは！素晴らしい研究を見せてもらってありがとうな！
AIは誰にとっても価値があるもんやないとあかんな。医療タスクの例を見てみよか。例えば、糖尿病の症状があるとしよか。昔からの疑問やけど、特定の医療条件に対してリアルタイムで分析するのに、適応型LLMモデルを使えへんやろか？
ええとこは、糖尿病専用のLLMを開発してんねん。何をしたんか詳しく説明してて、全部調べてんで。しかも、コードも公開してんねん。元のコードへのリンクもあるし、モデルも見られるんや。
医療タスクに対するAIの実装を目指す動きがあるんや。医療条件のある人全員の役に立つかもしれへんな。もちろん、MAAも黙ってられへんわな。
MAAは「うちのFacebookのお客さんやWhatsAppのクライアントに何か提供せなあかん」って考えてるんやろな。そこで、画像生成の改良に取り組んでんねん。
拡散モデルに新しいアイデアを持ち込んで、現在の限界に挑戦してんで。彼らのプラットフォーム用に、新しい合成ペアデータ生成メカニズムを作ってんねん。
3つのテキストエンコーダーと完全に学習可能なビジョンエンコーダーを持つ、完全並列のアテンションアーキテクチャを使って、テキストの忠実度を向上させてんねん。
結果を見てみ。1、2、3、4人の美しい人物がおるやろ。メタを使えば、自分の夢を生きられるんや。自分をこんな風に想像できるんや。宇宙飛行士や海賊になれるんやで。
あなたの自我が夢見るものなら何でも、メタのプラットフォームに行けば、あなたの自我のためにメタが用意してくれるんや。そうすれば、彼らのプラットフォームでもっと時間を過ごすようになるやろ。MAAがこの研究をしてる理由がわかるやろ？
でも、科学的な話に戻ろか。人間の個性をどう導くかって話やねん。顔の操作に対抗するための普遍的なフレームワークやて。ディープラーニングベースの顔操作の悪用が市民の権利を脅かしてるって言うてんねん。
メタの話の次にこの研究が出てくるのは偶然やろか？わからへんけど、たまたまそうなっただけやろな。彼らは研究と方法論を持ってきて、「インターネット上のディープフェイクや顔の操作と戦いたい」って言うてんねん。
「あなたの個性を守りたい」んやて。マルチタスク学習の話やけど、特定のモデルも開発してんで。興味あったら、両方の側面を見てみるのもええかもしれへんな。
学習の話が出たついでに、これも見逃せへんで。2024年9月20日の研究やけど、「アダット更新変換を使ったより計算効率の良いファインチューニング方法論」やて。
「もちろんわかるで」って思うかもしれへんけど、今までの既存のパス方法論を覚えてる？低ランク適応、ローラーモジュール、ほとんど一貫して使ってたローラーアダプターのことやで。
増分更新を使ってたの覚えてるやろ？パスとローラーについては3つのビデオで説明したけど、今回は新しい数学的演算を持ってきてんねん。
ローラーのような多くのパス手法は増分更新を使うんやけど、これは学習した重み行列の増分を元のパラメータに加えるもんやった。でも、これらの方法には限界があるんやて。より複雑なパラメータのダイナミクスを捉えるのに限界があるし、元のパラメータと更新されたパラメータの間の強い相関を維持できへんのやて。
これらの課題を克服するために、直接更新変換パラダイムを提案してんねん。これは元のパラメータから更新されたパラメータへの変換を直接構築するんや。
めっちゃ興味深いわ。アダット行列、アダット更新変換方法論を使ってんねん。ちょっと論文をざっと見てみたけど、これは午後にじっくり読む価値があるな。
ほんま、月曜の朝から新しいAI研究論文が出てきて、ええ気分やわ。
次は「工場全体のダイナミックスケジューリングのためのスケーラブルなマルチエージェント強化学習」やて。何の話かと思ったら、インテル社の研究やったわ。なるほどな。
工場でのダイナミックスケジューリング、つまり生産施設で起こる100とか1000のタスクを最適化したいんやろな。「難しいタスクがあっても拡張できるマルチエージェント強化学習の方法論はあるんか？」って聞いてんねん。
インテルはここでリーダーフォロワー型のマルチエージェント強化学習を適用してんねん。MALの概念、知ってるやろ？興味があったら、MALについての5つのビデオを検索してみてな。
スケジューリングの問題を個々のエージェントが扱うサブ問題のセットに分解して、望ましい調整を得ようとしてんねん。スケーラビリティのためやて。
また昔ながらの考え方やな。複雑なタスクがあったら、それを小さなサブ問題に分割して、各サブ問題を特定のエージェントに割り当てるんや。そのエージェントがそのサブ問題について訓練されてることを期待して。
そして、全ての部分を一緒にすれば解決策が見つかるって考えてんねん。複雑さの中には、単純な問題に分割できないものもあるってことを完全に誤解してるんやけどな。
でも、まあ、インテルの工場全体のダイナミックスケジューリング最適化を手伝う立場やないからな。新しいことを学びたいから、次に行こか。
チェーンバディの話や。これで最後やから心配せんでええで。LLMを使うときにパイプラインを生成するのを助けてくれるAIエージェントシステムやねん。
みんな経験あるやろ。真っ白な紙の前に座って、LLMのデータパイプライン、入力パイプライン、推論パイプライン、複雑性パイプラインをどう構築したらええんかわからへん時。これがそれを助けてくれんねん。
モントリオール大学がやってくれたんや。ありがとうな！
これはチェーンフォージっちゅう、プロンプトエンジニアリングのためのオープンソースのビジュアルプログラミング環境を使ってんねん。すごいやろ。
ワークフロー記述を見てみ。Pythonの評価機とPython環境もあるんやで。すぐにわかるやろ。バックグラウンドに計算能力があるってことやな。
見せたいのはこれや。複数のエージェントがおるんやけど、最初のエージェントは要件収集アシスタントやねん。システムが「ええで、あんたは真っ白な紙の前に座ってるんやな。で、何がしたいんや？」って聞いてくるんや。
「あんたの主な目的は何や？」って聞いて、ユーザーの目的を理解したら、「ほな、必要な要件のリストはこれやな。いくつエージェントを作ればええんか、どれくらい複雑なエージェントが必要か」ってわかるんやて。
「あんたの好みは？Rustで行きたい？Pythonがええ？TensorFlowとかPyTorchとか、何が要るんや？」って聞いてくるんや。
それから、チェーンオブソート戦略の提案もしてくれんねん。でも、ちょっと待ってな。次のビデオで話すけど、チェーンオブソートが最適な戦略やないかもしれへんで。
まあ、それはそれとして、これが要件収集アシスタントや。「ユーザーさん、あんた何を作って欲しいんや？」って探ってくるんや。「何でも作ったるで。パイプラインを作るためのデータが何千何万とあるんやから」ってな具合や。
これとやり取りして、AIがユーザーの要求を理解したら、次はプランナーエージェントの出番や。プランナーエージェントはタスク特化型エージェント、ノウデータ、コネクションデータ、マージデータを理解して、計画を立てんねん。
今日の最初の論文を覚えてるか？計画立案プロセス、論理的な順序で何のアクションを取るべきか、タスクの解決策に到達するにはどうすればええかって話をしたやろ。
この新しい研究は、LLMシステムやマルチエージェントLLMシステムを構築するためのプランナーの最適化方法を示してんねん。そして、これらはマルチエージェントシステムによって構築されてるんや。美しいサイクルやな。
彼らは素晴らしい研究をしてて、もっと情報が欲しかったら、いくつかのええ例も示してくれてるで。明示的なワークフローも見られるから、試してみるのもええかもしれへんな。
以上が、今日読んだ研究論文や。250以上の論文に目を通して、3時間以上かけて全部をスキャンしたんや。月曜の朝からやで。
でも、これらの論文は知っておくべきやし、読んでおいた方がええと思うで。午後遅くに読んでみて、最新の人工知能の情報をキャッチアップしておくんがええで。
これが純粋な実験的なビデオやった。気に入ってくれたか？質問あるか？これらのビデオへのリンクが欲しかったら、YouTubeチャンネルのコミュニティセクションに行ってみ。27分前に、まさにこのタイトルで、全ての元の出版物、AI研究出版物へのリンクを全部載せたんや。
そこに全ての情報があるで。気に入ってくれたらええな。もしかしたら、これが購読者向けのサービスになるかもしれへんな。
楽しんでもらえたらええし、ちょっとでも面白かったらええな。新しい情報があったらええし、次のビデオでまた会えるのを楽しみにしてるで。