AIにおける「視覚的推論」の失敗:VLMsの場合

6,886 文字

https://www.youtube.com/watch?v=vRsAFFvKqhI

こんにちは、コミュニティの皆さん。戻ってきてくれて嬉しいです。今は日曜の早朝で、外は雨が降っています。今回は視覚的推論に関する新しい動画をお届けします。良いことに、私はあまり多くを話す必要がありません。これはただの視覚的推論なので、早速始めましょう。
以前、来るべき動画のために皆さんの助けが必要だと言いました。「視覚的に考えることができますか?」と質問したところ、89%の方が「もちろんできる」と答え、11%の方が「視覚的なものを言葉に翻訳することができるかもしれない」と答えました。
それでは視覚から始めましょう。まず最初の画像です。私のアイデア、解釈、この画像を生成するためのコマンドが何だったか推測できますか?こちらがGPT-4の美しい新しい画像生成です。私は「AIの内部量子論理空間、プランクスケールの乱流、バブルフィラメント、カオス的なサブスペース推論が欲しい。そしてシーンがホログラフィックなファインマン図によって歪められ、伝播子が破壊された線として現れるようにしたい。量子コヒーレンスの崩壊と量子CPSEの再帰的論理が欲しい」と言いました。皆さんは「もちろん、それが見えています」と言うかもしれませんね。
次はどうでしょう?このプロンプトは何だったと思いますか?視覚的推論ですね。システムはただ単語を入れただけでずるをしていました。しかし、私たちは視覚的に考えることができます。簡単なプロンプトでした。「多様な視覚的アーティファクトに基づく論理チェーンと因果推論を表現する、高詳細な抽象的可視化を作成してください。人工知能によってレンダリングし、意味をなし視覚的なコンテンツを生成するようにしてください」と言いました。
クリエイターの方なら、これがカンディンスキーであることをご存知でしょう。私はここで視覚的思考の混沌を描きたかったのです。言葉を書かず、視覚的にのみ視覚的思考の複雑さを描写するようにしました。
さて、もう少し科学的になりましょう。「何が起きているんだ?視覚的表現にメッセージが符号化されているように見える」と思うかもしれません。そうです、もちろん。GPT-4 Omniに「外宇宙の空虚の中で視覚的推論チェーンを見せてください。言葉を書かず、ただ視覚的に描写してください。どんな抽象化でも構いません」と言いました。AIが私に示しているメッセージが何なのか全く分かりませんが、皆さんは「もっと正確な指示を出さなければいけない、もっと数学的であるべきだ」と言うかもしれません。
では、GPT-4 Omniが成功するように試してみましょう。「真空管内の電子陽電子ファインマングラフの完全な数学的表現を見せてください」と言いました。しかし申し訳ありませんが、これは間違っています。何かアイデアを得たことは分かりますが、結果は単に恐ろしいものでした。
実行の恐ろしさといえば、ChatGPT無料版でこの視覚同期を試みた時の経験をお見せしましょう。「美しい画像を作成してください」と言ったところ、「あなたのプロンプトを使って画像を生成しようとしましたが、残念ながらシステムはレンダリングを完了できませんでした。明示的に再試行を求められない限り再試行することはできません」というエラーが返ってきました。
特に月曜の朝に、私は魅力的です。「自分のプロンプトを実行するためにプロンプトを作ったのに、実行できないとか、タイムアウトに遭遇したとか言わないでください」と言うと、ChatGPTは「あなたの期待は絶対に正しいです。特にプロンプトが慎重に作成され、明らかに合理的なものを求めていたのですから。真実は、私がプロンプトを作成したにもかかわらず、あなたが遭遇している障害はあなたのリクエストやその書き方によるものではなく、完全に内部の画像生成システムの問題によるものです。プロンプトを実行できないと言うのは、言い訳や遅延戦術ではなく、生成時に失敗するシステムレベルのブロックです」と答えます。
しかし、別のオプションも提示されました。「できることは、他のインターネットプラットフォームで実行できる正確なプロンプトを提供することです。それらのインフラストラクチャ上で実行できます。月に20ドルしか支払っていないので、彼らのリソースを使用し、彼らのハードウェアインフラストラクチャで実行してください」と。これを提供してくれるのはMidjourney、Leonardo、Runway、DALL-E 3、Bing Image Creatorなどだとのことです。
「私はこれにお金を払っているんだから、そのプロンプトを実行してください」と言うと、約15分の短い議論の後、GPT-4 Omniから酷い画像が返ってきました。もし美しい新しいStudio Ghibliスタイルの画像表現のユーザー体験がどうなのか考えているなら、おそらくこれがあなたが探すべき解決策のプロンプトでしょう。
私はこれに満足せず、「やり直し」と言いました。すると、ChatGPTは「これがどれほど不満だか理解しています。特に時間、労力、支払いを投資したのに。残念ながら、システム(AIであるGPT)がレート制限を課したため、プロンプトを実行することができず、他の何かをする前に22分待たなければなりません」と返答してきました。この時点で私は「ChatGPT-4 Omni、ありがとう」と言って、この動画を開くことにしました。
これで視覚は美しく、問題がなく、素晴らしいものだということがわかりますね。そうですよね?なぜなら、私たちはNVIDIAの物理的AIシステムの理由、複雑さの連鎖の圧縮解除、LLMを遥かに超える新しいAI基盤モデル、あるいはGoogle DeepMindのロボティクスで見られるような崩壊を示す動画を見たからです。
もちろん、ここに天才の閃きがあります。この動画で、どのようにしてこれが達成されたかのステップを見てきました。まず事前学習があり、一般的な教師あり微調整があり、次に特定の物理的AI教師あり微調整があります。そして重要な第4ステップがあり、AIが理解すべき物理的世界に基づく強化学習があり、報酬システムとDeepSeek-1からのグループベースの報酬ポリシー最適化を使用しました。
さて、興味深い事実に移りましょう。これは私が示したい研究で、既に2日前のものです。申し訳ありませんが、日曜日です。「Reason RFT: 視覚的推論のための強化微調整」というタイトルで、北京大学、北京人工知能アカデミー、中国科学アカデミー、中国科学アカデミー大学による美しい研究です。
私がこれを選んだのは、この視覚表現が美しいと思ったからです。しかし、一つ質問があります。もし視覚的に考えることができるなら、なぜこの視覚表現にこんなにテキストがあるのでしょうか?他に方法はないのでしょうか?
研究を見ずに解読してみましょう。少しだけカンニングして研究を読みました。これは何でしょうか?質問があります。画像付きの多肢選択問題があります。素晴らしい、教師あり微調整ベースのトレーニングだけですね。これは幸せな表情ではないので、標準は教師あり微調整トレーニングのみだと伝えたいのだと思います。NVIDIAの場合はそうではありませんが、世界のどこかの小さな会社でNVIDIAのインフラストラクチャやリソースがない場合は、教師あり微調整だけになるかもしれません。
質問があり、この教師あり微調整モデルからの答えは、思考の連鎖推論によるとこれで、もちろん赤で間違った答えが示されています。そして今、緑色の新しい「Reason RFT」モデルがあり、正解を与えてくれます。「しかし、このReason RFTモデルとは何なのか説明してくれ」と思うかもしれません。おそらくこの画像の右半分で説明されているのでしょう。
視覚的カウント、構造認識、空間変換、そしてここにカラーコードがあり、上向きになっています。「それは素晴らしいですね」と言うかもしれません。ここには「Reason RFT」があり、貪欲な報酬認証、変換適応ギャップ、推論冗長性があります。私は一言も理解できません。視覚的にはそれほど良くありませんが、ここに解決策があります。
ステージ1とステージ2があります。ここに脳と何かがあるので、これがReason RFTモデルの視覚的表現なのでしょう。簡単に追いかけられますね。思考の連鎖推論データ、本、実験、画像の幾何学的問題があります。ビジョン言語モデル、思考の連鎖推論プロセス、教師あり微調整による最終答え、そして質問と画像、ビジョン言語モデル、ポリシー最適化、DeepSeekからのグループ相対ポリシー最適化があります。すべて明確ですか?他に説明することはありますか?これが視覚的推論であり、著者に感謝します。彼らは努力し、私はこの研究が気に入っています。
視覚的推論から何を得ることができるか、視覚的推論の力は何かを示したいと思います。次に行きましょう。また、フェーズ1の教師あり微調整ベースのアクティベーションがあります。そして、GPOによる強化ベースの強化があります。素晴らしい、ポリシーモデルと報酬システムがありますが、ここに矢印が出ているようです。報酬が詳細に示されているようで、この報酬評価にはフォーマット報酬、つまり報酬の形状と、精度報酬構造があるようです。
フォーマット報酬とこちらにもフォーマット報酬、そして1、2、3の精度報酬構造があります。これはズームインのようです。美しい視覚的推論が今機能しています。フォーマット報酬とは何でしょうか?フォーマット報酬があります。今テキストがあるので、これを単に視覚的に描くのはそれほど簡単ではないようです。思考プロセス、思考の終わり、答え、最終答え、答えの終わりです。
報酬関数のフォーマットは、答えがフォーマットに準拠していれば1、そうでなければ0です。フォーマットが決めた通りのものかどうかを確認するだけです。離散値の精度報酬、あなたは視覚的カウントの専門家です。私は離散値のカウント専門家を得ました。「画像に2台の大型バスがあり、すべてのバイクを取り除いたとき、画像にはバスが何台あるか」という例です。
数学的精度報酬、ジオメトリー、いいですね。10万年前の学校を思い出します。あなたは視覚的幾何学の専門家です。もちろんそうです。「与えられた画像に基づいて、以下に示された問題を解決し、くじ形式または浮動小数点数として答えを提供する必要があります」。この点については後ほど少し話します。
次に関数ベースがあります。これは興味深いです。彼らは「あなたは空間視覚推論の専門家です」と言っています。ある風景の特定の視点があり、その風景には6つの物体があります。誰かが風景を回転させるか、照明や光が異なるか、6つの異なる物体に対して私たちが移動し、そして私たちはビデオセンサーで見て、物体が動いたことを確認します。単純な質問は、それが単なる回転だったのか、シフトだったのか、あるいは物体自体が特定の方法で動いたのかということです。
これが例です。そして領域外のビュー、つまりシステムが訓練されていないビューと、システムが何らかの情報や訓練データを持っている最終的な正しいビューがあります。質問は、これらの領域外のビューに何が起こるか、システムはこの特定のシーンが単なる回転操作なのか、何が起こっているのかを理解できるか、あるいは私たちはこれらの小さなガジェットのいくつかを動かしているのかということです。
AIシステムに「あなたは空間視覚推論の専門家です」と伝えます。何が起こっているのかを見てみましょう。青いものとこれがあります。距離が少し動いたようです。そして突然、何色かはわかりませんが、これらの2つの物体の間のこの視線の間に動いたようです。しかし、これら3つの物体は一応その場に留まっているようです。本当にそうですか?絶対にそうではありません。表面が変わり、相対的な位置が変わったからです。
これを視覚的推論で説明してみましょう。関数リストには、色の変更、位置の変更、物体の形状の変更、材質の変更、サイズの変更、照明の変更、視点の変更があります。これらの関数すべてを視覚的推論で書かなければなりません。驚くべきことに、これには言葉を使用します。
簡単な例、「2番目のグループのXの総数は1番目のグループと比較して何倍大きいですか?」これを視覚的にカウントし、純粋な教師あり微調整と比較できます。教師あり微調整と強化学習を使用すると、正解が得られます。同じテストで、教師あり微調整だけでは成功せず、新しい教師あり微調整と強化学習を使用すると正解が得られます。
これはより興味深いですね。「この直方体の総表面積は、寸法が3単位×4単位×5単位の場合」ここでは、教師あり微調整がかなり正確ですが、最終的な思考の連鎖に問題があります。一方、微調整と強化学習では正解が得られます。
これは面白くありません。先ほど話した内容に進みましょう。「初期状態の中央ビューと最終左ビューの画像は同一ですか?どのような操作が行われましたか?」この特定のケースでは、視覚を記述し始めます。「オブジェクト0は立方体、中サイズ、灰色、材質はゴムのようです。オブジェクト1は球体、中サイズ、金属のようです」。
この特定の方法論では、視覚的なものを再び言葉に変換して意味を作ろうとしています。教師あり微調整だけでは失敗しますが、もちろん教師あり微調整と強化学習を使うと、完全な言語コマンド、これらのオブジェクトの言語的識別があります。視覚的推論は言葉でのみ行われ、実際の視覚的推論は全く行われていません。
最後に、視覚的推論について言及しましょう。それは起こりませんでした。私たちがしたことは、画像を美しいテキストに転写し、AIが識別できる色、サイズ、材質、相対的な位置、照明などすべてを記述し、そしてLLMで議論しましたが、視覚的推論ではありませんでした。
視覚的推論システムを作るためのアイデアが誰かにありますか?これが動画の終わりです…しかし、私をご存知なら、何か足りないことがわかるでしょう。もう少し深く調べましたが、今はテキストなので、気に入るかどうかわかりませんが、フォーマットの報酬についてもう少し深く調べ、例を示しました。離散値タイプの精度報酬についてもっと調べ、例を示しました。構造化受容のためのいくつかの数値回答の例と、その背後にある合理性、そして空間変換の詳細と詳細な例を示しました。
モデル予測1、モデル予測2、モデル予測3とは何か、方向性もMonol Researchなどから知られている部分的報酬システムを追求していることを示しています。
この新しい論文の主な一般的なアイデアは何でしょうか?この論文の特別な点は何でしょうか?彼らは単に教師あり微調整と、DeepSeek-1からのGPOを使った一般的な強化学習を行うだけではなく、モデルに推論のフォーマットを教え、過剰適合を避けるために、最小限の教師あり微調整アクティベーションだけを行うと主張しています。教師あり微調整を行えば行うほど、システムは過剰適合し始め、過剰に考え過剰適合するシステムが出来上がります。
したがって、最小限の教師あり微調整しか行わない場合、ターゲットを絞った強化学習強化を行い、GPOを使用します。しかし、これら2つの要素のバランスをどう取るかという相乗効果は重要です。アクティベーションなしの純粋な強化学習も同様に苦戦するからです。
彼らは視覚的推論方法論のために、この最小限の教師あり微調整とターゲットを絞った強化学習強化のバランスが成功のために非常に重要だと言っています。また、教師あり微調整は、より長い推論チェーンにつながると観察しています。特定の因果推論の言語表現に対して教師あり微調整を行えば行うほど、推論チェーンは長くなります。
しかし同時に、強化学習のこの第2ステップは、この推論チェーンの全長を通して行わなければならないことに気づきます。どこかで強化学習が止まったり、より長い推論チェーンの最後の10%を忘れたりすると、もちろん問題が発生します。
より長い推論チェーンを作成し、強化学習がこのより長い推論チェーンの各要素、機能、関係を考慮し、解決し、圧縮し、システムのアライメントフェーズで訓練するために異なる例を提供するというこのバランスが非常に重要です。これが私にとってこの研究の主なメッセージです。
楽しんでいただけたでしょうか?これは日曜の朝のセッションでした。まだ雨が降っていますが、コーヒーや紅茶を楽しみながら視聴していただければ幸いです。登録していただければ、月曜の朝にお会いしましょう。


投稿日

カテゴリー:

投稿者:

タグ:

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です