中国の研究者たちがOpenAIのAGI機密を解明

5,715 文字

Chinese Researchers Just Cracked OpenAI's AGI Secrets
Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

OpenAIは最先端のAI企業であり、その最新モデルシリーズであるo1は、現在我々が利用できる中で圧倒的に最も進歩したAIです。このAIモデルは極めて機密性が高く、もしあなたが応答プロセス中にモデルが何を考えていたのか尋ねようものなら、二度とそのような質問をしないよう警告されます。何度も質問を繰り返すと、OpenAIのサービスから利用禁止になる可能性すらあります。
このような厳重な機密性が保たれている理由は、これがAGIへの重要な一歩であり、多くの人々がOpenAIを最初にAGIを達成する可能性が高い企業だと考えているからです。OpenAIはいくつかの論文を発表していますが、システムの内部構造を真に理解できるほどの情報は公開していません。
しかし最近、中国の研究者グループが論文を発表し、彼らがo1の仕組みを解明し、同様のものを構築するためのロードマップを公開したのではないかと注目を集めています。この論文のタイトルは「検索と学習のスケーリング:強化学習の観点からo1を再現するためのロードマップ」です。もしこれが本当なら、競争の場が平準化され、多くの企業がOpenAIと同等のAIモデルを開発するのは時間の問題となります。
この内容を4つのパートに分けて説明しますが、まずはAIの基本的な仕組みを理解しましょう。AIには強化学習があります。犬に芸を教えるアナロジーで説明すると、正しい行動をした時に褒美(報酬)としておやつを与えると、犬はその行動を繰り返すことを学習します。AIの場合、犬はプログラムで、おやつはデジタル報酬、芸はゲームに勝つことやコードを書くことなど、どんなタスクにもなり得ます。
強化学習がo1シリーズにとって重要なのは、OpenAIが強化学習を、o1が賢くなり、試行錯誤を通じて推論や複雑な問題解決を学ぶための鍵だと考えているからです。
論文によると、o1の仕組みには4つの柱があります。まず「ポリシー初期化」は、モデルの初期推論能力を事前学習や微調整によって設定する出発点です。「報酬設計」は先ほど説明した報酬の与え方です。「検索」は推論時にモデルが様々な可能性を探索する方法です。そして「学習」は検索プロセスで生成されたデータを分析し、強化学習などの技術を使ってモデルを改善していく過程です。
中心的なアイデアは強化学習であり、これらのコンポーネントを結びつける核となるメカニズムです。モデル(ポリシー)が環境と相互作用し、検索結果からのデータが学習プロセスに流れ込み、改善されたポリシーが検索に戻されて、継続的な改善ループが作られます。図はこのプロセスの循環的な性質を強調しています。検索がデータを生成し、学習がポリシーを更新する、という具合です。
この仕組みを理解するには、まずポリシーを理解する必要があります。チェスのような複雑なゲームを教える場合を想像してみてください。初日からグランドマスターとの対戦はさせません。まず駒の動かし方や基本的な戦略、一般的な序盤の動きなどを教えます。これがAIにおけるポリシー初期化です。
o1のようなパワフルなAIの文脈では、ポリシー初期化は、AIが本当に難しい問題を解こうとする前に、強力な基盤と推論能力を与えることです。強化学習を通じて発展させていける基本的なスキルと知識を備えさせることが重要です。論文によると、o1の場合、このヘッドスタートは主に2つのフェーズで行われます。
第一に事前学習があります。これは膨大なテキストデータでの訓練で、いわばインターネット全体、あるいはその大部分を読ませるようなものです。これによりAIは言語の仕組みや単語間の関係を学び、世界に関する膨大な一般知識を獲得します。小説を書く前に文法や語彙、基本的な事実を学ぶようなものです。このデータを学習することで基本的な推論能力も身につけます。
そして重要なのが、指示と人間のような推論による微調整です。ここでAIにより具体的な推論や問題解決の方法を教えます。これには2つの重要な技術が含まれます。
プロンプトエンジニアリングでは、AIの行動を導くために注意深く作られた指示や例を与えます。論文では問題分析(理解を確認するために問題を言い換える)やタスク分解(複雑な問題をより小さな扱いやすい手順に分解する)などの行動が挙げられており、文字通り「まず段階的に考える」といった指示を与えます。
教師あり微調整(SFT)では、人間による問題解決の例でAIを訓練します。つまり、正しい思考や推論の方法を示すのです。これには専門家が段階的に思考プロセスを説明する例を見せることなどが含まれます。
要するに、ポリシー初期化は、AIに言語知識と基本的な推論スキルという強固な基盤を与え、後の学習と問題解決の段階で成功できるよう準備することです。o1のこのフェーズは、AIに人間のような推論行動を発展させ、体系的に考え、解決策を効率的に探索できるようにするために極めて重要です。
次に非常に興味深い報酬設計について説明します。画面に表示されている図は、強化学習で使用される2種類の報酬システムを示しています。ここにあるアウトカム報酬モデリング(OM)とプロセス報酬モデリング(PRM)です。
説明は実はかなり単純です。アウトカム報酬モデリングは、最終結果のみに基づいて解決策を評価します。最終的な答えが間違っていれば、ここにある手順のいくつか、あるいはほとんどが正しくても、解答全体が間違いとされます。この例では正しい手順もありますが、最終出力が不正確なため、全体が間違いとマークされています。
しかし、より優れたプロセス報酬モデリングでは、解答の各ステップを個別に評価します。正しい手順には報酬を与え、間違った手順にはペナルティを与えます。これはより詳細なフィードバックを提供し、トレーニング中の改善を導きます。ステップ1、2、3は正しいため報酬を受け取り、ステップ4と5は間違いとしてフラグが付けられます。このアプローチは解答全体を破棄するのではなく、プロセスの中の正確なエラーを指摘できるため、はるかに優れています。
この図は、多段階の推論を含むタスクにおけるプロセス報酬の重要性を強調しており、反復的な改善とより良い学習結果を可能にします。これがo1が使用していると考えられているものです。
ここから本当に興味深い検索の話に入ります。多くの人が、検索は超知能につながる可能性があると称賛しています。実際、最近そう述べているツイートを見かけました。
これを分解して考えると、これは本質的にAIが考えているところです。o1のような強力なAIは、異なる可能性を探索し最良の解決策を見つけるために考える時間が必要です。この思考プロセスが論文で言及されている検索です。推論時により多く考えることで性能を向上させる方法の一つは、一つの答えを生成するだけでなく、複数の可能な解決策を探索してから最良のものを選ぶことです。
エッセイを書くことを考えてみましょう。最初の下書きをそのまま提出することはありません。アイデアを練り、複数の下書きを書き、満足のいく最終稿になるまで修正と編集を重ねます。これも一種の検索です。
論文では、o1がこの思考プロセスに使用している可能性のある2つの主要な戦略を強調しています。
一つ目はツリー検索です。枝分かれする木を想像してください。枝はAIが取り得る異なる選択や行動を表します。検索は、木の異なる経路をたどり、それらがどこに導くかを見極めるようなものです。例えば、チェスゲームでは、AIは自分が取り得る全ての手、相手が取り得る全ての応手を考慮し、可能性の木を構築します。
そして特定の基準を使用して、どの枝をさらに探索し、どの枝を刈り込むかを決定し、最も有望な経路に焦点を当てます。どこに進み、どの決定を下し、どれが最高の報酬をもたらすかを考えるのです。庭師が木を正しい方向に成長させるように枝を選択的に刈り込むようなものです。これの簡単な例が「n個の最良サンプリング」で、モデルはn個の可能な解決策を生成し、何らかの基準に基づいて最良のものを選びます。
ここ右下には逐次修正があります。これは先ほど話したエッセイを書くようなもので、AIは解決策の初期試行から始めて、途中で段階的に改良していきます。例えば、AIは数学の問題に対する初期の答えを生成し、その作業をチェックし、エラーを特定して、それに応じて解決策を修正します。エッセイを編集し、ミスを見つけて、レビューするたびに改善していくようなものです。
では、AIはツリー検索でどの経路を探索するか、あるいは逐次修正でどのように解決策を修正するかをどのように決定するのでしょうか?論文では2種類のガイダンスについて言及しています。
内部ガイダンスでは、AIは自身の内部知識と計算を使用して検索を導きます。一例はモデルの不確実性で、モデルは解決策の特定の部分についての確信度を推定できます。確信度の低い領域に焦点を当て、代替案を探索したり修正を加えたりします。これはミスを犯したかもしれない部分を再確認するようなものです。
もう一つの例は自己評価です。AIは自身の作業を評価し、潜在的なエラーや改善が必要な領域を特定するよう訓練できます。これは、あなたの文章を確認し変更を提案する内部編集者のようなものです。
次に外部ガイダンスがあり、これは検索を導くために外部世界からフィードバックを得ることです。一例として環境フィードバックがあります。場合によっては、AIは実際の環境やシミュレーション環境と相互作用し、その行動に対するフィードバックを得ることができます。例えば、迷路を進むロボットは、目標に近づいているか遠ざかっているかについてのフィードバックを得ることができます。
もう一つの例は、先ほど説明した報酬モデルの使用です。報酬モデルは異なる解決策や行動の質についてフィードバックを提供し、AIをより良い結果へと導きます。これは、あなたの作業を評価し、何が良かったか、どこを改善する必要があるかを教えてくれる教師のようなものです。
本質的に、o1がさまざまな可能性を探索し解決策を改良するプロセスである検索要素は、内部知識と外部フィードバックの両方によって導かれます。これがo1を複雑な推論タスクに優れたものにしている重要な部分です。
検索はAIが問題について考える方法ですが、時間とともに問題解決能力をどのように向上させるのでしょうか?ここで学習が重要になります。論文によると、o1は性能を向上させるために強力な強化学習技術を使用しています。
検索は訓練データを生成します。先ほど説明した通り、検索は複数の可能な解決策を生成しますが、これらの解決策は内部または外部のガイダンスからのフィードバックと共に、AIにとって価値のある訓練データとなります。試験勉強をする生徒を想像してください。多くの練習問題を解き、答えについてフィードバックを受け、ミスから学びます。成功か失敗かに関わらず、各試行は学習と改善に役立つ貴重な情報を提供します。
論文では、o1が検索で生成されたデータから学習するために使用している可能性のある2つの主要な学習方法に焦点を当てています。
一つ目はPoのようなポリシー勾配法です。これらの方法は少し複雑ですが、基本的な考え方は、AIが達成した報酬に基づいて内部ポリシー(行動を選択する戦略)を調整するというものです。高い報酬につながる行動はより起こりやすくなり、低い報酬につながる行動は起こりにくくなります。これはAIの意思決定プロセスを自身の経験に基づいて微調整するようなものです。
Poは近位ポリシー最適化(Proximal Policy Optimization)で、その安定性と効率性で知られるポピュラーなポリシー勾配法です。これは、単一の経験に対して急激な変更を避けながら、AIの戦略を更新する慎重で体系的な方法のようなものです。
次に行動クローニングがあります。これはAIが成功した解決策を模倣する、より単純な方法です。模倣による学習のようなものです。検索プロセスで高い報酬を得る本当に良い解決策が見つかった場合、AIは類似の状況でその解決策をコピーすることを学習できます。これは、解答例を研究して数学の問題の解き方を学ぶ生徒のようなものです。
論文では、o1が検索中に発見された最良の解決策から学ぶために行動クローニングを使用し、効果的にそれらを成功戦略のレパートリーに追加している可能性を示唆しています。あるいは、Poのようなより複雑な方法を使用する前の初期ウォームアップとして使用される可能性もあります。
反復的な検索と学習の真の力は、検索と学習を反復的なループで組み合わせることから生まれます。AIは解決策を検索し、結果から学び、その改善された知識を使ってさらに良い検索を行います。これは練習、フィードバック、改善の継続的なサイクルのようなものです。
論文は、この反復的な進歩がo1が特定のタスクで超人的な性能を達成する能力の鍵であると示唆しています。継続的な検索と学習により、AIは初期訓練データの限界を超え、人間が考えつかなかった新しくより良い解決策を発見する可能性があります。
以上、o1の仕組みと4つの重要な柱について説明しましたが、この研究論文を読み、o1の仕組みについての詳細な部分を理解した上で、私たちは超知能に近づいていると思いますか?AIが解決策を検索し、その結果から学び、その改善された知識を使ってさらに良い検索を行うことができ、練習、フィードバック、改善の継続的なサイクルがあれば、理論的には超人的な性能を達成することが可能です。
だからこそ、より広いAIコミュニティが超知能はそれほど遠くないと言っている理由が理解できるように思います。人工超知能はそれほど遠くないのかもしれません。皆さんの考えをぜひ聞かせてください。

コメント

タイトルとURLをコピーしました