
16,278 文字
Implications of the inference scaling paradigm for AI safety — LessWrong

AIの進歩を示すグラフを見ると、その曲線がある時点で垂直に上昇し始めたところで、AI業界の内部関係者から、超知能が私たちが最初に考えていたよりもずっと近づいているかもしれないという投稿が多く見られるようになりました。もちろんこれはarc AGIのスコアを示しているだけで、これは単なるベンチマークの一つに過ぎませんが、私たちが今目にしているAIの進歩を象徴的に表していると思います。最初は緩やかな改善が続き、そしてある時点で垂直に上昇し始めます。
このジャンプは、GPT-4クラスのモデルから推論モデルへの移行を示しています。つまり、舞台裏で考え、答えについて少し考えてから、そのデータを使って質問に答えることができるモデルへの進化です。
OpenAIの研究者であるジェイソン・ウェイは最近こう投稿しました。「魔法とは、十分な計算能力を持つ止められない強化学習の最適化アルゴリズムが、ハッキング不可能な強化学習環境に出会うときに起こることだ」
サム・オルトマンはもちろん、私たちがシンギュラリティに近づいているかもしれないという事実について言及しています。また、o3ミニがo1を大幅なコスト削減で上回るパフォーマンスを発揮するとも述べています。o1は多くの人々を驚かせた革新的なモデルでしたが、o3はまだリリースされていません。しかし、非公式にarc AGIの人間のベースラインを超えたとされています。これは大きな出来事です。
o3ミニがo1よりも優れているということは、3、4、5ヶ月前に革新的だったものが、数ヶ月後に登場する新しいものは、より小型で、より高速で、より安価で、さらにはるかに賢くなっているということです。
サム・オルトマンがタイムラインを短縮していることにも気づいているでしょう。つまり、AGI(汎用人工知能)やSII(超知能)などのすべてがより近づいていると言っています。また、それらが意味することについても上方修正しており、最初に考えていたよりも大きな能力を持ち、より重要になるだろうと述べています。
重要なのは、大きな何かが間近に迫っているということで、みんなが興奮しているということです。
では、何がみんなをそれほど興奮させているのでしょうか?
less wrong.comの投稿、特にGWによるコメントを見てみましょう。彼は業界での思想的リーダーの一人です。ドレッシュ・パテル・ポッドキャストに登場していますが、実際には本人ではなく、身元を保護するためのアバターです。彼は顔も声も公開したくないのですが、業界でよく知られ、尊敬されている人物です。
Twitterやその他のSNSで多くの人々の注目を集めている彼の発言について、簡単に見ていきましょう。以前も話題にしましたが、特定のモデルが教師モデルとして機能するという考え方があります。これらのモデルは、より小さな生徒モデルを作成する教師モデルとして機能し、これは知識の蒸留とも呼ばれています。
例えば、オープンソースの中国モデルであるDeep Seekのv3は非常に優れていますが、これは推論モデルではありません。しかし、その前のDeep Seek R1は推論モデルでした。Deep Seek v3の論文で説明されているように、前のモデルからの知識の蒸留を使用してv3を作成しています。
これは、なぜすべてが私たちが最初に予想していたよりもずっと早く、そしてより早く起こり始めると考えられているのか、なぜベンチマークやグラフの進歩の線が垂直になっているのかを理解する上で重要なポイントです。
ゴードンは言います。「私はセルフプレイのスケーリングパラダイムの重要な部分が欠けていると思います。o1のようなモデルの目的の多くは、それを展開して私たちが使用するためではなく、次のモデルのトレーニングデータを生成することにあります。」
私はいつもハイブクイーンのアナロジーを使っています。つまり、それは卵を産んでドローンを作るためにあるのであって、自身が外に出て何かをするためではないということです。
o1が解決する問題はすべて、o3のトレーニングデータのポイントになります。特に、彼はそれらをN1とN3として言及していますが、作成される任意のモデル(N)は、次のモデル、次世代モデルのための何らかの解決策として作られるということです。
正解にたどり着いたo1のセッションは、行き止まりを取り除き、より洗練された直感をトレーニングするためのクリーンな記録を生成するように改良することができます。つまり、正解に導く思考の連鎖が、将来のモデルのトレーニングデータとして使用されるのです。
スタンフォードの論文が述べたように、そのモデルは超知能へと自己を再帰的に改善し、ブートストラップすることができます。
2022年5月、AIの時代ではずっと前になりますが、Googleリサーチとスタンフォードによる「自己教示推論者:推論から推論へのブートストラップ」という論文を覚えているでしょうか。彼らは基本的に、人間レベルの知能を超えて、より高いレベルの知能へと自身をブートストラップすることが可能だと述べています。
文字通り、これが秘密のソースです。これは3年前に出されたものです。
ゴードンは続けます。「これは、スケーリングパラダイムが現在のトレーニング時間のパラダイムに非常によく似たものになる可能性があることを意味します。多くの大規模データセンターが、最高の知能を持つより大きなモデルをトレーニングするために労力を費やし、それは通常、低い検索方法で使用され、低検索や検索なしでもオーバーキルとなる使用事例のために、より小さく安価なモデルに変換されます。」
私の解釈では、Deep Seek v3を例に取ると、これはClaude 3.6やGPT-4oと対等に競合していますが、これらはどちらも非推論モデルであるという点で、これは良い比較になります。GPT-4oには隠れた思考の連鎖がなく、質問をすると即座に答えを出力し、答えについて考える時間を取りません。これらすべてに共通することですが、青い線でDeep Seek v3を見てください。
AIMEのような超高レベルの数学問題などで、いかに圧倒的に優れているかに注目してください。基本的に約40%の精度に達しており、他のモデルの中で最も高いものは23%、GPT-4oはそれ以下です。これほど優れている特別な秘密は何でしょうか?必ずしもより大きなモデルというわけではありません。
例えば、同等のLlamaモデルと比べて、トレーニングコストは10分の1でした。なぜなら、はるかに効率的で安価なトレーニング方法を見つけたからです。
v3のグラフを見ると、この青い影付きの線は他のすべてを圧倒しています。彼らの特別な秘密のソースは何でしょうか?私にはわかりませんが、おそらくこれでしょう。モデルのトレーニング後、Deep Seek R1から知識の蒸留を行います。
R1はDeep SeekのO1に対する答えです。つまり、Deep Seek R1はOpenAIのo1に相当する、あるいは少なくとも相当すると思われるものです。これはDeep Seekの推論モデルです。
彼らは言います。「R1シリーズモデルの1つから、長い思考の連鎖を持つCOOTモデルの推論能力を標準的なLLM、特にDeep Seek v3に蒸留する革新的な技術を導入しました。私たちのパイプラインは、R1の検証と反省のパターンをDeep Seek v3に優雅に組み込み、その推論性能を顕著に改善します。」
つまり、素晴らしい出力を生成できる推論モデルがありますが、これは実行するのにやや費用がかかる可能性があります。なぜなら、すべてを十分に考え抜くために、より長い時間実行する必要があるかもしれないからです。
これがDeep SeekのR1であり、OpenAIのo1などです。これは教師モデルであり、推論モデルであり、いわば元のモデルです。その推論、思考をアウトプットします。
オリジナルのStar論文では、それを合理性と呼んでいます。つまり、答えの背後にある思考です。何と呼びたいかは自由です。合理性、一般化など、何でも構いません。
その合理性、思考、推論は、次世代モデルのトレーニングデータまたはポストトレーニングデータとして使用されます。これは知識の蒸留と呼ばれる別の言葉です。知識の蒸留は合成データとして使用されます。R1の場合、それはv3です。
申し訳ありません、v3で頭が混乱してしまいました。次世代モデルは、前のモデルからの思考、推論、知識の蒸留によってトレーニングされています。つまり、私たち人間がバージョン1を作成し、そしてバージョン1が使用されて、新しく改良されたバージョン2を作成するのです。
もちろん、これで終わりです。これが進歩の終着点で、もう何もする必要はありません。そうですよね?いいえ、ここから事態は狂気じみてきます。なぜならバージョン2がバージョン3を作成し、バージョン3は…これは無限に続きます。何かがこの進歩を止めるものを見つけない限り、これは無限に続きます。
しかし、ここで彼が話しているのは、低検索や検索なしでもオーバーキルとなる使用事例のために、より小さく安価なモデルを作成することについてです。これはv3のようなものについてもっと話しています。つまり、特定の使用事例のために、このより高速で安価で小さなモデルを作成することができるのです。
これは、サム・オルトマンがo3ミニがo1よりも優れているにもかかわらず、より高速で安価で使いやすいと言っていたのと同じことです。大きな賢い教師モデルは、特定の使用事例のためにより小さなモデルを作成することができます。
言い換えれば、あらゆる単純な問題やタスクに対して、大きなクイーンモデルを使用する必要はありません。特定のタスクを念頭に置いている場合、この超メガスマートモデルが、あなたが行いたい特定のことを非常に上手く行う、安価で高速で賢い小さなスピンオフを作成する可能性が高いのです。
ゴードンは続けます。「それらの大きなデータセンター内では、ワークロードはほとんど完全に検索関連になる可能性があります。実際のファインチューニングは、ロールアウトと比べてとても安価で簡単だからです。」
言い換えれば、次世代モデルのファインチューニングは簡単なので、ほとんどの時間は知識の蒸留や合理性や思考の連鎖、つまり検索の生成に費やされます。
彼は続けます。「以前と同様に、基本的には高性能なGPUとメガワットの電力を投入し、3〜6ヶ月待つと、より賢いAIが出てきます。実際、私はOpenAIがo1 proを展開することに驚いています。それを非公開にして、o3のトレーニングなどのブートストラップにコンピューティングパワーを投資する代わりに。」
これは事実です。また、私たちは舞台裏での思考の連鎖を見ることは許されていません。それを見ることはできません。つまり、私たち自身で知識の蒸留を行うことはできず、それらの思考を取り出して独自のモデルを構築することもできません。
私のハイブクイーンの例で言えば、クイーンに仕事をさせることはできますが、卵を産ませることはできません。このアナログはどこかで破綻しますが、要点は理解していただけると思います。
彼は言います。「これは明らかに、AnthropicとClaude 3.6で起こったことです。オープンソースは失敗していません。むしろ非公開を選び、小型で安価ながら不思議なほど賢いClaude 3.6 Sonnetに蒸留することを選んだのです。
OpenAIの研究者たちがTwitterで突然、奇妙なほど楽観的になっているのはなぜかと疑問に思う人がいるかもしれませんが、元のGPT-4oモデルからo3、そしてその後のモデルへの改善を見ていることが理由かもしれません。それはAlphagoのELO曲線を見ているようなもので、上昇し続けているのです。
これは私たちの側から見えている部分です。内部のOpenAI研究者たちが見ているものはどうでしょうか?はるかにクレイジーなものであるに違いありません。彼らは、「突破」し、最後の臨界点を超えたという感覚を持っているのかもしれません。単なる最先端のAI研究から、数年後には誰もが参加することになるものから、知能が「テイクオフ」し、再帰的に自己改善を行うポイントまで到達したのです。
o4やo5がAIの研究開発を自動化し、残りを完了できるようになるでしょう。これは、ヨシュア・ベンジオが話していた知能爆発のパスのようなものです。彼の重要な指摘は、AIがすべてを自動化する必要はないということでした。人類に大きな影響を与えるために、たった一つのことだけを自動化し、それを上手く行う必要があります。それは、AI研究そのものです。
つまり、AIの研究開発、改善、最適化です。それが再帰的に自己改善できれば、それで終わりです。なぜなら、そうすれば他のすべてを理解できるようになるからです。これが最初のドミノで、他のすべてを倒すのです。
2024年11月、サム・オルトマンはこう述べています。「私たちの行っている仕事が積み重なり続け、過去3年間の進歩のペースが次の3年、6年、9年、またはそれ以上も続く道筋が見えています。」
そしてたった1週間前、サム・オルトマンはこう言いました。「私たちは今、従来理解されてきたようなAIの作り方を知っていると確信しています。私たちは今、その先にある超知能を目指し始めています。現在の製品は素晴らしいものですが、私たちは超知能とともにある輝かしい未来のためにここにいるのです。Deep Seekには追いつかせましょう。彼らには競争に必要な大規模なコンピューティングリソースを手に入れることはできません。超知能の研究が自己資金を調達できるようになれば、文字通り。」
だからこそ、私たちは中国をはじめとする様々な国へのチップ輸出を制限する、ホワイトハウスからの様々な発表を目にしているのでしょう。Deep Seekは中国のモデルなので、アメリカとその同盟国は、これらのNVIDIAチップがどの地域に広がることを許可するのか、世界のどの部分に行くことを許可するのか、非常に慎重になっています。
彼は続けます。「そしてケーキを手に入れて、それを食べることもできます。最終的なAlphaGo/Zモデルは超人的なだけでなく、実行するのも非常に安価です。いくつかのパイを探索するだけで超人的な強さに到達でき、フォワードパスだけでもプロ人間レベルの強さに達します。関連するスケーリング曲線を見れば、その理由は明らかです。推論時間での検索は、すぐにスコアを上げる興奮剤のようなものですが、漸近的に硬直化します。」
つまり、そこには壁があり、それ以上は進めないということです。大きな初期のブーストは得られますが、それだけでは持続可能ではありません。なぜなら、コストが指数関数的に増加するからです。より良い答え、より高い知能を得ることはできますが、コストは指数関数的にスケールアップします。
例えば、o3 Uモデルがarcでどれほどの成績を上げたかを示すために、小売価格、つまり私たちが支払うような計算コストで言うと、確か1万ドル未満、8,000ドルか2,000ドルだったと思います。これはarc AGIのルールブックの範囲内で、1万ドル未満でなければならなかったからです。
人間レベルのベンチマークを超え、それを上回ったo3は、おそらく30万ドル以上でしょう。つまり、はるかに、はるかに、はるかに高価です。確かにarcは超えましたが、実際の使用事例シナリオで実行するには法外に高価です。
彼は続けます。「検索自体を改善するために、より賢いモデルを使用する必要があります。より多くの検索を行う代わりに、モデルの検索能力を改善したいのです。単に検索が上手く機能するのであれば、チェスは1960年代にすでに完成していたはずです。グランドマスターの人間が1秒間に検索するよくらいの位置よりもはるかに多くの位置を検索することは難しくありません。」
「『こんにちは世界』というテキストが欲しい場合、タイプライターを叩くたくさんのサルでもコスト効果が高いかもしれません。しかし、すべての陽子が崩壊する前にハムレットの全文が欲しい場合は、シェイクスピアのクローンを作り始めた方がいいでしょう。幸いなことに、より賢いモデルを作成するために必要なトレーニングデータとモデルは手元にあります。」
ここでサム・オルトマンのツイートを見てみましょう。「o3ミニはo1を大幅なコスト削減で上回るパフォーマンスを発揮するでしょう。」
興味深いのは、一部の出力でモデルのパフォーマンスを向上させるためにお金を使うことができますが、AIラボはそのお金を、何か単純な問題のための一回限りの出力を改善するのではなく、モデル自体を改善するために使っているかもしれないということです。
これは、アウトサイダーはもはや中間モデルを見ることはないかもしれないことを意味します。ちょうどGoのプレイヤーがAlpha Zeroのトレーニングの3分の1の時点でのランダムなチェックポイントを見ることができなかったのと同じように。
また、展開コストが現在の1000倍以上かかるという事実がある程度事実である限り、まったく展開しない理由もあります。外部の顧客にサービスを提供することにコンピューティングパワーを無駄にする代わりに、トレーニングを継続し、それを蒸留して戻し、すぐにより優れたモデルの展開コストを100分の1、10分の1、等倍、そして1未満にすることができます。
確かに、OpenAIはこれらのモデル、これらのサービスを顧客に提供することで利益を上げているわけではありません。これはキャッシュフロービジネスではなく、利益を追求しようとしているわけでもありません。
実際、彼らが立ち上げを始めた頃、つまりChatGPTがリリースされた直後だったと思いますが、サムは冗談めかしてこう言いました。「AGIを使用するためのビジネスモデルを考え出そうとするのではなく、AGIを作って、ビジネスモデルを考え出してもらえばいいのではないでしょうか。」
これは、イーロン・ソルバーが彼の新会社SSI(Safe Super Intelligence)で行っていることかもしれません。彼のウェブサイトで述べているように、「超知能への直接的な道筋、中間製品なし」です。
これはssi.incです。彼らは「超知能は手の届くところにある」と言っています。彼らは1つの目標と1つの製品を持つことになります。安全な超知能です。「私たちの単一の焦点は、管理オーバーヘッドや製品サイクルによる気を散らすことがないことを意味し、私たちのビジネスモデルは、安全性、セキュリティ、進歩がすべて短期的な商業的圧力から隔離されることを意味します。」
つまり、ますます彼らは「ユーザーに製品をリリースする暇はない、ただ超知能に到達するまでスケーリングと改善を続ける必要がある」と言っているように見えます。
それだけでなく、その超知能が手の届くところにあるように見えます。少なくとも、そこに至る直接的な道筋があるように見えます。
ちなみに、もしあなたがOpenAIに投資している人の1人で、何らかの持分を持っているのであれば、私を養子にしていただけませんか?ただの冗談です。
ゴードンは続けます。「したがって、検索テスト時のパラダイムは、すべての二次効果と新しいワークフローが考慮されると、驚くほど馴染みのあるものになるかもしれません。先駆者として、AlphaゼロのSL(教師あり学習)、MuZero(強化学習)のトレーニングと展開、そしてその後のコンピュータ囲碁/チェスがどのようなものだったかを思い出すのにいい時期かもしれません。」
「Jonesの2021年の論文は、Snellよりもいくつかの参照点において関連性が高いです。なぜなら、Snellは静的で固定されたモデルを想定し、最も困難な問題が経済的に最も価値があるにもかかわらず、平均的なケースのパフォーマンスに注目しているからです。他のモデルがすでに解決している簡単な問題を解決することには、たとえより安価に解決できたとしても、価値はほとんどありません。」
「このようなシナリオでは、簡単な問題を解決するために小さな愚かな安価なモデルを大量に使用することが、固定された大きなモデルのパフォーマンスを上回ることは驚くべきことではありません。」
再び、大きなハイブクイーンモデルは、その特定の問題を解決することに非常に効果的な低ドローンを作成しますが、新しいモデルをトレーニングしている長期的なダイナミクスには関連性がありません。
「これは、小さなモデルのオーバートレーニングがコンピュート最適であるという最近の熱狂的な意見と同様の誤りです。これは、大きなモデルを蒸留、量子化、プルーニングできないという明らかに誤った仮定の下でのみ真実です。しかし、それは可能なのです。」
これが彼が言及しているJonesの2021年の論文です。ELOまたはeloは、対戦相手の強さや弱さを決定する方法です。多くのゲームで使用され、対戦相手の相対的な強さを決定します。上位にエキスパート、下位に初心者がいます。
ここでは、これらのセルフプレイモデルのトレーニング曲線を見ることができます。囲碁やチェスやhexなど、どのようなボードゲームをプレイしているかに関係なく、ここでの数字はボードサイズです。ボードサイズが大きいほど、もちろん複雑になります。
3×3は最小の興味深いボードサイズで、9×9はhexが完全なプレイを達成できる最大のボードサイズです。エージェントは124万試合を互いに対戦します。ここでゼロは完全なプレイを示します。
ご覧のように、より多くのコンピュートパワーを投入すると…これらは異なるバリエーション、異なるスナップショット、異なるエージェントが異なるプレイを行っているものです。太い線、太線が最良のものです。フロンティアの暗線は、トレーニング実行全体の最大値を取ることで形成されます。
要点は、3×3は非常に単純なボードで、複雑さが少ないため、少しのコンピュートパワーと短時間で完全なプレイに近づきます。4×4の場合、最初はそれほど良くなく、完全なプレイに到達するにはより多くのコンピュートパワーが必要です。
これは他のすべてについても同様です。9×9は最初はひどいものですが、より多くのコンピュートパワーを投入すると、より良く、より良くなり、完全なプレイに近づきます。
このシナリオ、彼らがテストしているこの種のものでは、明らかに「完全」というものが存在します。完全なゲーム、プレイがあります。完全なゲームが存在しない可能性のあるものが多くあります。たとえば、大規模な企業を運営しようとする場合、完全な、あるいは可能な限り最高の運営方法があるでしょうか?あるかもしれませんし、ないかもしれません。
しかし、重要なのは、時間とともにこの曲線に従って、会社の運営、科学的発見、政府の運営、交通システムの管理、病院の運営など、あなたが考えられるあらゆるものの潜在的な完璧な方法に近づくものをトレーニングすることを想像してみてください。
病院で何をしたいのかを理解できれば – 病人を治し、人々が死なないようにし、誰もが幸せであることを確実にし、リソースを無駄にしないようにするなど、病院が持つかもしれない様々なKPIを設定し、それを改善するように指示することができます。
これを本当に単純化して説明すると、このようになると思います。私たちはすでに超知能AIを作る方法を知っています。そのレシピを持っています。しかし、それは超知能の狭いAIです。特定の限られたタスクにおいてのみ、人間よりもはるかに優れています。
ここでGoogleのDeepMindが、異なるレベルのAGI(もしくはAI)をどのように見ているかを示します。レベル0は「なし」、そして「出現するAGI」、「有能なAGI」、「専門家AGI」、「巨匠AGI」、そして「超人的」という順序です。
専門家は熟練した大人の90パーセンタイルにいます。AlphaGoで言えば、90パーセンタイルです。パーセンタイルとパーセントを混同する人がいます。50%は全体の半分を指します。50パーセンタイルはただの一片を指します。
ここにいれば50パーセンタイルです。ここから上を話している場合、それは全体の50%です。巨匠は熟練した大人の99.5パーセンタイルにいて、超人的なAIは人間の100%を上回ります。
AlphaGoはレベル5の超人的AIですが、それは狭いAIです。明確に定義されたタスクまたはタスクのセットを持っています。タスクは、世界最高の囲碁プレイヤーを完全に圧倒することです。
しかし、私たちが話しているこの種のものは汎用的です。AIつまり人工汎用知能(AGI)は、これらすべてのことを一般的に行うことができます。AIは人間レベルの汎用知能、またはGoogleのDeepMindが分類するように、出現するAGIは、未熟な人間と同等かやや優れています。
出現するAGIの例はありますか?はい、ChatGPT、Bard、Llamaなどです。これは少し古いので、おそらくもっと多くの例があるでしょう。有能な汎用AIについては、彼らが投稿した時点では「まだ達成されていない」と述べていましたが、それ以降、一部の人々はおそらくいくつかの例があると主張するかもしれません。
おそらくo1モデル、o3モデルなどが該当するかもしれません。人々はそれについて賛否両論を持つでしょう。しかし、熟練した大人の少なくとも50パーセンタイルと言っているなら、o1をそこに置くことができると思います。
私は8,000人以上の素晴らしい人々に投票を求めました。「AIは平均的な人間より賢いですか?」67%の人が「はい、AIは今や平均的な人間より賢い」と答えました。11%は答えを飛ばしたことに注意してください。
はいとノーだけを見ると、これは75%になります。つまり、答えた人の75%が、AIは今や平均的な人間より賢いと言っています。したがって、私たちは有能なAGIにここで位置づけができると主張できると思います。
重要な点は、これらの狭いタスクで超人的AIを構築するためのレシピを持っているということです。Google DeepMindはそれを解明したと思います。その多くは強化学習、セルフプレイなど、それを実現するための材料に関係しています。
ここでデミス・ハサビスの16分の動画を見てみましょう。これはかなり前のものですが、チェスをプレイするようにAIをプログラムした場合について語っています。私は、多くの人々がまだ彼らが話していることを理解していなかった時期だったので、ここでの言葉遣いは少し不適切だと思います。
AlphaGoやその他のアルファモデルのようなシステムがあり、セルフプレイに従事している場合、つまり自分自身とプレイし、ゲームを作成し、学習し、改善し続けているとき、それは数十億のゲームを実行する可能性があります。
デミス・ハサビスが説明していたのは、私は少し言い換えていますが、このプロセスを開始すると – 朝に開始すると、このAIはチェスをプレイする方法を知りません。最悪です。ここにいます。最悪のプレイヤーよりも悪いです。何をしているのかさえわかりません。
そして続けると、昼食までには大半のプレイヤーを打ち負かすことができ、夕方には世界チャンピオンよりも強くなっています。彼はこの曲線を説明しているのです。何をしているのかわからない状態から始まり、最適なプレイ、完全なプレイに近づいていきます。
私たちはこれを構築する方法を知っていますが、汎用的なタスクには適用できませんでした。なぜなら、モデルに何をしてほしいのか、非常に具体的な結果が必要だったからです。チェスでは、モデルに何をしてほしいのかが明確です。勝利することです。
勝利が何を意味するのか、非常に明確な言葉で説明することができます。モデルが取り組むべき特定の指標を設定することができます。OpenAIは昔、これらの小さなエージェントがシミュレーションで隠れんぼをプレイするように訓練された小さなゲームを持っていました。
これは一種のビデオゲームのようなもので、彼らは最初、ランダムに動き、何をしているのかわかりませんでした。時間とともに、探す側は隠れる側を追いかけることを学びました。報酬関数は非常に単純でした。青い隠れる側を視覚的に見ることができれば、探す側は+1ポイントを得ました。
それは「やった!正しいことをしている」という幸せな状態でした。逆に、青いチームにとっては、もし隠れていて、これらの人々に見られていなければ、つまり直接の視線がなければ、+1を得ました。
これは勝利や敗北のゲームではありませんでした。これらの人々が長時間隠れたままでいられるかどうかでした。2,200万回のシミュレーションを実行しました。ゼロから始まり、動く方法さえ知らない、脳も知能も持たない状態から。
2,200万回で、探す側は隠れる側を追いかけることを学びました。彼らはほとんど赤ちゃんや幼児のレベルで、「あのものが欲しい、そちらに移動しよう」というようなレベルの能力でした。
8,800万回で、隠れる側は隠れるために避難所を構築することを学びました。ここでは、人間レベルの知能ではありませんが、ある種の知能を見ています。探す側は障害物を飛び越えるためにランプを使うことを学び、5億回のゲームで…
そしてこれは続き、続き、続きます。これらの小さなAIエージェントが、意図しない方法で物理エンジンを悪用する方法を見つけることを含め、かなり狂気じみてきます。
このワールドを構築した開発者たちは、特定のバグや悪用について知りませんでした。パッチを当てて修正する必要がありましたが、これらの小さなAIエージェントはそれらの事を悪用する方法を見つけました。
彼らはランプの1つを拾い上げ、壁に向かって走り、ちょうど正しい角度で当たると、空中に打ち上げられ、隠れている人々のところに着地できることを発見しました。彼らは自分自身を投石機のように使用したのです。開発者たちは明らかにこれが可能だとは考えていませんでした。それは不具合でした。
OpenAIの研究者であるジェイソン・ウェイの最近の発言を思い出してください。「魔法とは、十分な計算能力を持つ止められない強化学習の最適化アルゴリズムが、ハッキング不可能な強化学習環境に出会うときに起こることだ」
面白いことに、コメンターの一人、Jonathan Ivan no free will 42は「それがマルチエージェントの隠れんぼよりも良くデザインされた環境であることを願います」と言っています。素晴らしい、素晴らしい、今年の見過ごされたコメントだと思います。なぜこの人をフォローしていないのでしょうか?フォローしなければ。
冗談はさておき、私たちはこれらの汎用AIを作成し、同じような曲線を描くようにする方法を理解しようとしていたと思います。囲碁、チェスなどのために超知能AIシステムを構築するためのレシピを持っていました。
隠れんぼをプレイするなど何でもできましたが、そのレシピは汎用知能、推論には機能しませんでした。本当に最近、おそらく去年か、一般的な推論をそのレシピに組み込み、超知能を作り出す方法を理解したように見えます。
そして今、それが起こっています。アンドレ・カーパシーはこう言っています。「魔法とは、最適化がその環境さえもハックするときだ」。おそらく、同じことを指しているのだと思います。彼は隠れんぼプロジェクトの一人でした。
私は2023年初頭、つまりGPT-4が登場して数ヶ月後に、このビデオをチャンネルに投稿しました。これはもちろんアンドレ・カーパシーで、OpenAIの初期メンバーの一人です。10〜20秒ほどですが、これは私たちがそれほど遠くない過去にいた場所と、なぜこれが大きな出来事なのかを示しています。
初期のOpenAIは、おそらく12人程度のメンバーがいた2016年頃、当時の主流は強化学習エージェントでした。みんなエージェントの構築に興味を持っていましたが、当時は主にゲームの文脈でした。
Atariやその他のゲームプレイに関する興奮が最高潮に達していた時期でした。私のOpenAIでのプロジェクトは、強化学習エージェントをゲームやモンテズマの復讐などではなく、コンピュータの使用、キーボードやマウスの使用に焦点を当てようとしていました。
私は彼らを有用にしたかったのです。多くのタスクを実行させたかったのです。このプロジェクトは「World of Bits」と呼ばれ、ティミーとジム・ファンと一緒に取り組みました。ジム・ファンはどこかにいると思います。
それがNVIDIAのシニアAI研究者であるドクター・ジム・ファンです。彼らは親友ではないかもしれませんが、確かに良い友人で、このプロジェクトで一緒に働きました。私たち3人は論文を発表しましたが、それはそれほど素晴らしい論文ではありません。
なぜなら、当時私たちが持っていた道具は強化学習だけだったからです。私たちは非常に単純なウェブページを持っていて、フライトを予約したり、何か食べ物を注文したりするような単純なウェブページで、ボタンやマウスクリックを押し続け、より高い報酬にたどり着こうとしました。
明らかにそれは機能しませんでした。技術はまだ準備ができていませんでした。それは当時取り組むべき正しいことではありませんでした。実際には、AIエージェントを完全に忘れて、言語モデルの構築を始めることが正しいことだったことが判明しました。
そして言語モデル…ここに5年後に戻ってきました。私は少しの間、自動運転に気を取られていました。このビデオが録画される5年前、彼らはエージェントに強化学習を使って、オンラインで旅行を予約したり何かをしようとしていましたが、それは行き詰まりでした。
フライトの予約やスクリーン上の正しい場所でマウスをクリックすることなどはできませんでした。単にそこまでの技術はありませんでした。隠れんぼのように「このプレイヤーが見えますか?もし見えたら良い、見えなければ悪い」というような単純な説明はできません。
ウェブナビゲーション、詐欺を避けること、愚かなことをしないことには、一般的な知能が必要でした。
ちなみに、これは2023年11月24日、つまり1年数ヶ月前の私のビデオです。今出てきているのと全く同じことを話していました。大規模言語モデルのトレーニングと使用を、AlphaGoのセルフプレイや先読み計画などの成功を可能にした深層強化学習の中核的なコンポーネントにリンクさせることについてです。
1年以上前に、このチャンネルで私たちが話していたことを少し聞いてみましょう。「セルフプレイが続くにつれて、良い手を打つ能力と、盤面を理解し誰が勝つ可能性が高いかを理解する能力の両方が、ポリシーが手の選択を改善するにつれて反復的に改善されます。より多くのデータから学習し、ポリシーにより良いフィードバックを提供します。」
これは天才的な永久運動機を完成させます。ちなみに、人々がAIの安全性について話すとき、AIがもたらす様々な脅威について話すとき、これが多くの人々が理解する必要がある部分だと思います。これは少し怖くなる部分です。この永久運動機ですが、この場合の運動はAIが賢くなることです。
永続的に賢くなり、賢くなることがより上手くなり、それを再帰的に行い、より速く、より速くそれを行います。当時、多くの人々は私が狂っていると思いました。これは陰謀論だ、誤情報を広めるべきではない、これについて話すべきではないと言われました。
同じ頃、私たちはGPT-4を使って他のモデルに知識を蒸留させること、将来のモデルをトレーニングするための合成データを作成することについても話していました。それは2023年11月25日のことでした。
このチャンネルをそれ以来見ている人にとって、これらの多くは驚きではないはずです。私たちはものごとがどこに向かっているのかを知っていました。それがどれほど上手く機能するのか、どれほど速く進むのかはわかりませんでした。確かに、予想よりも事態は早く動いているように見えます。
しかし、文字通り、大規模言語モデルがAlphaGoやそれらのモデルの背後にあるアイデアと結合して、次の進化段階のロックを解除し、潜在的に私たちを…当時は超知能という言葉は使わなかったと思いますが、確かにより高い知能レベルへと自己をブートストラップする、再帰的な自己改善などについて話していました。
しかし、これらすべては何を意味するのでしょうか?それは私たちがシンギュラリティに近づいているということです。知能の急速な改善、知能爆発、おそらくAI研究の自動化です。
アレック・ラドフォードは、最も賢いわけではないかもしれませんが、特にここ10年ほどの最も賢いAI研究者の一人としてよく認められています。私は彼についてそれほど多くを知りません。彼は非常に控えめな存在ですが、サムは「彼はアインシュタインレベルの天才だと信じている」と言っています。
ヨシュア・ベンジオの論文の一つのアイデアは、AIがアレック・ラドフォードレベルでAI研究を行うことができるようになったとき、1人ではなく1,000人、100万人、1,000万人、そして無限の数のクローンが24時間体制で働き、1人が何かを学ぶとすべてがそれを学び、何かを改善するたびに彼ら自身も改善されるとどうなるかということです。
次に何が起こるにせよ、シートベルトを締めて、購読を忘れないでください。なぜなら、他の誰よりも1年前に何が起こっているのかを知ることになるからです。
そして行く前に、これについてどう思うのかコメントで教えてください。私たちは大規模言語モデルの推論能力を取り、ついに強化学習アルゴリズムを作成する方法を見つけ、隠れんぼプレイヤーや囲碁プレイヤーが自分自身と何十億回もゲームをプレイして非常に急速に改善したように、彼らが賢くなるための空間を作り出しましたか?
言葉や推論のための環境を作り出し、大規模言語モデルがセルフプレイを行い、より高い知能レベルへと自己をブートストラップし続けることができるようにしましたか?私たちは彼らの推論能力、物事を考え抜き正しい決定を下す能力について、ELOレーティングが急上昇するのを目にしようとしているのでしょうか?
o1はすでに、特定の質問に答える能力において、PhD レベルの人々や数学における最高の頭脳の多くよりも優れています。では、それが改善を続け、完璧なプレイ、最適なプレイに近づき始めたらどうなるでしょうか?
もしそのようなものが存在しないとしても、少なくともそれに似たものに近づいたとき、それはどのように見えるのでしょうか?世界にどのような影響を与えるでしょうか?
もしあなたが今生きているなら、まず第一に、死なないでください。今死ぬのは非常に悪いタイミングです。そして第二に、これが人類史上最も興奮する時期である可能性が高いことを理解してください。おそらく史上最高で、私たちはそれをリアルタイムで目撃しているのです。
以上、私の名前はウェス・ロスです。視聴ありがとうございました。また次回お会いしましょう。
コメント