中国の研究者たちがOpenAIのAGIの秘密を解き明かした！

15,110 文字

Chinese Researchers Just CRACKED OpenAI's AGI Secrets!

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

中国の研究者たちについて、予想だにしなかった展開があったと言わざるを得ません。誰もこれを予想していなかったのではないでしょうか。ここでは、これまでの経緯を10秒で振り返ってみましょう。
2023年11月、OpenAIから情報が漏洩し、彼らが新しいAIのブレークスルーを開発したことが明らかになりました。それは非常に賢く、推論能力があり、さまざまなコーディングタスクや数学タスクで極めて優れた性能を発揮するものでした。2024年末にかけて、これらのモデル、特にo1とo3が公開され始め、さまざまなベンチマークでトップの成績を収めました。
そして実際、私を含む多くの人々が、これは早期のAGIと呼べるのではないかと考えています。過去1年ほどの間にOpenAIを去った人々とその後の計画を見てみましょう。多くの人々が、これは空想ではなく、人工超知能に近づいているのだと主張しています。
例えば、イリヤ・サツケヴィッチは最近SSI（安全な超知能）という会社を設立しました。スーパーアライメントチームのメンバーだったレオポルド・アッシェンブレナーは、状況認識に関する論文を発表し、AGI開発のためのマンハッタン計画のようなプロジェクトが行われる可能性について言及しています。つまり、ベイエリアのテック企業が開発するAIと国家安全保障機関が融合し、一体となっていくという予測です。これは国家の利益と安全保障の問題となっていくでしょう。
開発者関係の責任者だったローガン・キルパトリックも最近、ASI（人工超知能）への直接的な道筋が月を追うごとに現実味を帯びてきていると投稿しています。彼が具体的に言及しているのは、テストとコンピュートという考え方です。つまり、隠された思考の連鎖、テストとコンピュート、推論のスケーリング、テスト時の推論など、これらはすべて同じことを指しています。モデルに考える時間を与え、思考のためにより多くのリソースを使用させると、その結果は一言で言えば驚異的なものになるということです。
例えば、ARC AGIのスコアを見てみましょう。推論なしのモデルではゆっくりと上向きのカーブを描いていますが、テストとコンピュートを導入すると、このような垂直な飛躍が見られます。これこそが起きたことなのです。
これらの推論モデルは、これまでさまざまな名前で呼ばれてきました。最初はプロジェクトのコードネームとしてqarと呼ばれ、その後strawberryと呼ばれ、現在ではo1、o3として知られています。
ご存知の通り、OpenAIはこれらの隠された思考の連鎖を見せることを許可していません。モデルが思考プロセスを経て結論に至る過程を見ることができないのです。これには複数の理由がありますが、その一つは、これが特別なソースだからです。人々がアクセスできてしまうと、これらのモデルの結果を容易に複製できてしまうからです。
実際、すでにそうしている企業もあります。それについては後ほど説明しますが、これがOpenAIがユーザーに対して、推論についてstrawberryに質問することを禁止し、違反するとアクセスを失う可能性があると警告している理由です。
これが起きているという傍証もたくさんあります。多くの人々がOpenAIからのメールを投稿しており、モデルの思考を探ろうとすると追放されると警告されています。マルコ・フィグエロはモデルのレッドチーミングやテストを行っていましたが、追放リストに載ったと述べています。また、エルダー・プレヌスというプロンプターに対して、レッドチーマーたちは今や追放される可能性があると警告しています。
これらのモデルをハッキングしようとしたり、思考の連鎖を出力させようとしたりすると、追放される可能性があるということです。smokeawayもTwitterで、GPTo1に思考の連鎖について何度か質問すると、OpenAIサポートから警告メールが来てアクセスを取り消すと脅されたと述べています。
つまり、OpenAIは驚くべき素晴らしい技術を開発し、他の人々がそれをコピーしたり、盗んだり、リバースエンジニアリングしたりできないように、非常に慎重に守っているということです。
しかし、一つ問題があります。最近の中国の論文によると、もう手遅れかもしれません。彼らはすでにこれらの推論モデルの背後にある秘密のソースを手に入れているようなのです。
いくつかの点について見ていきましょう。第一に、2024年12月に発表された非常に最近の論文、「探索と学習のスケーリング：強化学習の観点からo1を再現するためのロードマップ」についてです。次に、私が考える中国版のこのモデル、つまりo1モデル、推論モデルを彼らが再現したと思われるものをお見せします。
さらに、彼らがこのo1モデルから得た合成データを使って、次世代のモデルを構築している方法についても説明します。彼らはそう呼んではいませんが、次世代モデルの構築にこれを使用しているのです。この論文はまさにその方法を説明していると思います。
ただし、これは私の意見であり、私の推測です。真実かどうかはわかりませんが、なぜそう考えるのか説明します。憶測だと思って受け取ってください。しかし、事実を見ていきましょう。
この論文は復旦大学上海AI研究所から2024年12月に発表されたものです。先ほど述べたように、これはo1を再現する方法についての論文です。
ここで私が興味深いと思うのは、OpenAIは当初、オープンソースのAI企業として始まったということです。オープンソースAGIが元々のミッションでした。人類の利益のためにAIを作り、オープンソース化することが目標でした。
しかし最近では、そのミッションはかなり変わってきました。少なくとも批評家たちはそう言っています。第一に、もはや非営利組織ではなく営利企業になり、第二に、彼らの成果の多くをオープンソース化することはなくなり、独自のモデルとして非公開になっています。営利企業として機能しているわけです。
彼らはなぜその道を選ばざるを得なかったか、これらのモデルの訓練にどれだけのコストがかかるか、オープンソース化による潜在的なセキュリティの問題などについて説明しています。私はここで彼らが正しいか間違っているかを判断するつもりはありません。それがこのビデオの目的ではありません。
しかし、興味深いのは、彼らが作成し、オープンソース化しない多くのものが、面白いことに中国によってオープンソース化されているということです。彼らの技術の多くが中国で再現され、オープンソースになっているのです。
例えば、Deep seekのモデルを見てみましょう。OpenAIは実際、これらのオープンソースモデルの作成に大きく貢献していると言えます。仲介者を通じてではありますが。それは少し皮肉なことだと思いませんか？
この論文に戻ります。まず、OpenAIは人工知能において重要なマイルストーンを達成したと述べています。最初の2文で3つのスペルミスがありますが、これは良いことです。ChatGPTが書いたものではないということを示しています。
彼らは、o1の背後にある主要な技術は強化学習だと述べています。最近の研究では、知識蒸留のような代替アプローチを使用してo1の推論スタイルを模倣しようとしていますが、その効果は教師モデルの能力の上限によって制限されています。
この用語をすぐに定義しましょう。今後ますますこれらの用語を耳にすることになるでしょう。知識蒸留とは何でしょうか？
知識蒸留とは、賢いスーパーモデル（教師モデル）があり、それが多くの非常に賢いタスクを実行できる、推論ができる、正確なコードを書けるなど、何でもできるというものです。そして、このモデルの出力を取り、より小さなモデル（生徒モデル）を教えるために使用します。
これを行う理由は、教師モデルが時として非常に大きく、遅く、計算コストが高いためです。しかし、そのモデルの出力や推論を取り、新しいモデルのデータとして使用すると、時として教師モデルの能力の大部分を保持しながら、より小さく、より速く、より安価なモデルを作ることができることがわかっています。
私が初めてこれを見たのは、MicrosoftのOrcaとOrca2の論文でした。彼らがこの知識を最初に公開した一人だと思います。実際、現在では、GroやDeep seekの新しいモデルなどをテストする際、どのモデルで実行されているかを尋ねると、よく「私はGPT-4です」と答えます。なぜなら、これらのモデルの多くは、彼らは認めたがらないかもしれませんが、GPT-4モデルを教師モデルとして使用して独自のモデルを作成しているからです。これが知識蒸留です。
彼らは続けて、政策の初期化、報酬設計、探索、学習という4つの主要コンポーネントに焦点を当てながら、強化学習の観点からo1を達成するためのロードマップを分析していると述べています。
簡単に説明すると、強化学習とは、犬の訓練のようなものだと考えることができます。特定の望ましい行動に対して報酬（おやつ）を与えます。これが強化学習の一つの基本である正の強化です。また、必ずしも常に使用されるわけではありませんが、望ましくない行動に対するペナルティや罰則である負の強化もあります。
子犬が良い行動をすれば、おやつをあげます。モデルが良い行動をすれば、+1を与えます。YouTuberが良い仕事をすれば、いいねボタンを押します（ヒントヒント）。
論文に戻りますと、彼らは強化学習の4つの主要コンポーネントについて簡単に説明しています。
政策の初期化は、モデルが人間のような推論行動を発展させ、複雑な問題の解決空間を効果的に探索する能力を備えることを可能にします。
報酬設計は、報酬形成や報酬モデリングを通じて、探索と学習の両方に対する指針となるDSEと効果的な信号を提供します。
探索は、訓練フェーズとテストフェーズの両方で高品質なソリューションを生成する上で重要な役割を果たし、より多くの計算でより良いソリューションを生み出すことができます。
これは、テスト時コンピュートという考え方を指していると思います。GPT-4をテストしていた頃、多くの人々は「推論できない」と言い、GPT-4が正直に失敗するような問題がいくつかありました。
このチャンネルで行った悪名高い例の一つは、家具配置の問題でした。6×6グリッドや3×3グリッドがあり、ABCDと名付けられた家具をそのグリッドに配置する必要がありましたが、AはBの下には置けないなどの制約がありました。
GPT-4は賢かったものの、一度に問題を解くことはできませんでした。解決策に導くためには多くの小さなトリックを使う必要がありました。なぜなら、一度に答えを出さなければならなかったからです。
質問をして、書き始め、最後まで到達したときには、正しいか間違っているかのどちらかです。後戻りして考え直したり、異なるシナリオを視覚化したりすることはできません。ただ一度に答えを出すだけです。
しかし、o1モデルでは、これらの多くが容易になりました。なぜなら、一歩一歩考えていくことができ、問題に直面した場合には立ち止まって考えることができるからです。
クロスワードパズルをしていて、入れた答えの一つが他の答えと合わないことに気づき、戻る必要があるようなものです。または、チェスをしていて、動かした駒に指を置いたまま、間違いを犯していないか周りを見回すようなものです。
このような探索が可能になり、他の多くの機能も加わりました。彼らが言うように、訓練フェーズとテストフェーズの両方で、より多くの計算を使用することで特に可能になったのです。
学習は探索によって生成されたデータを使用して政策を改善し、より多くのパラメータとより多くの探索データでより良いパフォーマンスを達成できます。
2022年5月のスタンフォードとGoogleリサーチによるこの論文が、これらの多くのきっかけとなったと思います。彼らは「言語モデルの既存の推論能力を活用することで、高品質な理論的根拠を生成する能力を反復的にブートストラップする」と述べています。
ここで彼らが言っているのは、例えばGPT-4のように、この過程を始めるのに十分賢いモデルがあるとします。非常に単純な質問や、より複雑な質問が与えられ、理論的根拠と答えを生成します。答えが正しければ、生成された理論的根拠は次世代モデルの訓練や微調整に使用されます。
バージョン1.0が数百、数千の質問に対する理論的根拠を生み出し、それらはバージョン2.0の訓練や微調整に使用され、その答えはバージョン3.0の訓練に使用される、というように続きます。
重要なのは、この反復的なブートストラップ能力により – ブートストラップというのは、自身が生成したデータで訓練されるということですが – 精度が向上し続けるということです。
これらの研究者の一人であるノア・グッドマン博士は、Reutersの取材で、これにより、これらのモデルが人間レベルの知能や能力を超えて自身をブートストラップできる可能性があると信じていると述べました。
上海AI研究所の論文に戻りますと、探索によって生成されたデータを使用して政策を改善し、より良いパフォーマンスを達成できると述べており、これを学習と呼んでいます。つまり、探索は答えを生成することで、学習は微調整とそのプロセスの改良ということです。
上海AI研究所の論文では、報酬設計と強化学習について説明しています。先ほど見たスタンフォードの自己教師型推論器の論文と非常に似ています。探索は推論であり、出力を与え、合成データを提供します。その推論能力は「ちょっと考えてみましょう、XYZをすべきだと思います。いや、それは上手くいかないかもしれません。実際にはABCでなければなりません」というような段階的なアプローチです。
これが学習に使用されるデータとなり、探索を継続するための政策を提供します。ここまでのところ、2022年のスタンフォードとGoogleリサーチの論文とほぼ同じことを言っています。完全に同じではありませんが、考え方は非常に似ています。
ここでロードマップが示されています。政策の初期化、事前訓練、指示による微調整、人間のような推論行動、そしてこれらの主題についてこれまでに書かれた様々な論文があります。また、先ほど話した報酬、探索、学習についても触れています。
ここで彼らは、OpenAIのo1について、その驚くべき推論の成果は、AGIへのロードマップの第2段階、つまり推論器への進展を示していると述べています。AGIに向けた5段階のロードマップにおいて、第2段階は強力な推論器になること、第3段階はエージェントになることに焦点を当てています。
このチャートを思い出してください。これはOpenAIによるAGIとその先への進展についての認識を示したものです。レベル1は会話言語を持つチャットボットで、これはGPT-4とその以前のすべて、GPT-4.0までのすべてをレベル1のAIと考えることができます。
レベル2は推論器、人間レベルの問題解決者です。これがo1の大きな意味で、OpenAIがレベル2に到達したことは間違いなく言えます。実際、推論モデルを持っており、多くの面で人間レベルをはるかに超えています。
例えば、これらのモデル専用に開発されている将来の数学ベンチマークがあります。国際数学オリンピード（IMO）のような問題は、今ではほとんど簡単すぎるものとなっています。AIMEでほぼ100%のゴールドメダルを獲得できるほどです。これらのAIをベンチマークするために、人間の能力をはるかに超える新しい数学問題を作り出す必要があるほどです。
レベル3はエージェントで、行動を起こし、長期的な視野を持つタスクを実行します。レベル4はイノベーターで、発明を支援し、科学分野を前進させることができます。
多くの人々にとって、ここから少し怖くなります。なぜなら、これらのイノベーターが何をするのか、AI研究を自動化したとき何が起こるのかということです。人間の知能よりも優れたものがAIの進歩を推し進めるとき、私たちはその状況がどのようなものになるのか、100%確信が持てない奇妙な状況に入ります。
そしてレベル5は組織です。組織の仕事を行うことができるAIです。
2023年11月、私たちは全員、qarが何なのか理解しようとしていました。様々な推測があり、このチャンネルでもいくつか取り上げました。当時、このようなことを推測するのは少し怖かったです。これは単なるファンタジーなのか、サイエンスフィクションなのか、ナンセンスなのかと考えていました。
コメント欄で多くの人々が「これはナンセンスだ」「誤情報だ」と不平を言っていました。それらの人々に対して、敬意を持って言いたいのは、あなたたちの顔に投げかけたいということです。なぜなら、それらは正しかったからです。実際、私たちはそれを目の当たりにしており、この論文もそれについて話しています。
AIモデルには2つのスケーリング方法、あるいは彼らが言うようにパラダイムシフトがあります。自己教師あり学習から強化学習へ、そして訓練計算のみのスケーリングから、訓練と推論の両方の計算のスケーリングへの移行です。
つまり、モデルの訓練により多くのハードウェアリソースを投入するだけでなく、質問に答えるときにモデルに考えさせるためにもより多くのハードウェアを使用するということです。
具体的に彼らが言及しているのは、1年前に私たちが話していたことです。一方では、GoogleのDeepMindのアルファ碁、アルファ碁ゼロ、その他のアルファモデルがありました。
興味深いことに、DeepMindの以前のチェスモデルでは、利用可能な人間の対局データすべてで訓練したとき、かなり良くなり、最高の人間プレイヤーの一人と同等のレベルになりました。しかし、自己対局を許可し、独自の対局データを生成させると、何十億もの対局を重ねた後、チェスをプレイする人間よりもはるかに優れたものになりました。アルファ碁の自己対局も同じです。
これが探索です。様々な対局を探索し、データを生成し、そのデータで訓練するというループです。探索して学習し、探索して学習する反復的なループで、自身を改善していきます。人間のデータを与えるのではなく、「自分でデータを生成し、そのデータから学び、そのデータで自分を改善し、そして賢くなったらさらにデータを生成し続けなさい」というアプローチです。
彼らは、o1の思考プロセスを実装する方法として探索を採用すると述べています。なぜなら、探索はスケーラブルであり、強化学習の訓練と意思決定に探索を使用した成功した研究がたくさんあるからです。アルファ碁、アルファ碁ゼロなどです。
この論文では、o1へのロードマップにおいて強化学習を中核に据えています。
政策について、アンドレイ・カーパシーによる2023年末か2024年初頭のAGIハッカソンでの興味深いビデオがあります。大規模言語モデルが存在し、効果的になる前、彼らは強化学習でウェブを navegateできるエージェントを作ろうとしていました。
彼は、当時それは完全な袋小路だったと言っています。強化学習を考えると、行動空間が広すぎて、何かをクリックするたびに報酬を与えるのは難しすぎました。
大規模言語モデルも同じです。ランダムに文字を吐き出し始めたとき、それに対してプラスやマイナスの評価を与えることはできません。その観点からのアプローチは機能しないと彼らは言っています。
ゼロから強化学習を使って大規模言語モデルを訓練することは、不可能か、極めて困難です。しかし、これらの大規模言語モデルが機能した理由は、インターネットの膨大なデータを使って言語モデルを事前訓練したからです。これにより、流暢な言語出力を生成できるようになりました。
つまり、言葉や文章が少し意味を成すところまで到達したということです。そして、教師あり微調整があります。人間からのフィードバックによる強化学習です。何か良いことをすれば「やった！」と言い、何か悪いことをすれば「それはダメ」と言います。
これにより、モデルは人間のような推論行動を獲得し、体系的に考え、自分の結果を検証できるようになります。これらのアプローチにより、モデルは解決空間を徹底的に探索できるようになります。
これが少し変に聞こえるなら、解決空間とは何か、これは何を意味するのでしょうか。これはOpenAIがo1のプレビューを紹介したときのものです。右側がo1プレビュー、推論モデルo1で、左側が古いモデル、推論機能のないGPT-4.0です。
ランダムな文字ではありませんが、意味のない文字列が与えられ、「段階的に考えなさい」と言われます。そして「上記の例を使って以下を解読しなさい」と指示されます。
GPT-4モデルは、考えて考えて考えて、「意味のある解読をするには、追加のコンテキストが必要です」と結論付けます。解読できないのです。
右側がo1プレビューです。同じプロンプトを与えると、これが私たちが見る答えですが、隠された思考の連鎖もあります。「meow」を投げかけていますが、「chains of thought（思考の連鎖）」は複数形でchains of thoughtsなのでしょうか？cesacの複数形はcacsではなく、K’sだと気づきませんでした。申し訳ありません。
重要なのは、ここで思考の連鎖が始まることです。例を考え、これがどのように解読されるのかを理解しようとします。文字を数え、解読されていないバージョンの文字も数えます。それぞれの単語の文字数を一文字ずつ数え、全部足し合わせたときに違いがあるかを見ています。
一方は30文字、もう一方は15文字です。これを一行一行読みませんが、これが彼らがテスト時コンピュートと呼ぶものです。これは考えているところです。
「待てよ、ここにはアナグラムか置換暗号があるかもしれない」と。見ての通り、考え続けています。これはしばらく続きます。アイデアを思いつきます。「おそらく、一つおきの文字を取るか、暗号文から平文を再構築する必要があるのでしょう。このアイディアをテストしてみましょう」
見ての通り、思考を一つずつ、非常に綿密に進め、異なる方法をテストしています。「待てよ、2番目の文字、または1番目の文字を取ってみたらどうだろう？奇数位置の文字を取ってみよう。この文字を”think”という単語にマッピングできるだろうか」
これを全部読みませんが、かなりの量です。ページとページを重ねて、ただ座って考え、何が機能するか、何が機能しないかを見ています。延々と続きます。私はただスクロールしていきますが、これはすべて考えに考えを重ねているところです。ここで終わります。
解読されたメッセージは「strawberryには3つのrがある」というものでした。これはなかなかの難問で、人々がstrawberryにrがいくつあるのか尋ね続けていたのです。モデルはそれを解き明かしたのです。
彼らが「これにより、モデルは解決空間を徹底的に探索できるようになる」と言うとき、これは素晴らしい例だと思います。4.0が「ちょっと考えてみましょう…いや、できません」というのに対し、o1は座って、人間なら何時間もかかるような作業を行います。解答にたどり着くために、解決空間を徹底的に探索したのです。
これは、アンドレイ・カーパシーが話していたことにつながります。大規模言語モデルが一定の臨界量に達する前は、強化学習でこれらのことを試みることは、彼の言葉を借りれば袋小路ではありませんでしたが、当時は機能しませんでした。
しかし、GPT-4レベル以上の大規模言語モデルを手に入れた今、その上にGoogleのDeepMindのアルファモデルが持っていたような特別なソースを追加することができ、それらを組み合わせることができます。これは昨年私たちが推測していたことであり、確かにこれがすべての行き着く先のようです。
次に報酬設計があります。ロボットであれ、大規模言語モデルであれ、AIシステムには強化学習を通じた報酬があります。正しいことをすれば+1、親指を立てる、犬のおやつなどの報酬があり、負の強化もあります。
そして、まばらな結果報酬と密な過程報酬というアプローチについて簡単に説明しています。大きな達成に対してのみ報酬が与えられ、それらの報酬の間に多くの時間が経過する場合、プロセスを形作る迅速な報酬ほど効果的ではありません。
正しいことをすれば報酬を得る、これの良い例は、かつてOpenAIが行った隠れん坊ゲームです。青チーム2人、赤チーム2人で隠れん坊をしました。このブログ記事を読んだことがない人は、ぜひGoogleで「OpenAI hide-and-seek」を検索してください。
これは、ニューラルネットが何を成し遂げられるかについて、私の心を開かせた最初のものの一つです。リアルタイムで知能が出現していく様子は、心を打つものでした。
ここで注目すべき点の一つは、小さなAIロボットやエージェントに、「勝利」や「敗北」に対する報酬やペナルティを与えなかったことです。それは各ゲームの間に10分ほどかかるかもしれないからです。
また、環境内のオブジェクトとやり取りするような明示的なインセンティブも与えませんでした。唯一の監督は隠れん坊の目的を通じて行われました。唯一の報酬関数は隠れん坊の目的だけでした。
エージェントにはチームベースの報酬が与えられ、隠れる側はすべての隠れ手が隠れていれば+1、探す側に見つかれば-1の報酬を得ます。探す側は逆の報酬を得ます。つまり、すべての隠れ手が隠れていれば-1、見つければ+1です。
例えば、今赤チームは青チームを見ることができないので、青チームは喜んでいます。見つからないので+1を得ています。しかし、隠れ続け…隠れ続け…突然赤チームが現れ、青チームの一人を直接見ることができました。今や赤チームは報酬を得ています。両方見つけることができたので、ポイントを重ねています。
大規模言語モデルが何かをしているとき、質問に答えるための推論を生成するにせよ、何をするにせよ、それをする方法について報酬を得ています。それが政策を変更し、どのように行うかを変えているのです。
これは、先ほど触れたスタンフォードの自己教師型推論器の論文で簡単に示されています。理論的根拠を生成し、「したがって、答えはBでなければなりません」と言います。
正解であれば+1を得て、それがバージョン2.0モデルの微調整や訓練に使用されます。推論が間違った答えにつながった場合は、ヒントが与えられ、答えを変更することができ、正解を得るまで続けます。
o1を再現する論文に戻りますと、彼らは、モデルがステップバイステップで報酬を得ていることを示しています。これはトークンレベルまたはソリューションレベルで行うことができ、モデルが報酬を得る異なるレベルがあります。
次に、探索は訓練フェーズとテストフェーズの両方で重要な役割を果たすと続けています。探索が合成データを生成し、それが次のモデルの訓練に使用されるという、訓練データへの探索の貢献です。
訓練時の探索とは、探索プロセスから訓練データを生成することを指します。単純なサンプリングではなく探索を使用して訓練データを生成する利点は、探索がより良い行動やソリューション、高品質な訓練データを生み出し、それによって学習の効果を高めることです。
推論時にも、探索はモデルの最適ではない政策を改善する上で重要な役割を果たし続けます。彼らは、アルファ碁がテスト時にモンテカルロ木探索を使用してパフォーマンスを向上させることに言及しています。
私の解釈では、質問に間違った答えを出した場合、例えば「小さな犬を運ぶのに何が使えますか？」という質問に「プール」と答え、「犬は水が好きだから」といった理論的根拠を示した場合、それは間違った答えです。間違った答えを導いた思考は良くないものでした。これは、正しい答えにつながる推論に報酬を与える方法です。
そして学習については、人間の専門家のデータからの学習には、コストのかかるデータの注釈付けが必要です。これは、「これは犬です」「これも犬です」「これは猫です」というように、人間がすべてにラベルを付ける必要があるということです。
これは非常にコストがかかり、スケーラブルではありません。しかし、環境との相互作用を通じて学習できれば、超人的なパフォーマンスの可能性が開かれます。
これは、GoogleのDeepMindのアルファモデルで見たものです。利用可能な人間のチェスの対局データすべてで訓練された時、まず限られた量しかありませんでした。新しい対局を作り出すのはコストがかかりました。
しかし、独自の対局を生み出し始め、何十億もの対局を行うようになると、超人的なパフォーマンスの可能性が開かれ、実際にそうなりました。チェスで超人的になり、その後、囲碁でも同様になりました。
これは51ページにも及ぶ大きな論文で、非常に密度の高い内容です。より深く掘り下げたい方には、ぜひ読むことをお勧めします。私は主要なポイントをお伝えします。
その一つが報酬設計です。左側には結果報酬があります。質問があり、モデルが答えを出し、それが正しいか間違っているかを判断します。基本的に答え全体に対する結果報酬です。全体が正しければ+1です。
一方、過程報酬は、ステップバイステップで分解し、「これは正しい、これは正しい、これは正しい、でもここが間違い、ここも間違い。ここで間違った方向に行った」というようにします。
一般的に、報酬プロセスがより細かいほど、より良く、より容易になります。報酬のチェックポイントが離れすぎていると、軌道修正するのに十分なフィードバックを得るのが難しくなります。
しかし、彼らが指摘するように、結果報酬は比較的構築が容易です。この問題が正しいかどうか、基本的に最後の行を見るだけで、これが正しい数字かどうかを判断します。
しかし、中間のステップの監督が欠けています。これは先ほど話したことです。間違った推論が偶然に正しい答えにつながった場合、正解を得たので100%となります。実際の作業をチェックしていないのです。
例えば、数学の問題の解答が正しい答えにつながっていても、中間のステップにエラーが含まれている可能性があります。結果報酬だけを見ると、大規模言語モデルが間違った解答ステップを生成する原因となり、パフォーマンスに悪影響を与える可能性があります。
後になって問題が発生したり、隠れた地雷が存在したり、後で悪い答えを出す可能性があります。そのデータを訓練に使用する場合、そのデータは複合的な効果を持つ可能性があります。
さらに、結果報酬はまばらです。チェックポイント間の時間が長すぎます。より迅速なフィードバックがあれば、より良く軌道修正できます。
対照的に、過程報酬は最終ステップだけでなく、中間ステップにも報酬信号を提供します。しかし、これには人間の注釈者が大規模言語モデルによって生成された数学的解答の中間ステップに報酬を与える必要があります。
ここで彼らは、過程報酬、つまりより細かいアプローチは有望だが、より困難であると指摘しています。様々なAIシステムに中間ステップをチェックさせる方法があれば、それが究極の方法となるでしょう。
論文の終わりに向かって、オープンソースのo1プロジェクトについて触れています。OpenAIはo1をオープンソースプロジェクトとして公開していませんが、複製を試みた多くのプロジェクトがあります。
彼らはDeep seek R1に言及しています。これは中国の企業です。彼らはo1の複製を試み、非常に上手くいきました。o1のレベルには完全には達していないかもしれませんが、OpenAIがo1をリリースしてから約8週間後にリリースしたことを考えると、まずまずの成果です。
確実により多くのブレークスルーが見られ、おそらくより印象的でより正確な新バージョンが登場するでしょう。R1の後、Deep seek V3をリリースしました。
Deep seek V3について特に興味深いのは、R1からの知識蒸留を使用してDeep seek V3のポストトレーニングを行ったと述べていることです。
Deep seek V3と以前のバージョン、Quin2.5、Llama3.1（450億パラメータの大モデル）、Cloud3.5 Sonnet、GPT-4.0を比較してみましょう。
これは公平な比較だと思います。なぜなら、これらは推論なしのモデルであり、これも推論なしのモデルだからです。推論モデルによって生成された合成データで後処理訓練されていますが、それ自体は推論モデルではありません。
例えば、AIMEを見てください。これは非常に高度な数学オリンピードで、pass@1は一回のチャンスで正解する必要があることを意味します。他のすべてのモデルを見てみましょう。
GPT-4.0は9%、Claude3.5は16%、MetaのLlama3.5 450億パラメータモデル（大モデル）は23%です。Deep seek V3は40%近くまで到達しています。これは大きな飛躍です。
また、訓練コストはLlamaモデルの10分の1程度だったとされています。高度な数学では2倍の性能を持ち、訓練の計算コストは10分の1です。
その背後にある秘密について、私の推測では、高度な数学でこれほど優れている理由の一つは、その知識蒸留にあります。大きな推論モデルを取り、その推論を使って訓練データを作成し、そのデータでこのモデルの後処理訓練を行うと、突然このモデルは非常に優れた性能を発揮します。
これは知識蒸留という考え方で、教師モデルが生徒モデルを教えます。生徒モデルは、大きく遅い、計算コストの高い教師モデルよりも小さく、速く、安価であっても、しばしばその分野で非常に優れた性能を発揮することがわかります。
最後に結論として、彼らが書いているのは、世界モデルを使って学習と探索を行う方法についての未解決の問題があるということです。
OpenAIはAGIへの5段階のロードマップを概説し、第2段階は強力な推論器になること、第3段階はエージェントになることに焦点を当てています。o1はすでに第2段階に到達し、人間の専門家と同等の推論能力を達成しています。一部の人々は、人間の専門家をはるかに超えていると言うでしょう。したがって、o1の次の目標は第3段階に進むことです。実環境で行動を起こし、実環境のタスクを解決できるようになることです。実世界環境にo1を拡張する鍵は報酬モデリングにあります。
ここまでにしましょう。しかし、この状況についてどう思いますか？OpenAIが目指したこと、つまりこの技術を作り、オープンソース化し、誰もが無料で簡単にアクセスできるようにすることについて、興味深いのは、中国が多くのOpenAIの技術を取り、リバースエンジニアリングを試み、そしてそれらのモデルをオープンソース化しているということです。
Deep seekの多くのものがオープンソースであり、この論文のようにo1のリバースエンジニアリング方法をステップバイステップで説明しているものは、世界中で読むことができます。もしあなたが企業でこれを開発しようとしているなら、この論文はそれを行う方法について多くの洞察を与えてくれるでしょう。
これは興味深いダイナミクスです。この全体が始まったとき、OpenAIが非公開モデルを維持できるかどうか確信が持てませんでした。また、多くの人々が、他の国々がそれを取って自分たちの目的のために使用できるからという理由で、公開することを懸念していました。
しかし今や中国が追いつき、すべてをオープンソース化しています。確かに、多くの人々がこの特定の展開を予想していなかったように思われます。
しかし、これについてどう思いますか？一般的に世界にとってこれは良いことでしょうか？また、o1や最終的にo3、そしてその後に彼らが開発するものなど、強力なモデルは完全にオープンソースであるべきだと思いますか？
私たちはこれらのモデルをオープンソース化することが危険になり得るような一線を越えてしまったのでしょうか？それとも、あなたはより「前進あるのみ」という考えの人でしょうか？
コメント欄でお知らせください。ここまでご視聴いただき、ありがとうございました。私の名前はWes rothです。また次回お会いしましょう。