
9,815 文字

これはGoogleのAIリード、Logan Kilpatrickの発言です。ASI(人工超知能)への直接的な道が、月を追うごとにますます現実味を帯びてきています。これはIliasが見たものです。彼はGemini APIとAGIに取り組むGoogle AI Studioのリードプロダクトマネージャーです。ご存知の通り、OpenAIの共同創設者であるIlias Sutskeverは、新しいスタートアップSSI(Safe Super Intelligence)を立ち上げ、すぐに10億ドルを調達しました。最新の情報では、現時点で企業価値は50億ドルを超えていると思われます。
Loganはこう続けています。Iliasは人工超知能への直接的な道を進むという計画でSSIを設立しました。中間的な製品も、中間的なモデルのリリースもありません。これは多くの人々を驚かせました。現在の状態から超知能へ、その間に何もないという直接的な道筋があるというのは奇妙に思えました。それがどうして可能なのでしょうか。
これは彼らのウェブサイトからの引用です。「SSIでは、世界初の直接的なSSIラボを設立し、一つの目標と一つの製品、すなわち安全な超知能を目指しています。」
Loganはさらに続けます。自身を含む多くの人々が、これは機能しそうにないと考えていました。モデルや製品に勢いがつけば、本当の参入障壁を築くことができるからです。確かに、ほとんどの人は直感的に、何らかの段階的なアプローチ、反復的なアプローチが必要だと考えていたでしょう。人工知能が汎用人工知能(AGI)に達したかどうかまだ議論している段階で、どうして人工超知能への直接的な道があり得るのでしょうか。
私たちは今まさにAGIに近づいていると思いますが、人工超知能を考えるのは依然として奇妙です。しかしLoganは続けて、なぜこれが可能だと考えるのか説明しています。彼は言います。「しかし、Iliasが早期に兆候を見た可能性のあるテスト時のコンピュート能力のスケーリングの成功は、このただスケールアップを継続する直接的な道筋が実際に機能するかもしれないという良い指標です。」
彼は、AGIに到達するだろうと言っていますが、4年前のコンセンサスとは異なり、それは歴史的な変曲点の瞬間ではなく、短期間の間に市場で多くの反復と類似のオプションを伴う製品リリースのように見えるだろうと述べています。これは人類にとっておそらく最も良い結果だと思われ、彼自身もこれを喜ばしく思っています。
では、彼らが話している内容を少し紐解いてみましょう。彼だけでなく、多くの人々が超知能が早晩やってくるという考えについて語っています。もちろん、Iliasはそれが直接的な道筋であると信じています。
Forbesの記事では、Sam Altmanが「AIは統合され、超知能がやってくる」と述べています。この記事は部分的に、Sam Altmanが書いた「The Intelligence Age」というブログ記事について触れています。9月のマニフェストと呼ばれるもので、彼は将来の変化について書いています。
では、超知能はどのように出現するのでしょうか。Sam Altmanは、科学的進歩の速度と、今後数年間でこれらの進歩が複合的に重なっていく様子を見る必要があると述べています。そして彼は、多くの人々の興味を引いた大きな声明を出しました。数千日以内に超知能を手に入れる可能性があるというものです。
つまり、Sam Altmanがそう言い、Ilias Sutskeverもそれを信じて多額の賭けをし、そして今やGemini APIに取り組むGoogleのリードも「ここから超知能への直接的な道がある」と言っているのです。
この全てがどこから始まったのか見てみましょう。2024年7月15日のロイター通信によると、OpenAIがStrawberryというコードネームで新しい推論技術に取り組んでいることが明らかになりました。この技術には多くの異なる名前があり、追跡するのが難しいのですが、以前にStrawberryについて聞いたことがあるはずです。その前にはQがあり、現在ではo1モデル、o3モデルなどを目にしています。これらは全て同じようなもので、同じAIモデルの系統の一部です。
以前は噂や推測、情報漏洩があっただけでしたが、今では徐々にその姿が現れ始め、数学やコーディングなどのテストで、以前はAIには不可能だと思われていたような結果を完全に打ち破っているのを目にしています。特にARC AGIテストでの成功は非常に注目に値します。十分な時間をかけて考えることを許可された場合、88%のスコアを達成しました。これはARC AGIテストのルール上許可されている計算量を超えているため公式スコアではありませんが、重要なポイントは、これが以前は噂だったものだということです。
Qの情報漏洩について投稿したとき、コメント欄で「そんなナンセンスをどうして信じられるのか」と批判する人々がいたのを覚えています。しかし、それは現実のものとなりました。1年1ヶ月後、それは真実となり、私たちはo1モデルを使って、その推論能力がいかに優れているかを確認することができます。
私はこのチャンネルで何度も言ってきましたが、これは私たちが多くの科学論文に注目する理由の一つです。なぜなら、論文が発表されてから6~12~18ヶ月後に、全てのスタートアップや資金力のある企業がその論文から様々な製品やアプリケーションを爆発的に生み出すのをよく目にするからです。
この進歩の多くは、研究者や学者、大学によって推進されています。興味深いのは、現在私たちが目にしている多くのものが、少なくとも部分的には2022年に発表されたスタンフォードの論文に起因していることです。もちろん、これには多くの要素が関係していて、この論文はその多くの貢献の一つに過ぎませんが、これは今後起こることの最初の手がかりのようなものでした。
2017年にGoogleがTransformerを発表したことも覚えておいてください。多くの人々が自分たちの研究を公開することで、他の人々がそれを基に構築することができるのです。OpenAIはこれら全てを発明したわけではありません。彼らは単に、全ての方向性を見極め、公開された論文を読み、それをAI分野での実際の進歩に統合することに非常に長けていたのです。
2022年5月の初期の論文、「Self-Taught Reasoner: 推論による推論のブートストラップ」。これは少し奇妙な言い方に聞こえますね。推論による推論のブートストラップ。Noah Goodmanがこの論文の著者の一人であることに注目してください。これはGoogle Research、スタンフォードなどによるものです。
重要なポイントは以下の通りです。創設者の一人であるNoah Goodman教授は、これが2022年の時点なのか、2023年にQに関する全ての話が出てきた時点なのかは定かではありませんが、こう述べています。STaRは、AIモデルが反復的に自身の訓練データを作成することで、より高い知能レベルへと自らをブートストラップすることを可能にします。つまり、合成データを通じて、これらのモデルは自身の推論、自身の訓練モデルを作成し、その合成データを使って自己改善を行うのです。
AI 1.0が人間のデータで訓練され、人間の訓練データだけでかなり優秀になるのに対し、私たちが見てきたパターンは、自己訓練が許可されたときにはるかに優れた性能を発揮するというものです。これはGoogleのチェスAI、AlphaGoモデルでも見られました。人間が対戦したゲームだけを見た場合、かなり優秀になり、人間最高レベルと同等になりました。しかし、自己対戦を数十億回行い、時間とともに改善を重ねることを許可されると、人間が到達できるレベルをはるかに超えるようになりました。これが自己対戦や合成データの作成、自身の訓練データの作成という考え方です。
Noah Goodmanは続けて、理論的にはこれを使って言語モデルを人間レベルの知能を超えるところまで高めることができると述べています。この仕組みがどのように機能するかを理解するために、この小さな図でうまく要約されています。
例えば、「小型犬を運ぶのに何を使えますか?」という非常に単純な質問があり、選択肢がいくつかあるとします。モデルは答えに至る推論を生成しなければなりません。例えば、「答えは小型犬を運ぶのに使えるものでなければならない。バスケットは物を入れるように設計されている。したがって、答えはバスケットBである」というように。
これはモデルによって生成された答えであり、その推論プロセスでもあります。その推論が正しい答えに導くなら、ここに示されているように、推論と答えを生成し、それがデータセットに取り込まれ、微調整されます。バージョン1.0がこの推論と答えを生み出し、それを多数回行い、そのデータが全てモデルに訓練データとして取り込まれ、バージョン2.0が作成されます。
バージョン2.0は再び試みますが、今度ははるかに正確で、これらの質問に対する回答が優れています。これが自己学習型推論者、または推論による推論のブートストラップと呼ばれるものです。それは自分自身に基づいて構築される一種のループであり、反復的で再帰的で、複合的なものです。
ところで、同じチームが他のメンバーと共に2024年3月に別の論文を発表しました。「Quiet-STaR: 言語モデルは話す前に考えることを自己学習できる」というものです。これはSTaRに基づいて構築されたものであり、Qという愛称の由来かもしれません。
この考え方は、モデルの出力と最終的な答え、そして推論のステップを2つに分けることができるというものです。話す前に考えているようなものと考えることができ、これがまさにo1システムの仕組みであり、実際にこれがAGIへの新しいアプローチ、推論AIモデルなのです。
OpenAIがこのo1プレビューモデルを紹介する際、その仕組みについてこう説明しています。「私たちは、人間がするように、これらのモデルが応答する前により多くの時間を問題について考えることができるように訓練しました。訓練を通じて、彼らは思考プロセスを洗練させ、異なる戦略を試し、自分の間違いを認識することを学びます。」
これら全てが繋がっています。STaR、Quiet-STaR、OpenAIからのQ*に関する情報漏洩、そしてStrawberryモデル。考えることと「思考」を持つこと、そして実際の出力を行うという考え方です。特定の思考の連鎖が正しい答えにつながった場合、それは報酬を得て、そうでないものは破棄されます。時間とともに、この反復的なブートストラッププロセスがより良い推論につながります。
これらの名前には多くの種類があり、それぞれ若干異なりますが、全て似ています。このモデルが応答する前に問題について考えると言うとき、それはテスト時のコンピュートと同じような意味です。
Loganが「Iliasが早期の兆候を見た可能性のあるテスト時のコンピュート能力のスケーリング」について語るとき、これは取締役会のクーデターやSamの解雇があった時期のことです。彼らが見たのはこれです。テスト時のコンピュートのスケーリング、つまりモデルに考えさせること、Quiet-STaR、裏での静かな推論、それがこの直接的な道筋が実際に機能するかもしれないという良い指標だということです。
当時、私は動画で「OpenAIから出てくるものを見るのは、非常に遠い銀河を見ているようなものだ」と言ったのを覚えています。何十億年も前に起こったことを見ているようなものです。ここでも同じような状況です。o1モデルが私たちに紹介され、その能力を目にしたのは、OpenAIの内部の人々、彼らがそれを見て何が来るのかを理解してから約1年後のことでした。それは単純にこれだったのです。
AIMEは非常に複雑で困難な、チャレンジングな数学のコンペティションです。o1がどれだけ良い成績を収めているか見てみましょう。pass@1の精度、つまり1回の機会で正解できるかどうかです。複数の異なる推測ではなく、一回で正解を知っているかどうかです。
精度が32%くらいから68%くらいまで向上していくのが分かります。訓練時のコンピュート量を増やすと、つまり訓練時により多くのリソースを与えると、このモデルを構築する際により多くのNVIDIAカードを追加するなど、より多くのリソースで訓練すると、その精度、いわゆる「知能」や推論能力が向上します。
これは以前から知られていました。これはスケーリング則と呼ばれるものですが、新しいのは全ての人を驚かせた次のことです。これがIliasが見たものです。テスト時のコンピュート、つまり質問をして考える時間を与えること、その「考える」プロセス、より多くの思考リソースを与えること、これがテスト時のコンピュートであり、裏での静かな推論であり、何と呼ぼうと全て同じことです。
考える時間、テスト時のコンピュートを与えるにつれて、精度が急速に向上することに気付きます。実際、これらはo1プレビュー、o1モデルが受けたスコアの一部で、当時は衝撃的でした。人々はそれを受け入れる準備ができていませんでした。
もちろん、これはo3が発表された時と比べれば何でもありませんでした。o3はまだ一般公開の準備ができていません。まだアクセスできませんが、レッドチームや信頼されたテスターなど、近い関係にある人々が試用していると思います。
ARC AGIでどれだけの成績を収めたか見てください。これはAIモデルにとって非常に難しいテストだと考えられていました。oミニは7%のスコアでした。人々の心を震わせたo1プレビューは13.3%でした。o1は与えるコンピュート量に応じて25%、31%、30%、32%でしたが、これは人間のベースラインである85%と比べるとまだかなり低かったのです。
これはARC AGIが設定した基準で、これを超え、オープンソースで、コンピュート要件の制限内(これらの質問に答えるために使用できる最大額は1万ドル)であれば良いとされていました。o3モデルは76%を獲得しましたが、これはコンピュートによって制限されていたからです。無制限のコンピュートを使用できた場合、その容量で実行するには約30万ドルかかると推定されましたが、もちろんこれは小売価格で、OpenAIはもっと安く実行できるでしょう。重要なのは88%を獲得したということです。
このテストに関して考えると、人間にとっては簡単だが、これらのモデル、大規模言語モデル、ニューラルネットにとっては非常に難しいとされていたものです。確かに、私たちは何か信じられないような変曲点に到達したように見えます。より多くのテスト時のコンピュートを追加し、これらのアーキテクチャを改善することで、その能力が本当に向上し、これらのテストを突破できるようになっています。
ここにGPTの能力、OpenAIのモデルがこのテストでどれだけうまくいったかを示すチャートがあります。2019年のGPT-2、GPT-3はほぼゼロ、本当に悪い成績でした。GPT-4もひどく、GPT-4oは5%か7%程度で、人間ができることの10分の1でした。
これはIliasが何かを見た頃で、テスト時のコンピュートがどれだけうまくスケールするかを彼らが見た可能性のある時期です。約1年後、私たちはo1プレビューを目にします。これが遠い銀河を見ているという考え方です。私たちが見ているのははるか昔のことです。このモデルが登場し、ARC AGIで20%をわずかに超えるスコアを達成するのを見ます。
2023年11月には、その能力に動揺していたようですが、非推論モデルからこのチャートがどう変化するか注目してください。これらのモデルには「答える前に考えて」などと言うことはできますが、ここではそのプロセス全体が組み込まれており、どれだけ長く考えることを許可するかを改善・増加させることができます。長時間かけて全てを綿密に考え、いわば合成データを作成することができます。実際にはそれを自己訓練には使用していませんが、質問に答えるために使用しています。
チャートがどうなるか見てください。GPT-4oが最後の非推論モデルで、o1プレビューが推論モデルの最初の例です。これが新しいプロトコルです。この信じられないような改善に注目してください。これは数ヶ月の間に起こりました。人間ができることの20分の1、あるいはそれよりもはるかに悪い状態から、平均的な人間より優れた状態へと、ほぼ垂直な線で上昇しています。
ASI(人工超知能)への直接的な道という考えについて話すとき、最初は少し直感に反する、あるいは笑えるように思えるかもしれません。本当にそれはすぐそこにあって、直接的な道があるのかと。しかし、このようなチャートを見ると、非推論モデルと推論モデルの間で何かが起こったことは明らかです。
これら2つの違いは、私たちが話してきた全てのこと、テスト時のコンピュート、STaR(自己学習型推論者)、推論による推論のブートストラップ、チェーンオブソート、裏での思考、それら全てがここからここの間に起こりました。そして、o3で見たように、ほぼ垂直に急上昇します。
私たちは新しい数学的テスト、新しいベンチマークを作る必要があります。なぜなら、人間が作った数学の問題は今や子供の遊びのようなものになってしまったからです。その知能がどれほどのものかを理解するために、フロンティア的な未来の数学でテストする必要があります。
そのことを念頭に置いて、この急速な改善、テスト時のコンピュートという別のスケーリングパラダイムを目の当たりにしているのです。もしかしたら、何らかの制限があるかもしれません。しばらくスケーリングを続けた後、何か予期せぬ上限、それが継続するのを阻止する何かが見つかるかもしれません。
しかし、数学の証明をするときのように、一旦これを仮定して、それに基づいて考えてみましょう。すぐにはそのような上限が来ないと仮定してみましょう。もう少し続くと仮定した場合、Loganの言うこと、Iliasの言うこと、Sam Altmanの言うことに同意しますか?
特に人工超知能について話すのは少し難しいです。なぜなら、ある意味では私たちはすでに人工超知能を持っていると言えるからです。これはいくつかのAlphaモデルやGoogle DeepMindのモデルで示されています。しかし、それらは通常、狭い超知能です。囲碁で人間に勝つことができ、タンパク質の折りたたみを人間やコンピュータよりも正確に予測でき、AlphaQuantumはGoogleが発表した量子チップの量子エラー率を予測することができます。
私たちはすでに一種の超知能を持っていますが、それは電卓が計算において人間よりも超知能的であるのと同じように、狭いものです。これは私のアイデアではありません。これはGoogle DeepMindとそのAGIリストです。
彼らは狭いものと一般的なものに分類する考え方を持っています。狭い、つまり特定のタスクや一連のタスクに限定されたものについて話すと、AlphaFold、AlphaZero、Stockfishなど、狭いタスクのために作られた超人的なAIの例はすでにあります。これは明らかです。
しかし、一般的なもの、つまり様々なタスクの広い範囲、新しいスキルを学ぶなどのメタ認知能力について話すと、ASIはまだ達成されていません。実際、彼らがこれを発表した時点では、有能なAGI、専門家レベルのAGI、達人レベルのAGIはまだ達成されていないと述べています。
私たちは新興AGIを目にしているかもしれません。これは彼らがChatGPT、Bard、LLamaなどと呼ぶものです。これはマイクロソフトが言うところの「AGIの火花」、つまりプロトAGI、新興AGIです。これが2023年頃の私たちの位置です。
次のステップとして判断しようとしているのは、有能なAGI、つまり熟練した大人の50パーセンタイル以上、そして専門家レベルのAGI、つまり熟練した大人の90パーセンタイル以上です。私がo1、o3をある種のAGIと考えられるかもしれない、私たちはAGIっぽい段階に入っていると言うとき、多くの人が私に同意しないことは知っています。
しかし、これらのカテゴリーに分解すれば、話がしやすくなるかもしれません。Google DeepMindは、私たちには新興AGIの例があると言っています。では、有能なAGI、専門家レベルのAGI、熟練した大人の99%より優れた達人レベルのAGIはあるでしょうか?ここで私たちは全員が同意しない議論に入ります。
私は、o3モデルは有能または専門家レベルのどこかに入りつつある例だと主張します。この種の知能を電気やインフラのようなものと考えてください。それ自体では、すぐに全てのことができるわけではないかもしれません。しかし、特定の足場を与えると、突然それらのことができるようになります。
これは彼らがAIエージェントについて話すときのことです。物事を推論し、実行する方法は知っていますが、ボタンをクリックしたりウェブサイトと対話したりすることができるという意味ではありません。しかし、特定の足場を与えると、突然それらのことができるようになります。重要なのは、それらの能力を動かすための知能、電気がすでにそこにあったということです。私たちにはまだ足場がなかっただけです。
私は、これらのカテゴリー、有能なAGI、専門家レベルのAGIなどのための知能がすでにあると信じています。つまり、今AIの進歩を一時停止したとします。これらのモデルはもっと賢くならず、私たちには様々なツールや足場を構築する時間が多くあり、その他全てのものがあると仮定します。
o3が私たちができる最高のものであり、それがリリースされ、5年から10年の間、ソフトウェアエンジニアやその他の人々がそれを最もうまく適用する方法を見つけ出すとしたら、私たちは専門家レベルのAGIに達していると言うでしょう。これは私の意見です。誰にも押し付けるつもりはありません。多くの人がこれに同意しないことは知っていますが、私はこれらの推論モデルで、私たちは今これら2つのカテゴリーに入りつつあると感じています。
後で自分の動画を編集するとき、本来の要点とは関係のない20分もの脱線や別のクエストに入り込んでいることに気付くことがあります。私の本来の要点は単純にこれでした。テスト時のコンピュートのスケーリングという考えが、もう少し続くと仮定した場合、何らかの上限にぶつからないと仮定した場合、このチャートを念頭に置いて、非推論から推論への移行がここにあります。
これはテスト時のコンピュート前の曲線で、これはテスト時のコンピュート後の曲線です。私が言っているのは、これがもう少し続くと仮定した場合、Logan、Ilias、Sam Altman、その他全ての人が言うように、このスケールアップを継続する直接的な道筋が人工超知能に到達する可能性があるという良い指標だと同意しますか?
この曲線が続いた場合、それは特に広範な、または一般的な人工超知能に到達するでしょうか?コメント欄で教えてください。親切にも「いいね」ボタンを押していただけたら嬉しいです。登録をお忘れなく、まもなく素晴らしいコンテンツが多数登場します。ここまで見ていただき、ありがとうございます。私の名前はR Rothです。また次回お会いしましょう。
コメント