R1、OpenAIのo3、そしてARC-AGI ベンチマーク: Gradient Dissentポッドキャストにおけるマイク・ヌープの洞察

26,921 文字

R1, OpenAI’s o3, and the ARC-AGI Benchmark: Insights from Mike Knoop on the Gradient Dissent Podcast

In this episode of Gradient Dissent, host Lukas Biewald sits down with Mike Knoop, Co-founder and CEO of Ndea, a cutting...

今日はGradient Dissentにようこそ。機械学習を実際の世界で機能させることについて語る番組です。私はホストのリーサ・スパルです。本日のゲストはマイク・ヌープさん。AIの研究者であり、非常に成功した起業家でもあります。約15年前に少額の資金でZapierという会社を立ち上げ、大きなビジネスに成長させました。その後、AIの最先端研究に取り組み、最近はAI研究所の一つであるIndiaを立ち上げました。
これは非常に興味深い会話になるでしょう。ビジネスとAIがビジネスにどのように適合するのか、そして新しいR1とr1oモデルがどのように機能するのか、特に彼が資金を提供し普及させたAGI賞についても詳しく話していきます。それでは始めましょう。
では、R1から始めて遡っていきましょうか。
はい、そうしましょう。R1は中国から突然登場した有名なモデルですね。簡単に説明して、R1 Zについても触れていただけますか?
はい。基本的にR1とr10という2つの実際のモデルがリリースされました。これらは本質的にOpenAIのo1モデルと似たような性質を持つ推論モデルです。同様の方法で訓練されました。R1とr10の訓練方法については、Deep Seekが訓練方法をオープンソース化したので確実に分かっています。
OpenAIの研究リードであるマーク・チェンが、これらのシステムの作成に用いられたアイデアは同様の精神であると公に発言していたと思います。OpenAIのOシリーズやDeep SeekのRシリーズは、これまでのAIシステムとは根本的に異なるパラダイムシフトを表しています。たとえばOpenAIのGPTシリーズ、3から3.5、4、4oまでは、事前学習をスケールアップするという同じようなパラダイムでした。より多くのデータを与え、モデルを大きくすることでモデルをより賢くしようとしていたのです。
4oは実際にはやや小さかったかもしれません。おそらく効率化のために何らかの蒸留が行われたと思われますが、大まかに言えば、より多くの人間のデータを与えることでモデルを賢くしようとする広いパラダイムの中にいたわけです。
これらは本質的に答えを記憶しているだけなので、新規性に適応する能力は全くありません。ARCのメイ・ファー、ARC AGIベンチマークと呼ばれるものは、AIシステムが以前見たことのない問題を解く能力を評価しようとするベンチマークです。ARCのデータは答えを単に記憶することに非常に耐性があり、トレーニングセットが与えられてもテストセットは解けません。
これは公共の場ではあまり認識されていない点です。正当に非常に難しく、ARCv1は5年間誰にも破られませんでした。そして12月に大きなニュースがありました。OpenAIのo3がARCv1で75%のスコアを達成し、非常に計算コストの高いハイパフォーマンスバージョンで85%のスコアを記録したのです。
これは、この新しい推論型システムが根本的に新しい能力を持っていることを示しています。私たちがこれまでコンピュータで持っていなかった、新規性に適応する能力です。これは単なる面白い事実を超えて、より堅牢で信頼できるAIシステムにつながる意味を持っています。エージェントの話にも関係してきますが…
その道に進む前に、ちょっと待ってください。新規性について話すとき、それをどう定義するのでしょうか?これらのシステムがただテキストを記憶して同じテキストを再現しているだけなのか、それとも別のことをしているのかについては多くの議論がありますよね。明らかに何らかの適応が行われています。
圧縮から来る一種の一般化がありますよね。文字通りデータベース、つまり検索テーブルのようなものではないということは明らかです。
その通りです。もし各事実に1つのパラメータがあれば、単なるデータベースになりますね。これらのGPT系のシステムは圧縮を行っており、そこから面白い一般化が生まれています。私が主張したいのは、アーキテクチャが固定されているため、彼らが行える一般化の量は固定されているということです。
昨年まで、すべての言語モデルの基礎となるアーキテクチャはTransformerでした。つまり、知性のレベルは固定されています。より多くを記憶することはできますが、トレーニングデータから新しい状況への適応可能な一般化の量は固定されており、それは変わっていませんでした。
o1は昨年9月に登場した最初のプロトタイプで、固定量の入力情報から与えられて、トレーニングデータからより離れた場所で正確により多くのことができるという、正当に増加した知性を持つシステムでした。
でも待ってください。たとえばAlpha Goは一般化できなかったと言えるでしょうか?囲碁の領域では、かなりよく推論し、新しい状況に適応できているように見えますが。
ARCについても同じことが言えます。ARCは5年間存在し、純粋なソルバーの観点から見ると、2024年のARC賞コンテストでは約50%のスコアを達成していました。しかし、これらは非常にドメイン特化型のソルバーです。研究者たちは自分たちのG、つまり一般性のすべてをシステムに組み込む必要がありました。
コンテスト中にARCを解くシステムのG因子、一般性は研究者の頭脳から来ていました。研究者が問題について考え、それをモデル化しようとし、コンピュータにやらせたいことを理解してシステムに組み込んだのです。結果として、かなりドメインが制限され、うまく一般化できませんでした。
これはAlpha Goにも当てはまります。何年も前から、人間をはるかに超えるゲームAIシステムは存在していました。しかし、これらのAIシステムにできないことは何かというと、私があなたに新しいカードゲームやボードゲームを数時間で教えて人間レベルの熟練度に到達させられるということ、まったく新しい分野に移して数日で車の運転を教えられるということなのです。
以前見たことのない、トレーニングされていない状況や問題に即座に適応するこの能力は、今日のAIシステムと比較して人間に特有の非常にユニークで特別なものでした。
ARCについて言えば、言葉で説明するよりも見た方が分かりやすいと思いますが、パズルをどこかにオーバーレイしましょうか?
はい、確かにパズルをオーバーレイした方が良いですね。ARCについて驚くべきことは、これらのパズルがいかに簡単に見えるか、そしてシステムがこの簡単そうなパズルで実際に失敗するということかもしれません。もう少し詳しく説明していただけますか?
IQテストのように見えます。色の2次元グリッドで、入力と出力の例がいくつか与えられ、その間にある一貫したルールやパターンを見つけることが目標です。そしてそのルールをテストケースに適用するのです。確かに、視覚的に説明した方が分かりやすいですね。
基本的にARCは、私たちが「コア知識の事前条件」と呼ぶもの、つまり対称性や回転、物体の検出と追跡、基本的な物理の理解といったものを、その場で再構成することを要求します。ARCは、これらのコア知識の事前条件を今まで見たことのないタスクにその場で抽象化し、組み合わせることを要求するのです。
これは歴史的なLMスケーリングパラダイムが全く得意としないものでした。たとえばGPT-4oはARCデータセットで4%のスコアしか達成できませんでした。対照的に、これらのoシステムから見始めた印象的なパフォーマンスがあります。
では、4oからこれらのoシステムまでに何が変わったのでしょうか?より良い性能を発揮するために何が違ったのでしょうか?
根本的には、能力に関して非常に強い主張ができます。その後で、どのように実現したのかについて情報に基づいた推測ができます。
能力に関する主張は、単にスコアを見れば分かります。ARCv1の場合、2019年に最初に導入されてから昨年の秋まで、5年以上にわたって最高のLMであるGPT-4が4%しか達成できませんでした。そしてo1、o1 Pro、o3が登場し、スコアは急速に4%から75%へ、そしてo3の非常に極端なハイパフォーマンスバージョンで85%まで上昇しました。ほぼ直線的な上昇です。かなり驚くべきことです。
実際、ベンチマークでこのような結果を見るのは良いことです。これはベンチマークにより多くのシグナルがあることを意味します。本当に能力を主張しているのです。時間とともにゆっくりと単調に増加するベンチマークスコアを見ても、能力を理解するのは少し難しいです。何かが急激に曲がっているのを見ると、明確に何かが変化したことが分かります。
私はこれらの推論システムでそれが起きていると考えています。特に彼らが行ったのは、テスト時に基礎モデルで学習した知識を再構成する能力を追加したことです。OpenAIはこれを「テスト時の計算」と呼んでいます。これが広いパラダイムです。
答えを出す前により多くの時間を考えることを許可したいのです。GPT-4は500ミリ秒でトークンを吐き始め、それが答えになります。一方、ここでの直感は、システムが前もって考える時間をより多く持てるようにしたいということです。
考える方法は「思考連鎖」パラダイムと呼ばれるものです。「一歩一歩考えよう」という言葉を聞いたことがあるかもしれません。この論文は私にとって非常に特別なもので、3年前の2022年1月に出版されました。これは私が最初にAIに全力を注ぐようになったきっかけの一つです。
このような思考連鎖の瞬間が2022年1月に起こって以来、私たちはまだそれ以降の影響を理解しようとしています。このチェーン・オブ・ソートのパラダイムをどのように適用できるか、モデルに基本的に自分自身に対して考えを声に出させる方法を理解しようとしています。
「次のステップは何か?」「そのステップを実行して、次は何か?」「そして次は?」というように連鎖的に進めていきます。そしてモデルはその思考の軌跡全体を使って最終的な答えを根拠付けることができます。これがo1が行うこと、R1が行うこと、r10が行うことです。
R1とR1 Zの間にはいくつかの重要な違いがありますが、そこに入る前に、これが機能することに驚くべきだと思います。LLMは圧縮アルゴリズムで、推論できず、限られた一般化しかできないと言っていましたよね。今やテキストを生成し、思考連鎖の論文ではステップごとにテキストを生成していました。つまり、これらの「愚かな」モデルがステップごとにテキストを生成し、突然推論できるようになったと主張しているのですか?それは明らかではないように思えます。
その通りです。これが2022年に私がAIに全力を注いだ理由の一つです。2022年1月まで、私は15年前にZapierを立ち上げ、その時はエグゼクティブとして会社の製品エンジニアリング部門の半分を運営していました。AIには注目していましたが、思考連鎖の論文を見て、LLMができることとできないことについて良い視点を持っていたと思っていました。
そしてこの論文が出て、「ただモデルに声に出して考えるように頼むだけで」推論ベンチマークのパフォーマンススコアが30%から70%程度まで急上昇したのを見て、私の「おっと」という瞬間がありました。この技術でAGIに向かっているのかもしれないと。
これは単にZapierの観点から重要だと感じただけでなく、人間として「これは世界の歴史の中で最も重要な技術の一つかもしれない」と思ったので、私はすべてを投じてこのパラダイムを理解し始めました。
古い思考連鎖のバージョンについて興味深いことは、2022年の秋にZapierでもプロトタイプを作っていたのですが、非常に限られた適応能力しかなかったということです。これはo1やR1でも見られ、ARCのスコアはわずか15%程度です。GPT-4oの5%領域からは大きな進歩ですが、まだ比較的弱い適応能力です。
これらのシステムを本当に機能させたのは、o1 ProとNo3で行われたことで、これは情報に基づく推測ですが、思考連鎖の生成プロセスの上に検索とサンプリングを追加したことです。単一の思考連鎖を求めて「さあ答えを出せ」とするのではなく、複数の思考連鎖のステップを並行して生成し、「どれが最も良いか?」「それを使って次のステップに進もう」「もっと生成して最良のものを選ぼう」というように進めていきます。
彼らは実質的に、推論時にプログラム合成やプログラム検索を行っているのです。このアイデアによって、75-85%という大きく適応能力が向上しました。あなたの最初の指摘通り、これは驚くべきことです。これらのシステムは真剣な研究に値すると思います。
だからこそ、R1とR1 Zがオープンソース化されたことに私は非常に興奮しています。より多くの人々が科学的研究を行えるようになるからです。R1とr10に入る前に、人間のARCのパフォーマンスと、今日の最高のモデルのレベルを比較するとどうなのでしょうか?85%というのは人間のレベルとの関係でどう位置づけられますか?
賢い人間ならARCv1でほぼ100%のスコアを達成できます。データによれば、2人のSTEM大学院生に与えると98-99%のスコアを達成します。これがv1の欠点の一つで、人間の能力について強い主張ができていませんでした。
これはv2で修正している点の一つです。実は何年も前からv2の作業を行っており、昨年の夏に多くの努力を注ぎ、今まさに最後の仕上げを行っているところです。今年のARC賞2025でローンチする予定です。
v2では、「人間にとって簡単」というレベルを正当化するために、ベンチマーク内のすべてのパズルが人間によって解けることを確信できる強力な人間の基準テストがあります。これは、私はARCベンチマークの精神的な指針だと考えています。
v1についても、v2やv3、将来のバージョンについても真実ですが、私たちは「人間にとって簡単でAIにとって難しいもの」という概念を表現したいと考えています。そしてこのギャップをゼロに近づけていきたいのです。
なぜなら、もしそのギャップがゼロになれば、「人間は簡単に見つけられるけれどコンピュータには難しいもの」が一つも見つからない状態になります。私はそれがAGIを主張できる合理的な目標であり、目指すべきターゲットだと考えています。
これは、他のフロンティアベンチマークの多くとは対照的です。Dan HendricksのHumanity Last ExamやEpic AI Frontierの数学など、彼らはより困難なベンチマークを作ることに投資しています。それも良いことだと思います。その努力を否定するつもりは全くありません。
しかし、能力を主張する観点からは、「人間が何を簡単に見つけられるか」を理解することの方が重要だと思います。それはまだこれらのシステムに欠けているものをより明確に示してくれると考えています。
私も全く同意です。ただ、面白いのは、私の人生で特にここ1-2年、「これが人間レベルのパフォーマンスで、ここまで来たらAGIを手に入れられる」というベンチマークが次々と登場し、そして次々とそれらのベンチマークが突破されていることです。
ARCがこのジャンルの最後になるという主張を確信を持って行うのは難しいと思いますが、AIがこれを解決した後に、人間が簡単にできるのにAIにはできない何か別のベンチマークが残るとお考えですか?
より確信を持って言えるのは、「人間にとって簡単でAIにとって難しい」というギャップをゼロに近づけていくということです。それがAGIかどうかは世界が判断することだと思います。個人的にはそうだと考えています。
これがv2のデザイン哲学であり、v3や将来のバージョンでもそうなるでしょう。v2は永遠に作業を続けてきたので、おそらくドメインの観点からv1とかなり似たものになるでしょう。コンピュータにとってはより難しいですが、AIにとってはまだ簡単です。
v3は、これまでとはかなり異なるものになるでしょう。まだARCのように見えると思いますが、人間がまだ非常に簡単に見つけられる、現在のベンチマークではテストされていない異なる能力をテストすることになるでしょう。また、効率性を正式に測定することも含まれるでしょう。これも私たちが気にする重要な要素になると思います。
では、R1とr10について。これらは何で、ARCでなぜうまく機能するのか説明していただけますか?
R1とr10は両方とも、思考連鎖で訓練され、それを生成するという精神を持っています。基本的に単一の思考連鎖を生成し、答えを出します。本当に重要なのは、なぜR1とR1 Zが異なるのか、なぜ2つのモデルがあるのかということです。
これは非常に興味深いことです。彼らはr10をリリースする必要はありませんでした。私の見方では、r10はR1よりも重要なシステムです。ゼロは何を意味するのでしょうか?
ゼロは訓練データに人間のデータが含まれていないことを意味します。Alpha Zeroへのオマージュかもしれませんね。彼らは純粋に強化学習を使用しています。数学やコーディングなどのドメインを使用して検証器を作成し、Deep Seek V3に思考連鎖を生成させ、実際にコンピュータプログラムを実行してフィードバックを得ることができます。
ただし、明確にしておきたいのですが、明らかに人間のデータを使用する以前の訓練ステップがありますよね?言語を学習する方法はないはずです。
はい、Deep Seek V3という基礎モデルがあります。ただし、これは永遠のことではありません。将来のAIシステム開発者は、基礎モデルにどれだけの知識を入れるか、どれだけをテスト時、つまり実行時にシステムに生成させるかというエンジニアリングのトレードオフを検討する必要があるでしょう。
おそらく私の予想では、これらの推論型システムを使って新しい知識を生成し、それを常に成長する知識の集合体に追加していくことになるでしょう。そしてそれらを将来の訓練実行や推論システムの出発点として使用することになるでしょう。
確かに、GPT-4は人間のデータで訓練され、Deep Seek V3も人間のデータで訓練されました。しかし、これらのシステムの能力に関しては永遠のケースではないでしょう。r10が重要な理由はここにあります。
もしシステムが文字通り第一原理から、数学から自分自身の知識を構築できるのなら – つまりピアノの算術演算子を与えられて微積分3まで構築できるなら – それはr10のようなシステムが潜在的にできることです。RLを使用して、人間を介さずに。
では、彼らはシステムを人間のデータで訓練し、基礎モデルを作成しました。そしてR1ゼロで次に何を行うのでしょうか?思考連鎖を生成して、それから?
はい、単一の思考連鎖を生成し、ステップバイステップで進み、思考連鎖全体を使って同じDeep Seek V3モデルから最終的な応答を得ます。
フィードバックはどのように組み込まれるのですか?
オフラインでトレーニング時に行われます。今説明したのはテスト時の動作方法です。ユーザーがクエリを入力すると、1つの長い思考連鎖を生成して最終的な答えを出します。
フィードバックループはトレーニング時に、オフラインで行われます。開発者たちは数ヶ月前にこれを行いました。Deep Seek V3モデルを使って多くの思考連鎖を生成させ、別のコンピュータプログラムがそれらの思考を見て「良い思考か悪い思考か」というトレーニングループのフィードバックを与えました。
そのRL信号が、最終的なR1ゼロモデルを微調整するために使用されています。R1フルの場合、人間の専門家もそれらにラベル付けを行うことを許可しています。
ゼロの場合、元のモデルはどのように良い思考か悪い思考かを判断したのでしょうか?
これがゼロと1の違いです。o1は、テキスト形式で「よくできました」「だめでした」というようなフィードバックを与えるニューラルモデル、グレーダーモデルを使用します。
R1はこれを行いません。純粋に記号的な検証器を使用します。彼らは「出力された潜在的なコードを実行して、象徴的に実行し、フィードバック信号を与える」と言っています。
これは一般的にRLの分野で見られることです。最終的な答えを得て、それを象徴的に検証しようとし、正しいか間違っているかを100%確実に主張します。
これはコンピュータプログラムを実行して検証できるドメインで可能です。Pythonプログラム、数学の方程式、コードなど – コードはコンパイルされるのか、期待する答えが得られるのか、ベンチマークがあり、すべてが設定されています。
これは、別のニューラル訓練されたプロセスグレーダーモデルを使用するo1とは異なります。これは全て推測ですが、彼らはこれらの詳細を共有していないので、私はシステムを基にこれらを理解しようとしています。私の理解では、トレーニングループでフィードバックを得る別のLLMモデルがあるということです。
r10の場合、彼らが非常に透明性を持って方法を公開していることは素晴らしいですね。コンピュータプログラムのように思考連鎖を生成して検証するのが容易なドメインがあり、一方で難しいドメインもあって、結果が正確かどうかを判断しやすいドメインに特化してしまう可能性はありませんか?
これが賭けどころですね。人間をループに入れずにr10はスケールアップできるのでしょうか?私たちが持っている証拠では、ARCで本質的にv1データセットを打ち破ったo3は、それを実用的なレベルの効率で機能させるために、人間による教師あり微調整が必要でした。
純粋なRL型のLLM思考連鎖システムでそこまで到達できるという証拠はまだありません。これは2025年に起こりそうなことだと予想しています。
もう一つ明らかなことは、これらのモデルがトレーニングコストの面で桁違いに安かったということですね。なぜそうなのか、お考えはありますか?
深くは調べていませんが、おそらく興味深いコメントができるのは、多くの人々が比較している価格は、o1の商用価格とDeep Seekのモデルホスティングの商用価格の違いです。
R1とR1 Zはオープンソースなので、ローカルインフラで実行でき、料金を支払う必要はありません。基本的に実コストに近い、非常に近い価格で提供されています。OpenAIはマージンを持つ企業で、研究者に給料を払い、将来の研究に投資する必要があります。彼らはビジネスを構築しているのです。
私の推測では、o1の推論コストには将来のR&Dに資金を提供するためのかなりのマージンが組み込まれており、実際のコストはほとんどの人が予想するよりもR1とr10に近いのではないかと思います。
また、Deep Seek V3のトレーニングにどれだけのコストがかかったのか、という別の議論もあります。「R1とr10のトレーニングに数百万ドルかかった」というヘッドライン的な数字は、基礎モデルのトレーニングにかかった多額の費用を隠しているのではないかという指摘です。
基礎モデルのトレーニングコストについては調べていないので、いくらかかったのかわかりません。GPT-4のコストも知りません。しかし、推論コストについては、広く言えばこれらのRシステムとOシステムは同じような価格帯にあると考えています。
分かりました。では少し話を戻しましょう。私があなたに最初に会ったのは10年以上前で、私が長年尊敬しているZapierという会社の創業者でしたが、中にはZapierを知らない人もいるかもしれません。Zapierについて説明していただけますか?
Zapierはオートメーション企業です。非技術者の方々が簡単に使えるオートメーションソフトウェアを提供し、主にビジネスの自動化を行っています。主に個人ユーザー、小規模チーム、大組織内の個別チームに利用されています。
非常に使いやすいことが特徴で、これは歴史的な自動化システムとは対照的です。現在、アメリカでは300-400万のビジネスが利用していると思います。国際的な顧客基盤も大きいです。
基本的なアイデアは、アプリを接続することです。Gmailやslack、Salesforceなどのビジネスソフトウェアを使用している企業は、これらのプロセスの周りに社内ワークフローを構築し、人間がデータを移動させたり決定を下したりする必要がありました。これをZapで完全に自動化できます。
エンジニアを巻き込む必要がないほど、一般のビジネスユーザーでも使いやすいものです。Zapierの注目すべき点の一つは、VCから極めて少額の資金調達しかせず、VCの道から外れて信じられないほどの規模まで成長したことですね。最初の投資家にとっては素晴らしいリターンになりました。そもそも資金調達すること自体がユニークでした。
そうですね、資金調達するかどうかも議論しました。3人の創業者、私とブライアンとウェイドは中西部出身で、私はセントルイスで育ちました。2010年当時、中西部には実質的にベンチャーキャピタル市場がありませんでした。
では、ビジネスをどう構築するか?有用なサービス製品を作り、それを販売し、収益をビジネスに再投資する、それが私たちの考え方でした。そうやって最初は運営していました。
YCombinatorを通して、デモデーで他の全員が資金調達をする中で、私たちも調達すべきか本当に悩みました。実際、サム・アルトマンとオフィスアワーを行い、調達すべきかどうか相談しました。
彼が私たちに投げかけた良い質問は、「ビジネスの制約は何か?」というものでした。当時のZapierの正当な制約は、ブライアンとウェイドと私が毎日正午に起きてサポート業務を行っていたことでした。
そのため、製品を改善する時間が取れず、そもそもサポートをあまり必要としない製品にするための時間が失われていました。「ああ、サポート担当者を雇うべきだな」と気付きましたが、まだ十分な現金がありませんでした。
そこで、できるだけ早くサポート担当者を雇い、より多くのプロダクト時間を確保するために、小規模なラウンドで資金調達を決めました。面白い、というか悲しいエピソードは、資金調達を完了してお金を受け取り、採用する人を見つけて雇い入れ、給与支払いを開始して最初の給与を支払う頃には、実は収益が十分に追いついて直接支払えるようになっていたことです。
おそらく調達した100万ドルは、今日まで系統的に追跡できるでしょう。ただし、それは私たちを活性化させ、全力で取り組むきっかけを与えてくれました。実際、それがYCから得た最大の価値だったと思います。
素晴らしいですね。また、最初から完全リモートワークでしたよね?
はい、それも変わった点の一つでした。2011年以降、グローバルなリモートチームでした。当時知っていた完全リモートの会社は、WordPressのAutomaticと37signalsくらいでした。
そして3つ目の興味深い点は、Zapierが非常に早くLLMを使い始めたことです。私が知る限り、実際のLLMのユースケースを持つ最初の企業の一つでしたが、それらのユースケースについて、そしてその経験について説明していただけますか?
はい、これは2022年1月の思考連鎖の論文に遡ります。私はもともと大学で機械工学を学び、最適化の研究をしていました。これは2017年まで気付きませんでしたが、すべてのディープラーニングと同じ数学だったんです。
これに気付いた時、「ああ、これがどう機能するのか分かった」と思いました。多くの謎が解けました。そこで研究面により注目し始めましたが、Zapierは成長し、他の優先事項があり、新製品の導入などもあったため、あまり気にしていませんでした。
GPT-2の論文は読み、GPT-3の論文も読んで会社全体にプレゼンを行いましたが、「まあ、周辺的な基本的なことはできるかもしれない、クールな技術だけど、それだけだな」と思っていました。
そして2022年1月にJason Weiの思考連鎖の論文が出て、これがZapierの顧客が求めていることに非常に関連があるかもしれないと思いました。そこでCEOのウェイドに「会社の半分を引き継いでもらい、製品エンジニアリングを運営してもらう必要がある。私はここでAI研究をして、これが私たちのビジネス、顧客にとって何を意味するのか理解する必要がある」と言いました。
そして6-12ヶ月の間、私とCTOのブライアンは一日中コーディングをし、この技術が何ができて何ができないのか、限界は何かを理解しようとしました。これは2022年の夏で、ChatGPTが出る4-5ヶ月前でした。
私たちはグラフを構築し、思考の木のプロトタイプを作り、この技術を使ってChatGPTのバージョンを内部で作りました。基本的な要素のほとんどを3-4ヶ月でプロトタイプ化し、Zapierが最初に取り組むべき最も明白な場所は「ツールの使用」という概念だと特定しました。
凍結された重みを持つLLM、つまり世界で行動を起こす能力を持たないLLMに、Zapierのプラットフォーム上のツール、すべてのアクション、すべての検索エンドポイントを装備できるのではないか、そうすればより多くのことができるようになるのではないか、と考えました。
これが、私たちが早くAI製品の構築と提供を開始するきっかけとなりました。また、これは後の話につながりますが、このパラダイムの限界を早期に見極めることができた理由でもあります。
私はZapierの顧客数百人と話をし、オートメーションの中間にこのAI技術を展開しようとする彼らの声を聞きました。Zapierは2年前からAIエージェントを展開しているので、この技術に対して人々が何を求めているのか、何が機能しないのかを聞くことができました。
彼らが一貫して語る最大の問題は、「可能性は理解できる、ビジネスに何ができるかは分かる。でもまだ十分な信頼性がないから、完全に手放すことができない」ということでした。ZapierはChatGPTとは異なるオートメーション製品です。キーボードで入力して応答を得て、それを監査できるわけではありません。Zapierはサーバー上でオフラインで実行され、監視はしていません。
このフィードバックは非常に大きく、GPT-3.5から4、4o、そして2023年から2024年にかけてのスケーリングに関する誇大宣伝の中でも変わることはありませんでした。私の実体験とは合致せず、「これをどう説明すればいいのか」と考えていました。2つの事実が矛盾しているように見えたのです。
そこで、Lexのポッドキャストでフランソワの過去のエピソードを再発見しました。コロナの時に初めて聞いて、ARCベンチマークについてもう少し考えていたのですが、本格的に掘り下げ、2019年に発表された「知性の測定について」という論文を読みました。
これが私の「アハ」モーメントでした。この論文は、私たちが目にしている技術の第三の約束とその重要性、そして印象的な点を非常にうまく説明していました。同時に、事前学習による記憶のスケーリングアップの根本的な限界について、顧客から見ているすべての事実につながる説明もありました。
この結論に達した時、「明らかにARCベンチマークは世界で最も重要なベンチマークだ、もっと多くの人々がこれを知るべきだ」と思いました。去年の夏まで、これは比較的知られていないベンチマークでした。
そしてあなたはベンチマークの賞を作りましたね。その話をしませんか?この段階で、あなたがフランソワを紹介してくれたのは – ありがとうございます – 世界にとって非常に有益だったと思います。
はい、その紹介から大きな効果が得られたことを願っています。私をポッドキャストに呼んでくれてありがとうございます。
そうですね、少なくとも6ヶ月くらい、ベイエリアの研究者たちに「これが最も重要なベンチマークだと思うんですが、聞いたことありますか?」と調査していました。ARCの認知度は比較的低く、10-20%程度でした。
聞いたことがあると答えた人の多くも、実は言語モデルにずっと前に破られた古いアレン研究所のバージョンと混同していました。比較的知られていないものだったのです。
フランソワとスイスのLab42が数年間小規模なコンテストを運営していたので、これが堅牢なベンチマークであるという証拠はありましたが、AI業界では認知度が非常に低かったのです。
これは事前学習のスケーリングに根本的な限界があることを示す具体的な証拠、おそらく公共の場で入手できる主要な具体的証拠の唯一のものでした。他のすべてのベンチマークはどんどん早く飽和していっていました。しかしARCだけは違いました。
認知度の低さが問題だと考え、あなたの紹介後、私はシアトルに飛んでフランソワとランチを取りました。ARCについての私のアイデアを説明し、いくつかのアイデアを持っていました。楽しい会話でしたが、「なぜ認知度が低いのか?」「なぜもっと取り組まないのか?」といった重要な質問もしました。彼は全ての質問に対して良い答えを持っていました。
私のメモの最後に一つ質問がありました。それは「ARCプライズを提案する」というものでした。私は「認知度が低い理由は、これが本当に難しいからだ」と思いました。すべてのフロンティアラボが試みていて、これが重要なベンチマークであり、認知度を高めるべきだという確信を深めました。
そこで「プライズならできるかもしれない」と考えました。前年にNat、Matt FreemanとDanが実施したTrivialチャレンジが、この種の曖昧な問題に対する認知度とステータス、関心を高めることに非常に成功していたのを見ていました。人々の視点を変え、取り組むようになりました。同様のことができると考え、そこからARCプライズが生まれました。
ARCプライズを開始した時、新しい取り組みを得ることに成功しましたか?
2024年6月の時点で、AI研究者の10%程度しかARCを知りませんでした。2024年12月31日の時点では、テック業界のほぼ全員がARCを知っているでしょう。私たちは目的を達成したと思います。
正直に言うと、このベンチマークに対するエネルギーの高さに私は常に驚かされています。具体的な例を挙げましょう。コンテストは11月初めに終了し、リーダーボードにはたくさんのチームがいました。賞金を獲得するための要件の一つは、進捗をオープンソース化することでした。これは毎年コミュニティの進歩を再ベースラインするというアイデアです。
首位のチーム、夏の間ずっとリーダーボードのトップにいて55%程度のスコアを持っていたチームが、コンテスト終了の4-5日前にメールを送ってきて「解決策をオープンソース化するかどうか迷っています」と言ってきました。
私は「おっと、まずい。このコンテストの構造に何か根本的な間違いがあったのか、AGIに向けた進歩を加速させるという目的は達成できないのか」と思いました。
しかし、その電話から72時間以内に、他の2-3チームが10位くらいから2位まで急上昇し、2位のチームは1位のチームとほぼ同じスコアになりました。コンテスト終了の24時間以内に3つの異なる論文が発表され、ARCの研究論文をタイミングを合わせて発表し、論文コンテストにエントリーしてきました。
コンテストの最後に、私たちには見えていなかった phenomenal な量のエネルギーがあったのです。同じことはOpenAIのo1モデルが登場した時にも起こりました。ARCでo1をテストしてほしいという信じられないほどの要望がありました。Twitterで何千人もの人々が私たちにテストを懇願していたのです。
私たちはそれを行い、やって良かったと思っています。このように、その関連性と認知度を高めることができた点で、驚きの瞬間がいくつもありました。
このようなコンテストを構成する際の洞察や、チャレンジから得られたAIに関する洞察について、どのようなことを学びましたか?
4年間、人々がARCを克服しようとしてきた古典的な方法は、純粋なプログラム合成でした。ドメイン特化言語(DSL)を構築する、つまり小さなPython関数やPythonの変換のようなものを考えます。
通常、人間がパズルを見て変換の可能性を推測することでこのDSLを構築し、それらの変換の可能な組み合わせすべての空間で実質的に総当たり検索を行い、入力と出力に一致するものを探し、それをテストに適用します。これが基本的に今年まで人々が試みてきた古典的な方法です。
しかし、これはうまく機能しません。非常に遅く、非常に非効率です。また、非常に力任せなアプローチです。なぜなら、一般性はすべて人間が追求するDSLに組み込まれているからです。
2024年のARCでは、本当に興味深い新しいアプローチがいくつか登場しました。その中でも特に注目すべきは、言語モデルを使用してたくさんのPythonプログラムを生成し、それらを検索するという帰納ベースのアプローチです。パズルからの入力に基づいて言語モデルのプログラム生成を導くようなヒントや情報を与えるのです。
これはライアン・グリーンブラットの手法で、この技術を使って早い段階で約40%というスコアを達成しました。数億のPythonプログラムを生成する必要があり非常に非効率的でしたが、このようなプログラム帰納型の手法に期待が持てることを示しました。
生成されたプログラムの中からどれが有望かを選ぶ方法については、強化学習的なアプローチを取ります。プログラムを実行して、データセットに含まれる正解と照らし合わせて評価するのです。これはすべての数学やコーディングの分野に当てはまり、R1やo3が特に優れている領域です。つまり、答えがあり、コンピュータが素早く正確にチェックできる分野では、このような手法が効果を発揮するということです。
もう一つの大きな革新は、テスト時学習です。これは新規性への適応を試みる新しいアプローチの一つです。ARCデータセットには公開データセットと非公開データセットがあり、Kaggleコンテストの賞金が付与される非公開データセットは、世界でもごく少数の人間しか見たことがなく、テスト時にアクセスすることはできません。これは、非公開データセットへの過適合やチートの可能性を減らすための強い保証を得るためです。
人々が発見したのは、Kaggle内の非公開データセットを出発点として、データ拡張を使用して大量の類似データを生成できるということでした。色を変えたり、グリッドを反転したりするなど、意味的なルールは変えずに近傍の置換を大量に生成します。その後、こうして生成された何千、何万もの局所的に学習されたデータを使ってモデルを微調整し、それを活用するのです。この手法は実際に効果を発揮し、50%近いスコアを達成しました。
これで、言語モデルを使って新規性に適応する方法について、2つの広範な証拠が得られたことになります。一つはo1 ProやO3が行っているような共同検索で、Chain-of-Thoughtのステップで大量のサンプリングと検索を行います。もう一つは、テスト時学習のパラダイムで、与えられた状況に対してデータ拡張を行い、それをマニフォールドにフィードバックして推論を行うというものです。これは一種の知識の再構成と考えることができます。
ARCは、これらのアプローチが、コンピュータが単に以前学習したことを厳密に記憶するだけでなく、新しい課題に適応する上で有望であることを示しています。
もしARCがもっと広範な、ピクセルや色の変更以外の領域に拡張されたら、このようなアプローチは破綻するのではないかと思われるかもしれません。子供の頃に読んだダグラス・ホフスタッターの本を思い出しますが、そこには数列があって、次の数を予測するというような、異なる構造を持つARCのような推論チャレンジがありました。
これはARCについてよく誤解されている点です。ARCは視覚的なベンチマークだと考えられがちですが、それは人間が直感的に理解できるように視覚的に表現しているだけです。「私たちのAIシステムがARCを解けないのは、まだ視覚的なドメインを扱うのが得意ではないからだ」という認識があるのはわかりますが、ARCはむしろプログラム合成のベンチマークとして考えるべきです。
古典的なプログラム合成は、まさにあなたが言ったように、整数の数列が与えられ、別の数列を出力する規則を見つけることです。1次元の数の配列を別の1次元の配列にマッピングする方法を見つけるのです。ARCは最初のデータセットでそれを2次元に拡張しただけです。配列の代わりに行列を使っていますが、基本的には同じプログラム合成の課題で、行列の数値から別の行列への変換規則を見つけることが目的です。
ここで興味深い質問が出てきました。ARCの2次元性は本質的なものなのでしょうか。フランソワの素晴らしい功績の一つは、ARCが好奇心を捉える能力を持っているということです。私は多くの友人や家族にパズルを見せましたが、AIについての様々な宣伝や、これらのシステムを実際に使った経験から得られる直感に基づいて、パズルを見て「ああ、なるほど」と思います。そして「AIはまだそれができない」と言われると「えっ、本当に？」と驚くわけです。
スクリーンショットを撮ってAIに投げかければいいじゃないかと思うかもしれません。しかし、本当にそれは通用しないのです。これは好奇心を刺激する瞬間を作り出し、何が起こっているのかを考えさせます。これがベンチマークを視覚的に表現する理由であり、フランソワがデザインの観点から本当に素晴らしい仕事をしたと思います。単に私たちがまだ持っていない能力について知的に興味深い主張をするだけでなく、人々にそれに取り組むよう鼓舞することが目的なのです。
ベンチマークは誰も関心を持たなければ意味がありません。ARCは人々の想像力を捉え、なぜできないのかを考えさせ、アイデアを試してみようという気にさせる点で非常に優れています。これがARCを立ち上げた全体的な目的です。この重要な未解決のベンチマークに対する認識を高め、そのベンチマークを中心としたAGIの定義に関する認識を高め、より多くのAI研究者に新しいアイデアを試してもらうことが目的でした。
私の人生における大きな哲学は、AGIは人類史上最も重要な技術であり、これを克服するためのユニークなアイデアを持つ人は誰でも、自分を含めてAIの創造に挑戦すべきだということです。研究者や投資家と話をする中で、一つのパラダイムにこれほどの資金やエネルギー、関心が集中していることにフラストレーションを感じました。たとえそれが正しいパラダイムだとしても、世界には確実性を高めるためのいくつかの対抗的な賭けが必要です。
私はその立場を維持しています。AIにできるだけ早く到達し、私たち全員が望む未来を加速するために、可能な限り強力なグローバルなイノベーション環境が必要だと考えています。
では、あなたの新しい組織は、そのような対抗的な賭けを行うということですか？
はい、その通りです。India FRIを数週間前に正式に発表しました。フランソワと私で、いわば知能科学研究所を立ち上げたのです。私たちの見方では、O3のようなシステムでさえ現在見られるほとんどのボトルネックを取り除くようなAGIへの道は、深層学習とプログラム合成の組み合わせにあります。
実は、ARCプライズを立ち上げた頃からこの話をしていました。大学ツアーを行い、この視点を説明してきました。興味のある方は、そのトークを見つけてアイデアの要点を理解することができます。
基本的なアイデアは、深層学習とプログラム合成は全く異なるパラダイムであり、プログラム合成はO3を機能させている要因だということです。これが新しい能力を引き出している新しいパラダイムであることを示す強力な証拠が得られたと考えています。
私の考えでは、振り返ってみると、2023年12月のO3がARC V1を克服したこの瞬間は、2012年にAlexNetがImageNetコンテストで勝利した瞬間（面白いことに、これも文字通りコンテストでした）を深層学習の始まりの一つと見なすのと同様に、プログラム合成の5〜10年のスケーリングの旅の出発点として見られることになるでしょう。
今日、私たちは今後5〜10年を見据えており、何が足りないのかを考えています。これは少し比喩的な表現かもしれませんが、プログラム合成のための「Transformer」はまだ存在していません。まだ発明されていない技術がたくさんあります。
この分野を見てみると、世界には現在おそらく100万人の深層学習の専門家やエンジニアがいますが、それに比べてプログラム合成の専門家は数百人程度でしょう。もしこれが本当にAIへの道筋であるならば、この分野を成長させる必要があります。私たちはまさにその出発点にいるのです。
これが私たちの基本的な見方です。人間のボトルネックのない極めて効率的なAI技術を得るためには、これら2つのパラダイムを統合する必要があります。
プログラム合成について最も良く説明できる方法は、おそらく例を挙げることでしょう。これは実は深層学習よりも古い分野で、70年代、80年代、90年代にまで遡ります。古典的なプログラム合成は、整数の数列から別の整数の数列へのマッピングを行うプログラムを見つけることを扱います。これが研究者たちが長年取り組んできた典型的なベンチマークです。
実際、整数数列のオンラインデータベースという面白いものがあり、研究者たちがこの種の研究のために何十万もの数列を作成しています。入力数列と出力数列が与えられ、エンジニアとしての目標は、その数列を自動的に理解できるコンピュータプログラムを作成することです。
これが実際にとても難しい課題だと聞いて驚くかもしれません。その理由は、プログラムの複雑さと隠れた状態や変数の数によって、プログラムがかなり長くなったり複雑になったりする可能性があるからです。プログラムが長くなればなるほど、基本的にすべての可能なプログラムを列挙しようとする問題に直面します。これが古典的なアプローチで、入力を与えて出力が得られるかどうかをチェックする総当たり検索を行うのです。
これは極めて非効率的で、指数関数的なスケーリングを持ち、合理的な時間内でこれを機能させることは実質的に不可能です。しかし、これが問題の基本的な形態です。O3について説明すると、これらのシステムがどのように機能するのか、少なくともo1では実際に体験することができ、より良く理解できます。
これらの思考連鎖では、質問を与えると、しばらく考えて大きな思考の連鎖を構築し、答えを出します。この思考連鎖はプログラムとして考えることができます。自然言語のプログラムですが、個々のステップがあり、各ステップは前の思考から次のステップへの潜在空間の変換のようなものです。
o1 ProとO3が行っているのは、実際にプログラムの組み換えを行い、古典的なプログラム合成と同様に、可能なプログラムの空間全体を検索することです。プログラム合成の大きな課題を深層学習と比較すると、プログラム合成は分布外の学習が可能で、分布外に一般化できるプログラムを見つけることができます。これは深層学習とは対照的です。
深層学習は、大量のデータを高次元のマニフォールド上に埋め込み、そのマニフォールドから新しいデータに対して素早い近似的な判断や直感を導き出すパラダイムです。しかし、それらは厳密ではなく、正確性の保証はありません。また、大量のデータが必要で、分布内の精度しか得られません。
一方、プログラム合成ではプログラムを探しているので、おそらく数例のデータだけで十分です。100万や10万ではなく、3つ程度の例があれば、プログラムの規則の輪郭を見つけることができます。そして、一度規則を見つけてプログラムを手に入れれば、どんな入力に対しても機能します。
つまり、非常に少ないデータしか必要とせず、ドメイン外にも一般化できますが、問題は指数爆発です。可能なすべてのプログラム、あるいはo1の場合は可能なすべての推論連鎖を検索することは単純にできません。
ではこれをどのように実現するのでしょうか。洞察は、両者の長所と短所を利用して統合することです。深層学習の利点である素早い近似的なスケッチを使って、検索プロセスを単なる総当たりにならないように導きたいのです。総当たりは人間の働き方ではありません。人間はARCのパズルを解くために、頭の中で1000ものPythonプログラムを考えているわけではありません。
私たちは直感を使ってパズルを解くためのいくつかの可能な答えのスケッチを生成し、それを頭の中で象徴的に検証します。ステップを一つずつ確認し、正しいかどうかを確認します。もし正しくなければ、脳の深層学習部分に戻って、さらなるアイデアを求めます。2つのシステムの間でスムーズなやり取りが行われているのです。
これが私たちが構築できる基本的な基盤だと考えています。面白いことに、私の共同創設者のショーンはSベンチで多くの仕事をしていて、最高スコアを獲得しました。全く異なる領域ですが、彼もo3とo1を使ってプログラムを生成し、それを実行して、どれが最も良いものかを判断しようとしています。
ここで実行時間は大きな要因になるでしょう。これはAI研究の分野がまだ十分に取り組めていない問題だと思います。O3のニュースを発表した際、x軸が実質的にタスクあたりのトークンコストやコストを示す2Dグラフで報告する必要がありました。
なぜなら、AIにおいて、より多くのお金を使えばより高い精度と信頼性が得られるというパラダイムに入ってきているからです。まだ対数曲線上にあるので、単純に線形に上昇するわけではありませんが、より良い答えを得るためにより多くのお金を使うことができます。
これは多くの領域で当てはまり、もはや単一のベンチマーク数値を報告することができないことを意味します。実際、ARCでもこれをまだARCプライズの来年に向けて修正する必要があります。リーダーボードに効率性の次元を何らかの形で組み込む必要があるのです。
単にシステムがベンチマークで75%を達成したと言うだけでなく、それを達成するのにどのくらい時間がかかったのか、どのくらいのコストがかかったのかといった質問に答えられる必要があります。これらの種類の推論システムにおいて、人間のボトルネックを超えた後、効率性が本当に重要な課題になると考えています。
コンピュートを使ってより良い答えを得ることができるということは、コンピュートコストが確実に下がっていくことを考えると、その曲線の形状も本当に重要ですよね。
はい、多くの分野でより良い答えを得るためにより多くのお金を使いたいと思います。
今年から機能し始める主要なものの一つはエージェントです。Zapierの逸話に戻りますが、現在エージェントを使用した自動化を展開する上での最大の障壁は、信頼性が十分に高くないことです。
これは多くの人々がまだ十分に理解していない重要な点です。新規性への適応能力の向上が実際に何を意味するのか。かわいいベンチマークを克服できたということだけでなく、実際には、これらのシステムからより一貫して同じ答えを得られるようになるということです。必ずしも正しい答えではなく、同じ答えをより一貫して得られるということです。
これにより、人間がシステムを操作し、その動作をより正確に制御できるようになります。これは信頼性の基準を上げることになり、多くのユースケースで、エージェントを使いたいと思っていたけれどコストの問題ではなく、単に十分に機能しないという理由で使えなかった場合に、o1、Pro、o3、R1などをエージェントシステムの計画ステップに組み込むことで、それらのユースケースが解放され始めるでしょう。
このインタビューをしながら頭の中で考えていることの一つは、私たちがこの種の推論が重要だということを当然のように考えているように思えることです。このようなおもちゃのような問題を見せることで、実世界での意味を見失っているのではないでしょうか。
面白い話をしましょう。これは私がAIのベンチマーキングの道に進むきっかけとなった出来事です。数年前、Zapierで初期のAIエージェントを構築していた時のことです。ZapierはOpenAIの長年の強力なパートナーで、私は今まで3つの主要なOpenAIの立ち上げに関わってきました。
私たちは両方ともSlackを使用していて、共有のSlackチャンネルがありました。初期のAIエージェントプロトタイプを構築していた際、HubSpotから入ってくるリード管理や、営業チームが行っている文字起こしをこのプロセスに送り込むシステムを構築していました。
テスト時に、エージェントには2つの主要な機能を設定していました。顧客情報を送信するSlackチャンネルを選択することと、Slackメッセージの本文を作成することです。エージェントは両方を受信メッセージから推測していました。
私たちのシステムでは、これら2つのフィールドの入力方法についてエージェントにヒントを与えることができました。例えば、Slackチャンネルには「#testing」チャンネルを使用し、これはプレーンテキストの説明です。メッセージについては、リードの名前、姓、電話番号、メールアドレスを取得して、リードのウィジェットを作成し、それをメッセージの本文にするといった具合です。
最初にシステムを起動したとき、「#testing」というSlackチャンネルがあり、OpenAIとのチャンネルは「openai-partner-testing」のような名前でした。エージェントは時々そのパートナーシップチャンネルを選んで情報を送信し始めました。これは良くありません。これは本番システムで、重要なパートナーシップであり、顧客情報をそのように共有したくはありません。
すぐにシステムを停止し、状況を修正しましたが、これは私にとって最初の気付きの瞬間でした。信頼性、オーバーライド、制御が信頼を構築する上で極めて重要になるということです。これを初めて目にしたユーザーは「いや、これはダメだ。このシステムを10フィート離れたところに置いておいて。これは私のビジネスを危険にさらすことになる」と考えるでしょう。
これは非常に現実的な問題でした。1年半前にAIエージェントの展開を開始した時点で、ユーザーに推測の制御を強制的にコード化して提供する必要があることを早い段階で認識させました。現在のZapierのAIエージェントでは、希望すれば推測を許可することもできますが、デフォルトではチャンネルを選択する必要があります。
これにより、ある程度の確実性と保証を得ることができます。あるいは、推測させたい3つのチャンネルを指定することもでき、そのような強い保証を組み込むことができます。これはすべて、信頼性が非常に重要であり、おそらくビジネスやユーザーが気にするタスクを自動化できるエージェントを展開する上で最も重要な要素であるという早期の洞察でした。
このような問題は、o1とo3を使用することで、今後確実に解決されていくでしょう。これらのガードレールなしでは、純粋な言語モデルシステムの確率的な性質により、同じような保証を得ることは困難でした。開発者が追加のガードレールを作成する必要がありました。
なぜオープンAIと密接な関係があるのに、Indiaを独立した組織として立ち上げたのですか？なぜ新しい組織が必要だと感じたのでしょうか？
現実を見ると、これらの企業の多くが取り組んでいる最前線を見ると、私たちがプログラム合成の重要性について持っている見方を共有しているとは思えません。フロンティアラボやOpenAIを含む多くの人々と話をし、O3の結果を示しましたが、これはまだ深層学習のパラダイムの中にあり、上に少し特別な検索が乗っているだけで、それほど重要ではないという見方があります。
もちろん、これらの組織の中にも理解している人々はいますが、今日の業界における広い見方は、これは深層学習がまだスケーリングしているというものです。私たちはその見方に根本的に同意できません。
私の見方では、プログラム合成は方程式の少なくとも50%を占めています。コンピュート予算の観点からではないかもしれませんが、将来の高効率なAIシステムにおけるアイデアの観点から見ると、その半分はプログラム合成の分野から来ることになるでしょう。
そして先ほど言ったように、AGIは非常に重要な技術であり、ユニークで差別化されたアイデアを持つ人は誰でも、それを試すべきだと考えています。これがARCプライズを立ち上げた理由です。より多くの人々に新しいことを試してもらいたいのです。2018年、2019年に私たちが持っていたAI産業研究モデルに戻り、誰もが新しい異なるアイデアを試していた状態に戻りたいと考えています。
ARCプライズはナラティブの観点からオバートンウィンドウをシフトするのに役立っていると思います。それは今見え始めています。多くの小さなスタートアップから基礎的なイノベーションが出てきているのを見るのはとてもワクワクします。
実際、ARCプライズについて最も驚いたことの一つは、個々の研究者や大きな研究所の注目を集めることを期待していましたが、7〜8つのスタートアップが、コンテスト中あるいはその後に私たちに接近し、研究の方向性を変更したと告げてきたことです。これらはAI企業で、ARCに取り組むために方向転換したのです。
これは私たちが望んでいた影響を持ち始めていることを示していると思い、とても興奮しました。少なくとも、より多くの探索を行い、この問題を解決する全体的な確率を高めることができています。
また、技術を使用して長期的に何をしたいかについても、他の主要なプレイヤーや企業とはかなり異なる興味深い野心を持っています。しかし、純粋に技術的な観点からIndiaを立ち上げた理由を見ると、それは私たちがAGIに迅速に到達する確率を高める、成功の可能性が高い異なる見方を持っているからです。私たちはそれを実現するために全力を注ぐつもりです。
製品を作り、お金を稼ぐことにも焦点を当てているのですか？
この件については少し異なる見方をしています。これは研究所です。近い将来に製品を提供する予定はありません。私たちの定義によるAGIを実現すること、つまり人間にとって簡単でコンピュータにとって難しいタスクとの間のギャップをゼロにすることが目標です。
しかし、技術のプロトタイプを使って科学のフロンティアを進めることは始めるかもしれません。これが私が興奮する理由の一つです。AGIの構築は私たちにとって第一歩です。本当に興奮するのは、その技術を活用して、様々な科学分野のフロンティアでのイノベーションのペースを加速することです。
AGIは間違いなく多くの問題を解決するでしょう。Zapierの顧客のように、すでに問題を解決し始めています。まだAGIですらないのに、です。人々がこの技術を使って多くの問題を解決することは素晴らしいことで、私も完全にそれを支持しています。
しかし、この技術について私をより興奮させるのは、未知の未来へと加速していくことです。1400年代に印刷機が最初に導入された時のことを考えてみましょう。今から600年ほど前です。反応はどうだったでしょうか？明らかに多くの恐れや懐疑論がありましたが、同時に知識を世界的に共有し、アイデアを自由に交換できることへの大きな期待もありました。
しかし、当時の誰かに2025年がどのようになっているか予測してもらおうとしても、ウィキペディアやそれで学習したAI、コンピュータと会話できる未来を想像することは非常に困難だったでしょう。私たちは、すべてを触媒したこれらの創世記的な瞬間から、技術の木の中をとても遠くまで来ているのです。
これが私を本当に興奮させるのです。問題解決よりも、むしろ冒険のようなものです。将来の技術には、今の私には何であるか言えないような本当にエキサイティングでクールなものが出てくるでしょう。
しかし、そこにより早く到達するためには、主な制約は、イノベーションを自律的に行うことができるコンピュータが必要だということです。それはAGIを創造することにボトルネックがあります。これを助け、加速することに私は本当に興奮しています。
先ほど私が説明した定義、つまりコンピュータにとって難しく人間にとって簡単なすべてのギャップを埋めるという定義について、タイムラインについての見解はありますか？
この定義について考慮すべき別の点は、効率性です。おそらく人間レベルの効率性に達する前に、その定義に到達するだろうと予想しています。
言い換えると、AIにとってもはや困難なタスクは残っておらず、人間レベルの効率性で行えるということですが、人間レベルの効率性とは具体的に何でしょうか？それはあなたの給与のようなものでしょうか？
これは現在まさに議論している点です。産業界もまだ効率性の測定方法を知りません。ARCプライズでもこれを解決しようとしています。人間とコンピュータを比較できるものが必要です。FLOPSはあまり適切ではありません。
ドルを使うことはできるでしょう。コンピュータにXの作業をXドルで行わせ、人間にXの作業をXドルで行わせることができます。時間は興味深い視点です。なぜなら、コンピュータは並列化によって時間を高速化できるからです。これは彼らが得意とすることです。
正直なところ、答えは分かりません。現在の知識に基づけば、ドルが最も適切な指標かもしれません。ドルはすべてをドルに換算でき、人間の労働単価とコンピュートコストを比較できます。また、コンピュートの価格性能が効率化していくことも追跡できるという利点があります。
では、人間レベルの効率性、つまり人間がこれらの簡単なタスクに支払っているのと同じくらいのコストでコンピュータが行えるようになるということについて、あえて大胆な予測をするならば、私の現在の期待は以下の通りです。
今年作業しているARC V2は、おそらく12〜18ヶ月は持続するだろうと予想しています。これは、現在テストしているフロンティアシステムの性能に基づく最善の推測です。しかし、V1のような5年間のベンチマークにはなりません。なぜなら、V2は同じドメインにあり、人間にとって難しさを上げることなく、コンピュータにとっての難しさのバーを上げているだけだからです。
これは興味深い能力を示すものになるはずです。依然として興味深く、研究の方向性を示す良い勾配ツールになると思います。しかし、本当に興奮しているのは、来年に向けて設計とプロトタイプを開始したV3です。V3の設計目標は3年間持続することです。これが私たちの希望であり目標です。
もちろん、現実との接点を確認する必要がありますが、私の予想では、少なくとも今後3〜4年は、その効率性レベルで「人間にとって簡単でAIにとって難しい」という問題は解決されないでしょう。
予測を行う上で最も難しいことの一つは、スムーズなスケーリング曲線に関する予測は非常に簡単ですが、能力の段階的な変化に関する予測は極めて困難だということです。
例えば、ARC V1が汎用システムで85%に到達するのはいつかを予測しようとした場合、5年間でゼロから4%に進み、その後2ヶ月で4%から85%に跳躍しました。これを予測することは非常に困難です。
なぜなら、まず、それを実現する技術が世界にすでに存在するかどうかが分かりません。アイデアが世界にすでに存在するかどうかも分かりません。そして、たとえそれらが世界に存在したとしても、誰かがそれをシステムとして組み合わせて実証するまで分からないのです。
能力の段階的な飛躍がいつ起こるかを予測する際には、多くの未知の変数があります。私の具体的な見解を述べると、私たちは純粋なスケーリング体制にいるとは考えていません。システムサイズとコストについて綺麗な曲線を描いて、未来に投影し、その時点でこれらすべての問題が解決されてAGIが実現するという予測はできません。
私はより経験的にアプローチしています。段階的な飛躍がいつ起こるかについて、情報に基づいた推測は可能ですが、これが現実だということを公衆が理解することが重要だと考えています。私たちはまだ能力の段階的な飛躍を探しているのであり、それがいつ現れるかは分からないのです。
素晴らしい、これは良い締めくくりになりますね。このエピソードでは多くの内容、幅広い内容をカバーしました。このGradient Descentのエピソードをお聞きいただき、ありがとうございました。今後のエピソードもお楽しみに。