「壁なんてない」OpenAIはついにAGIを実現したのか？

6,471 文字

AIの進歩が停滞しているとThe Informationが報じています。従来のスケーリング方法による性能向上が鈍化したことを受け、OpenAIが戦略を転換したというのです。Googleも同様にAIの減速に対処するため方針を変更し、AI研究者たちはスケーリングの限界を乗り越えようとしています。
The Informationは、OpenAIだけでなく他のAI開発者も従来のスケーリング手法による改善の鈍化に直面していると報じています。彼らは自身の以前の記事を情報源として引用しており、そこではGoogleの減速についても言及されています。
記事によると、次期大型リリースとなるOrionモデルの品質向上は、GPT-3からGPT-4への飛躍と比べてはるかに小さいとのことです。これはOrionをテストしたOpenAIの従業員の証言に基づいています。Orionは言語タスクでは性能が向上していますが、コーディングなどのタスクでは以前のモデルを上回らない可能性があるとされています。
これは、より多くのコンピューティングリソース、データ、トレーニング時間を投入すればモデルは向上するという、私たちがこれまで信じてきたスケーリング則が試されているということを意味します。The Informationは、スケーリング則の終焉に達し、簡単な性能向上は終わり、これからはモデルの改善がより困難になると示唆しています。
しかし、サム・アルトマンは「壁なんてない」と反論しています。確かに、アルトマンにはAIのハイプを維持する動機があるかもしれません。しかし、安全性への注力が不十分だとして去ったOpenAIの安全研究者たちは、むしろ逆のことを言っています。彼らは「これは急速に進んでおり、もっと慎重になる必要がある」と主張しています。もし自然な減速や停滞に達したのなら、AI安全性やアラインメントの課題に取り組む時間が増えるため、彼らはそれほど心配していないでしょう。
しかし、AIの潜在的な減速を心から喜んでいる人物が一人います。それがゲイリー・マーカスです。マーカスはAI業界において興味深い存在です。AIが何か間違いを犯したり、画像で指が欠けていたりと、少しでも不具合があると、狂喜して指差して笑うような人物です。彼はAI分野全体が行き詰まっており、もう終わりだと主張することを好んでいます。
彼は「複数のメディアが複数の企業から、2022年に私が警告した通りの収穫逓減を報じている」と述べています。2022年3月10日の彼のブログ記事「ディープラーニングは壁に直面している」を引用しています。しかし、そのブログ記事以降、デミス・ハサビスとGoogleのDeepMindチームがノーベル化学賞を受賞しました。チームの一員であるジョン・ジャンパーは、GoogleのDeepMind以外の研究者と共同受賞しています。
私たちは、AIモデルがコンピュータチップの設計を行い、そのチップを使用したテクノロジーと皆さんが相互作用している可能性を目にしています。AlphaProteoは生物学や健康研究のために新しいタンパク質を生成しています。これらの設計されたタンパク質は他のターゲットタンパク質に結合することができ、がんやウイルス、様々な自己免疫疾患の治療に役立つ可能性があります。このバインダータンパク質をターゲットタンパク質に結合させることで、そのタンパク質のコントロールパネルのように操作することが可能になります。現在、感染症、がん、HIV、慢性痛、自己免疫疾患などでの試験が行われており、ハサビスは今後数十年で疾病を解決できる可能性があると述べています。
国際数学オリンピック（IMO）では銀メダルを獲得しました。実は、これは少し控えめな表現です。金メダルまであと1点というところでした。これらは世界で最も難しい数学の問題で、証明も含まれています。2つのモデルが協力し、大量の合成データを使用し、モデルは自己学習によってデータを生成し、これらの数学的証明を作成するように改善していきます。世界で最も賢い人々が金メダルを獲得する基準が29点以上だとすると、GoogleのDeepMindのAIシステムはわずか1点差で逃しましたが、来年は確実に達成するでしょう。
NVIDIAでは、大規模言語モデル（この場合はGPT）を使用してロボットを訓練しています。例えば、ロボットハンドやその他のロボットを複雑なタスクのために訓練しています。このハンドが行っているペン回しのトリックなどがその例です。GPT-4がシミュレーション内でそのハンドを訓練するための報酬関数を作成します。これはNVIDIAのIsaac Gymと呼ばれるシミュレーション環境で実行され、正しい動作にはポイントが与えられ、間違った動作にはペナルティが課されます。その結果をGPT-4に返し、「これがどのくらいうまくいったか、もっと良いアイデアを出して改善してほしい」と伝えます。このプロセスを繰り返し、ロボットにより良い動作を教えることができるようになります。
この分野の人間の研究者たちは通常、非常に高度な専門家です。これは非常に技術的で難しい作業であり、誰でもできるものではありません。彼らは報酬関数の作成に非常に長けた、本当にハイレベルな人々と比較しています。当然、GPT-4が最初からこれらのロボットの訓練で彼らより優れた結果を出すことはないだろうと考えられました。しかし、Eurekaは29のタスクにおいて超人的なレベルの報酬関数を生成することができ、Eurekaの報酬関数は専門家が手書きしたものの83%で上回り、平均して52%の正規化された改善を示しました。
さらに興味深いのは、タスクが複雑になればなるほど、GPT-4やEurekaシステムが提供するアイデアが人間のアイデアから乖離していくことです。人間が「こうすべきだ」と考えるところを、システムは「いや、こちらの方法でいく」と提案し、興味深いことに、より難しいタスクでより優れた結果を示します。つまり、より異質なアイデアを生み出し、そのアイデアが私たちの脳が思いつくものよりも効果的だということです。
これらすべてが、2022年にゲイリー・マーカスが「ディープラーニングは壁に直面している。もう終わりだ」と警告して以来起こったことです。ヤン・ルクンは、「ゲイリー・マーカスの主張に反して、ディープラーニングは全く壁に直面していない。彼が最初に言った時も間違っていたし、今日も間違っている」と述べています。「ディープラーニングは現在と未来のAIシステムの基盤であり続けるだろう。ゲイリーのキャリア全体が、コネクショニズム、ニューラルネット、そして今やディープラーニングを打ち倒す戦いの上に築かれている。明らかにこれは、彼が完全に敗北した悲しい後衛戦となっている」
ルクンの批評は非常によく書かれており、ある種の才気を備えています。しかし、なぜそれをマスクに費やすのかと思います。ルクンは政治的な意見の相違からイーロン・マスクとの戦いの後、X/Twitterを離れてThreadsに移行しました。AI に関しては彼らは同盟関係にあると思うのですが、なぜ彼らは対立しているのかわかりません。しかし、ゲイリー・マーカスとの対決は素晴らしいものです。
マーカスは「あなたは知的に極めて不誠実だ。私はあなたよりもずっと以前からここにいた」と反論しています。「2022年3月のエッセイで『ディープラーニングは壁に直面している』という言葉を恐らく私が最初に使い、スケーリングが行き詰まると警告した。当時、あなたは私を攻撃し、『AIは壁に直面していない。AI搭載の運転支援システムを備えた車も壁や他の物に衝突していない』と書いた」
ルクンは大規模言語モデルに対して少し反対の立場にあり、それらを次世代のAIやAGIへの道筋とは見ていません。彼らは有用だが、人間レベルのAIには到達しないと考えています。
マーカスはその後、フォローアップの投稿も行いました。その中で注目したい小さな部分があります。彼はAlphafold 3について言及し、Alpha シリーズからの大きなブレークスルーの一部は、ディープラーニングと他の古典的な技術のハイブリッドだったと述べています。私にはこれをどう解釈すべきか分かりません。ディープラーニングはかなりの進歩を遂げており、実際にかなり急速に進展しているように思えます。
デミス・ハサビスは、この情報を誰が The Information にリークしたのかと尋ねています。記事では、Googleのスタッフが性能向上を絞り出そうとしている方法の一つとして、事前学習中にデータから学習する方法を決定する設定、いわゆるハイパーパラメータチューニングに焦点を当てていると述べています。これはコーディングなどの特定のタスクのために事前学習後にモデルを変更するファインチューニングとは異なります。
これは基本的に大きなリークではなく、これまで見たことのない画期的な新情報ではありません。確かに、彼らはパラメータを調整するなど、LMモデルの性能を向上させる実証済みの方法があると述べています。これは一般的な手法の例であり、新しい戦略は最新のものです。彼らはMITの研究SLPペーパー「The Surprising Effectiveness of Test-Time Training for Abstract Reasoning」を指していると思われます。
このペーパーは別の動画で取り上げたいと思います。なぜなら、フランソワ・ショレが開発したARCベンチマークについて論じているからです。ARCは大規模言語モデルが簡単に100%のスコアを取れないようにデザインされたベンチマークです。コーディングや言語、推論などの標準的なベンチマークの多くは、暗記で克服できる可能性があります。このテストは、モデルが実際にどれだけ考え、推論できるかをテストすることを目的としています。
大規模言語モデルが単に暗記したものを吐き出すのではなく、人間の知性のような知性を持っているかをテストしたいのです。それがARC AGIの目的であり、ARC AGI 2024のリーダーボードを見ると、現在の最高スコアは55.5%です。グランプリは85%以上に達したチームに授与されます。この85%に達することは、少なくともこのテストによれば、私たちがAGIに相当するものを持っていることを示すことになります。
2024年12月6日に結果が発表される予定です。現在、Kaggle.comのARC Prize 2024のトップスコアは55.5%で、グランプリは85%以上を達成したチームに授与されます。この85%に到達することは、このベンチマークによれば、AGIと同等のものを持っていることを示すことになります。ARCはAGIの唯一の公式ベンチマークで、人間には簡単ですがAIには難しいものとなっています。
私はカメラの前でこれらを解くのが嫌いです。なぜなら、間違えると何百万人もの人々がコメント欄で私をからかうからです。視聴者の数を考えると、何か間違えれば必ず誰かが気付きます。間違った部分を編集で消して馬鹿に見えないようにすることも考えましたが、それは本物ではないように感じます。
この背景にある要点は、他のテストほど大規模言語モデルによって簡単に克服されないということです。H-SWAG、MLU、GSM-8Kなどを見ると、ベンチマーク導入からの年数とともに、モデルは急速に人間の能力を超えていきます。この線は5年マークですが、黄色で示されているARC AGIは、賞金が導入されて以来、確かに上昇しているものの、人間の能力の閾値を突破することに対して抵抗力を持っているようです。
先月、サム・アルトマンは2025年に行うことの一つとして、全てのベンチマークを飽和させると述べました。つまり、全てのベンチマークで可能な限り100%に近づけるまでモデルの性能を押し上げるということです。100%に近づくと、性能が向上しているかどうかを判断するのが難しくなります。
あるユーザーは「スケーリングは壁に直面している。その壁は評価の100%飽和だ」と述べています。これが私たちが直面する唯一の壁になるでしょう。これに対してLouis de Poortereとデイビッドは「ARCの評価はどうなの？」と質問しています。これが大きな疑問です。他のベンチマークは最大化できるかもしれませんが、人間には簡単でも大規模言語モデルには難しいように設計されたARC評価はどうでしょうか？
この質問に答えたのが、サム・アルトマン本人です。「心の底から、我々がそれを解決したと信じていますか？」
The Informationはこれまで非常に信頼できる情報源でした。しかし、彼らが複数の記事で押し進めている物語は、AI業界の内部者たちが言っていることと矛盾しているようです。しかも、それは企業のCEOや創業者だけでなく、研究者たちの意見とも矛盾しています。時が経てば真実が明らかになるでしょう。
しかし、その前に皆さんに質問があります。心の底から、OpenAIがそれを解決したと信じていますか？コメント欄に、OpenAIが85%のARCスコアを達成できるモデルを持っていると思う場合は「はい」と書いてください。
インターネット上のチームが55.5%を達成し、その中には個人で参加しているTumin Deng、William Wu、Pooh AIなどもいます。人間レベルの能力を示すグランプリの閾値は85%です。OpenAIが舞台裏で持っているモデル、つまりガードレールのない完全に解放されたモデルで、利用可能な全てのコンピューティングリソースを使用した場合、この閾値を超えられると思いますか？
記事とMITの論文のポイントは、回答を出す前により多く考えさせることで、AIの能力を大幅に向上できるということです。MITの論文では「ARCの公開検証セットで53%の精度を達成し、最近のプログラム生成アプローチと組み合わせることで、61.9%という最先端の公開検証精度を達成し、人間の平均スコアに匹敵する」と述べています。
申し訳ありませんが、まだ論文を詳しく読んでいないので、一部の数字が間違っているかもしれません。次の動画で詳しく掘り下げていきますが、MITの研究室がオープンソースモデルを立ち上げてそのような結果を得られるのなら、心の底から、OpenAIがすでにその壁を突破している可能性があると思いませんか？
ARCのグランプリと人間の能力が別のベンチマークである場合、ARCは85%を閾値としていますが、ニューヨーク大学データサイエンスセンターなどの研究では、平均的な人間の能力はもう少し低いと示唆しています。73〜77%の間で、55〜60%の間で69%が正解、実証的な平均は64%とされています。
しかし、質問は、OpenAIの中にある何らかのモデルが85%を達成し、このチャレンジでグランプリを獲得できると思うかということです。OpenAIは多くの情報を開示する必要があり、オフラインでの作業が必要なため、実際に参加することはないでしょう。しかし、もし彼らがルールに従って参加する意思があるとしたら、この問題の解決策を持っていると思いますか？
サム・アルトマンが言うように「心の底から、我々がそれを解決したと信じていますか？」もしそう思うなら「はい」を、そう思わないなら「いいえ」をコメントに書いてください。皆さんの意見が聞きたいです。
以上です。私はWes Rothです。視聴していただきありがとうございます。次回の動画でお会いしましょう。