OpenAIはAGIを偽装したのか?

4,995 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

昨日はAIにとって記念すべき日でした。多くの人々がOpenAIが基本的にAGIを達成したと推測し、OpenAIで働く多くの人々もそう主張しました。最近、TwitterでこのAGIベンチマークのデモが私たちが考えているものとは違うという興味深い議論がありました。
それは、このツイートから始まりました。「2023年3月に大きな進展があった時のように、このお知らせからGPT-4の雰囲気を感じています。ArkAGIでどうやってこんなに大きな飛躍を得られたのでしょうか」
そしてニールス・ラジが「トレーニングセットの75%で訓練することでそれを実現した」と返信しました。これはOpenAIが示したもので、o3トレーニングセットで訓練し、公開トレーニングセットの75%でテストしたと共有し、より詳細は共有していないと述べています。
これは基本的にArkAGIのウェブページに記載されているもので、o3の結果を見ると、注記として「OpenAIはo3を訓練し、トレーニングセットの75%でテストしたと共有した」と書かれており、より詳細は共有されていないとしています。また、ArkAGIデータによるパフォーマンスの影響を理解するために、訓練されていないモデルでテストしていないとも述べています。
そして、著名なAI批評家のゲイリー・マーカスが「これが本当なら、昨日の発表について深刻な懸念が生じる」と述べました。これはもちろん、モデルがトレーニングセットで「訓練された」場合、いくつかの例を見ていたであろうという推測を指しています。
興味深いことに、誰かが「o3のプレゼンテーションでエンジニアが特にArkベンチマークをターゲットにしたと言い、イルヤ・サツキーバーがすぐに彼らは特別なことはしていないと訂正した」と指摘しました。
実際にその小さなクリップを見てみましょう。このビデオが進むにつれて、これらの主張があまり根拠のないものだと分かってきます。
[エンジニア]「私たちが長い間ターゲットにしてきたベンチマークでもあります」
[イルヤ]「私たちは特別なことはしていません。素晴らしいベンチマークだと思いますが、これは一般的なo3の結果です」
ArkAIベンチマークの共同製作者の一人が実際にこれに応答し、「私たちがArkチューンの混乱に対処するために追加したノートについて注意を喚起したい」と述べています。「OpenAIはo3を訓練し、公開トレーニングセットの75%でテストしたと共有した」と説明し、「これはトレーニングセットの明確な目的です。より困難な非公開評価セットを克服するために必要な核となる知識の前提条件を系統的に公開するように設計されています」と述べています。
各トレーニングタスクは単一の前提条件を示し、評価セットは即座にそれらの前提条件を再結合し抽象化することを要求します。広く言えば、評価タスクには3〜5の前提条件の活用が必要で、評価セットはトレーニングセットの単なる暗記に対して非常に耐性があります。これがo3が印象的な理由です。
また、彼はこれが重要でないと考えるもう一つの理由として、Arkのトレーニングセットと評価セットが2019年から公開のGitHubリポジトリでホストされているため、GPT-3、4、4oの事前訓練に含まれていたことはほぼ確実だと述べています。最も驚くべきことは、他のモデルがArkAGIベンチマークでそれほど良いパフォーマンスを示していないことです。これは、事前訓練データに含まれていたとしても、o3が実際にブレークスルーである可能性が高いことを意味します。
他の誰かが「このデータセットなしの結果はどこにありますか?この制限を明示的に指摘した場合、この数字から何を学べるのでしょうか?」と尋ねました。彼は「アブレーション研究をしたいと考えていましたが、発表前に十分な時間がなかっただけです。それでもo3が独特な能力を持つシステムであるという事実から何も差し引かれないと思います」と答えました。
これは私も同意する点で、後でビデオで触れますが、o3の能力を見ると分かります。ここでArkAGIベンチマークのもう一人の製作者であるフランシスCHも応答しています。「これがトレーニングセットの目的です。モデルをそれで訓練することです。モデルがArkデータに事前に触れていなかったらより印象的だったでしょうが、モデルがトレーニングセットを通じて適応したという事実は、その得点を決して無効にしません」
ここで、ベンチマークの製作者たちもこれがスコアを無効にするとは考えていないことが分かります。もちろん、ゲイリー・マーカスのような著名なAI批評家たちはAIを批判する際に発言するでしょう。私はいつも、AIにおける公平な議論が重要だと考えています。なぜなら、それが実際の進歩を生む方法だからです。ハイプバブルの中にいるだけでなく、欠点を見つめ、もしこれが本当の推論でないなら、どうすれば本当の推論を達成し、真のAGIに到達できるかを考えることができます。
【スポンサーセグメント:Brilliant.orgの紹介】
OpenAIの技術スタッフであるルーネは「ああ、トレーニングセットで訓練したのか、全てお終いだ」と皮肉を込めて述べ、これは事実ではないことを示唆しています。
実際に何が起きているかを見てみると、OpenAIで研究を行っているこの個人が述べているように、「o3評価に使用したモデルは完全に汎用的で、ArkAGI公開トレーニングセットのサブセットはより広いo3トレーニング分布のごく一部であり、最終チェックポイントに対する追加のドメイン特化型ファインチューニングは行っていない」と説明しています。
これは、OpenAIの別の従業員が「モデルのArkAGIの高いスコアがプロンプトの方法によるものかと疑問に思う人へ。私はクリーンに見えるプロンプト形式を書き下し、それを使用しました。これが全てです」というツイートへの返答です。
OpenAIで働く個人たちは、最終チェックポイントに対する追加のドメイン特化型ファインチューニングを行っていないことを明確に述べています。多くの人々が、チューンと言っているので、そのベンチマークでモデルをファインチューニングしたと考えたかもしれませんが、これは事実ではありません。
誰かが「チームの誰かがo3の設計と訓練時にArkとArk的な問題を改善すべき領域として意識していましたか?」と尋ねると、これは偶然の副作用として成功したのか、意図的に成功したのかという違いを指摘していると思われます。
彼は「いいえ、チームはo3を訓練する際にArkについて考えていませんでした。内部の人々はそれを、実際の進歩を監視するのに有用な、思慮深く設計された評価の一つとして見ています」と答えています。
また、誰かが「ここでチューンとは何を意味するのか」と尋ねると、OpenAIの別の研究者が「o3を訓練する際にArkトレーニング例を含めたことを示す奇妙な言い方です。o3のファインチューン版ではなく、単にo3です」と説明しています。
これは非常に大きな違いです。なぜなら、特定のデータでファインチューニングすることは、単にそれを訓練データに含めることとは全く異なるからです。これは二つの異なることであり、確かにそれを示す非常に奇妙な言い方で、混乱を招いたと思います。もちろん、私は内部のチームが本当にArkベンチマークをターゲットにしようとしていたわけではなく、単に意図しない副作用だったと推測します。それが真実かどうかは、あなたが判断することになります。
この全ての情報で、ベンチマークを行ったという人もいれば、例があるから行っていないという人もいますが、私たちは明確にベンチマークの両製作者が基本的に「これはスコアを無効にしない」と述べ、もちろん「評価セットはトレーニングセットの単なる暗記に対して非常に耐性がある」と述べていることを見ています。これがo3が印象的な理由です。
私は、たとえ – 私は信じていませんが – これが純粋な暗記だったとしても、o3は依然として素晴らしいシステムだと考えています。これがEPOC AIフロンティア数学ベンチマークです。以前の最先端システムはわずか2%しか達成できませんでした。o3は25%以上を達成しており、このシステムにとって何を意味するのか考え始めると、これは非常に驚くべきことです。
このジャンプがどれほど大きく、この結果がどれほど信じられないものかを理解していない人のために、UCLAのカリフォルニア大学の教授でフィールズ賞受賞者であり、しばしば現存する最も偉大な数学者の一人と考えられているテレンス・タオという人物がいます。彼はこのベンチマークを見たとき、「これらは非常に困難で、少なくとも数年はAIに抵抗するだろう」と述べました。そして、私たちはすでにo3が25%を達成できるシステムであることを見ています。これはOpenAIのモデルの2番目のイテレーションであり、非常に困難なベンチマークでそれほど良い成績を上げることができます。
この全てについて最も驚くべきことは、このベンチマークを見ると、データが多くないため暗記に対して本当に耐性があるということです。彼らがチャンネルに投稿したビデオで何を言ったか見てみましょう。私はほとんどの人がこれを見逃したと思います。なぜなら、このビデオは300か200ビュー程度しかないからです。
「複雑な科学的推論のための既存のベンチマークは飽和に近づいています。専門家レベルの能力に向けてどれだけ進歩しているかを判断できる新しいものが必要です。そのため、私たちはフロンティア数学を構築しました。世界中の60人以上の数学者、教授、IMO作問者、フィールズ賞受賞者と協力して、数百の独創的で非常に困難な数学の問題を作成しました。
これらは実際に本物の問題です。トレーニング材料の不足のような、困難になると思われる点の一つがあります。おそらく十分に文書化されていないでしょう。私は送られた10問を見ましたが、アナログ3問は原理的に解けると思いますが、他は解き方は分かりませんが、誰に聞けばいいかは分かります。
フロンティア数学の問題は、オリンピアスタイルのパズルから研究レベルの課題まで範囲が広く、数学の主要分野全てにわたっています。これらは現在のAIの能力を超えています。利用可能な最も高度なシステムをテストしましたが、それぞれがこれらの問題の2%未満しか達成できませんでした。短期的には基本的に、その分野の本物の専門家を持つこと以外で解く唯一の方法は、関連分野の大学院生のような準専門家と、現代のAIやその他のパッケージの組み合わせです。
フロンティア数学は高度な数学的推論を測定しますが、証明支援のための数学ライブラリの大きな進歩なしに自動的に検証できるように、整数のような閉形式の答えを持つ問題を使用します。これは、定理の証明を通じてほぼ全ての研究を伝える数学者たちにとって、問題を書く際の困難な設計上の制約です。この課題を解決できるAIは、数学に劇的な影響を与えるでしょう」
これは、たとえo1ミニとo1プレビューが約1%を達成したのを見たとき、o1ベンチマークにいくつかの軽微な問題があったとしても、システムがベンチマークの25%を達成することは、この能力の点で劇的に異なるシステムであることを示すシステムであることを示すものだということを、あなた方に示すはずです。
それに同意するかどうかは完全にあなた次第です。AIに対して懐疑的な人々は常に存在するでしょうし、私はそうあるべきだと思います。なぜなら、それは批判を可能にし、前述のように、ハイプのバブルの外で実際の進歩を達成することを可能にするからです。
私はこのビデオを作ったのは、このデモが偽装されたのか、ベンチマークが本物なのかについて多くの議論があったため、空気中の霧を晴らすためでした。このビデオは、このベンチマークが真に何を測定しているのかについて、皆さんにいくつかの洞察を提供するはずです。
以上です。もしお楽しみいただけたなら…

コメント

タイトルとURLをコピーしました