🍓 『優秀な大学院生と同じくらい有能』― 多くの作業で人間の能力を超える(でも全部ちゃうで!)

5,123 文字

🍓 "As useful as a GOOD grad student" ― Surpasses Human Capability on Many Tasks (but not all!)
All my links:

ほな、ストロベリーことOpenAI o1プレビューがどれくらい賢いかについて、ちょっと話させてもらいますわ。
この数日間、まるで消火栓から水を飲むような勢いで情報を吸収してきたんですけど、いろんな事実やら意見やらが入ってきて、ほんまにびっくりしましたわ。
例えば、こんなツイートがありましてな。「最も才能ある数学者の評価によると、GPT-1は凡庸やけど、完全に無能というわけやないな大学院生みたいやで」。
つまり、世界トップクラスの数学者が言うには、この新しいツールは、まだプレビュー版やのに、ちょっと平凡な大学院生くらいの能力があるってことですわ。
でも考えてみてください。平凡な大学院生でも、普通の人よりは頭ええし、少なくとも特定の分野では役に立つはずですやん。
アメリカでは約11%の人が大学院卒くらいやったと思いますけど、そういう意味では既にエリート層ですわな。これが一つのヒントになりますわ。
せやから、私の友達の博士研究員が01プレビューをテストして、メッセージをくれたんです。
この友達は海洋学と計算流体力学の分野で博士号を持ってるんですけど、「ほぼ最初から正解に近かったわ」って言うてました。
専門用語だらけで私にはさっぱりわからんかったんですけど、ちょっと助言しただけで正解にたどり着いたらしいです。
それから、こんな返事もありましたわ。
「01に、特定の免疫学的アプローチに基づいた大規模ながん治療プロジェクトを書いてもらったんやけど、1分もかからへんうちに、プロジェクトの全体的な枠組みを作ってくれたんや。
めっちゃ創造的な目標、アプローチ、さらには潜在的な問題点や代替戦略まで考えてくれてんで。
これ、普通やったら何日もかかる仕事やのに。しかも、30年もこの分野で働いてきた私でも思いつかへんかったようなユニークなアイデアが少なくとも1つはあったわ」
こんな感じで、みんな何が起こってるんかわからへんくらい驚いてるんですわ。しかもこれ、まだプレビュー版やからね。
結局、複数の博士研究員が「01プレビューは優秀な大学院生くらいに役立つ」って言うてるんです。
まあ、みんながそう思ってるわけやないですけど、大学院生と比較されるようになったってことは、レオポルド・アッシェンブレナーが「状況認識」の論文で予測してたことが、ある程度当たってたってことかもしれませんな。
ほんで、これからこの考えについてもう一度考えてみようと思うんですわ。
要するに、この01っていうのがどれくらい賢いんかってことですわ。
私は「ラズベリー」っていうリポジトリで証拠を集めてるんですけど、もしこれが本当にこんなに賢いんやったら、人類のためにオープンソース化せなアカンと思うんです。OpenAIの許可があろうがなかろうが。
実際、私だけやなくて、たくさんの人がこの仕事を再現しようとしてるんですわ。
まず、この01がどれくらい賢いんかについて、みんなからデータを集めてるんです。
crowdsourceみたいな感じでね。
このテストを見ると、完全に新しいレベルに達してるのがわかりますわ。
今までの中央値が25%から30%くらいやったのが、85%くらいまで跳ね上がってるんです。
こんな大きな飛躍があるってことは、機械学習がこの問題にアプローチする方法に画期的な変化があったってことですわ。
95%くらいまで行ったら、もうほぼ問題が解決したってことになります。
最後の5%を埋めるのに何年もかかることが多いんですけど、そこまでいくと、多くの人はもうあんまり興味を持たへんようになるんです。
でも、25%から40%も性能が上がったら、それは正しい方向に進んでるってサインですわ。
昔、私が機械学習を始めたころ、XGBoostが出てきて、一気にベンチマークを塗り替えたことがあったんです。
MLコンペの成績が30%から60%、80%まで上がって、みんな「おっ、これは正解や」って感じやったんです。
翌年からは、みんな少しずつ改良を重ねていくんですけどね。
OpenAIがストロベリーでやったことも、明らかに正しいアプローチやと思います。
なんでかって言うと、こんなに幅広く一般化できてるからです。
まず、世界クラスの数学者がストレステストをして、そこそこの評価をしてる。
他の分野の人も、計算流体力学とか数学、医学研究とか、全然違う分野の人たちが評価してるんです。
それに、ニューヨーク・タイムズのパズルとか、サードパーティーのオープンソースIQテストでも、人間の一般的な推論能力の中央くらいの成績を取ってるんです。
ほんで、大学院生くらい役に立つし、一般的な知能も人間の中央値くらいに達してるってことは、これはもしかしたらAGI(汎用人工知能)に近いんちゃうかって主張もできるかもしれません。
私はこれが絶対AGIやとは言いませんけど、かなり近づいてるんちゃうかなって気はしますわ。
それから、AIエクスプレインドってチャンネルのフィリップさんのところを見ても、まだSimple Benchの結果は更新されてへんみたいですけど、新しいカテゴリーに入ってて、正確性が約50%くらいらしいです。
最終的な数字はまだ採点中みたいですけど、最初の見立てでは、Claude 3.5 Sonnetの約2倍くらいの性能があるそうです。
つまり、全体的に見て、01プレビューことストロベリーは、今日ある他のどの製品よりも賢いってことになりますな。
これは、次のプロセスがどうなるかがわかったってことですわ。
ほんで、私が指摘したいのは、これはOpenAIの内部ベンチマークのデータなんです。
自社のベンチマークってのはまあそれはそれとして、実際の人が実際の問題を解決する際の実用的なフィードバックを得るのが大事やと思うんです。
人の意見やベンチマークも大事ですけど、ベンチマークの方が「これが最高のモデルや」って言うだけのLLMsよりはマシですわ。
ほんで、ベンチマークがあって、その次に実際の影響力ってのがありますわな。
科学にどんな影響を与えるか、経済にどんな影響を与えるかってことです。
ここで私が指摘したいのは、これらの意見は全部01プレビューに関するものやってことです。
10月に出る01は、さらに1標準偏差分くらい賢くなるみたいです。
仮にIQが100やったとしたら、01のIQは115くらいになるってことですわ。
1標準偏差がだいたい13.4くらいやからね。
GPT-4から01プレビューへの飛躍とほぼ同じくらいの飛躍が、01プレビューから01への間にもあるってことです。
13から56に上がって、それから56から83に上がるわけですから。
コーディングに関しては飛躍が半分くらいですけど、もともとコーディングはめっちゃ得意やったからね。
博士レベルの科学の質問に関しては、GPT-4は人間の専門家より下やったけど、01プレビューも01も、GP QAダイヤモンドではどっちも人間より上やったんです。
最後に、レオポルド・アッシェンブレナーが出したこのグラフについて、もう一度考えてみたいと思います。
GPT-2は幼稚園児くらい、GPT-3は小学生くらいの能力やったんです。
ファインチューニングすれば、もうちょっと賢かったかもしれませんけど。
GPT-4は、まあベースラインのGPT-4か、よく訓練されたChatGPTくらいが、賢い高校生くらいの能力やったんちゃうかな。
ほんで、今は2024年と2026年の真ん中くらいにいるわけです。
つまり、もうGPTの技術を高校生と比べるんじゃなくて、大学院生と比べるようになってきたってことですわ。
あと一歩で博士研究員と比べられるようになって、そのさらに一歩先では世界クラスの研究者と比べられるようになるってことです。
もちろん、これはこのパラダイムがこのまま成長し続けるって仮定の話ですけどね。
みんなから「デイブ、AIの成長が遅くなってるって言うたのは間違いやったんちゃう?」って言われてますけど、その点についてはちょっと後で説明しますわ。
でも、本当に驚いたのは、GPT-4が賢い高校生くらいから始まったのに対して、01プレビーであるストロベリーは、まだGPT-4で訓練されてるのに、新しい訓練パラダイムのおかげで、知能が何段階も上がったってことです。
これは私も完全には予想してなかったことですわ。実用的な知能っていう意味ではね。
まだ「実際には知的じゃない」とか「本当に考えてるわけじゃない」って言う人もいますけど、それは「本当のスコットランド人」のような詭弁ですわ。
内部で何が起こってるかは議論できるかもしれませんけど、結局大事なのは出力です。
その出力が経済的に価値があるか、科学的に価値があるか、人間にとって意味があるかってことです。
答えが「はい」なら、本当に考えてるかどうかなんて関係ないんです。
それは単なる言い訳、現実逃避でしかありませんわ。
GPT-4が出てから2年くらい経ってますけど、その間にRHF、RLHF、RLAIFなどのテクニックが開発されて、さらに今回の新しいテクニックも加わりました。
Chain of ThoughtとReflectionを組み合わせたものらしいですけど、他にもいくつか入ってるかもしれません。
モンテカルロ木探索を使ってるんじゃないかって人も多いですね。
基本的には報酬予測器を調整して、RHFやRLHFの代わりに、あるいはRLAIFの別バージョンとして使ってるんじゃないかと。
そこにChain of ThoughtとReflection、それからモンテカルロを組み込んで、同じ世代のモデルでも桁違いに賢くなったってわけです。
そして、これからGPT-5が出るんですからね。
これはまた別のモデルで、能力的にも大きな変化があるはずです。
私はGPT-2の頃からこの分野にいて、GPT-2を訓練してすぐに限界に気づきました。
GPT-3は限界を見つけるのにもっと時間がかかって、GPT-4に至っては2年経っても上限がまだ見えてないんです。
潜在空間って意味じゃなくて、まだ発見されてない能力っていう意味ですけど、GPT-4で2年半経ってもまだ新しい能力が見つかってるってことは、GPT-5ではどれだけ長く新しい能力が見つかり続けるんでしょうね。
もしもっと長い期間、能力を発見し続けられるんやったら、私が心配してたAIの成長の減速っていうのは、あんまり問題にならんかもしれません。
だって、この新しい訓練方法のおかげで、「01プレビューを使えば何日分ものがん研究の時間が節約できた」って言われてるわけですからね。
それにDeep MindのAlphaFoldとAlphaProteを組み合わせて、01や02(12月に出るらしいやつ)まで発展させたら、サム・アルトマンが匂わせてたやつですけど、AIが経済的にも学術的にも科学的にも、ほとんどの人間の知能を超えてしまったって言えるかもしれませんわ。
これが、私が何年も前から言うてきたことなんです。最初のAIの本にも書きましたけど、「本当の知能とは何か」とか「人間が優れてる理由は何か」っていう哲学的な議論は完全に的外れやって。
今回の結果を見ると、そういう議論はもっと意味がなくなったんちゃうかな。
そういう議論をするなっていうわけやないですよ。でも、この技術が実際に科学や経済にどんな影響を与えるかっていう議論の邪魔になるんやったら、あんまり意味がないってことです。
だって、今まで考えられへんかったような壁を突き破ってしもたんですからね。
今は月に1000ドルとか2000ドルくらいかかるかもしれませんけど、優秀な大学院生と同じくらい賢くて、しかもこれからもっと賢くなるんやったら、そのお金を払う価値は十分にあるんちゃうかな。
私が「割に合わへん」って言うたのは間違いやったかもしれません。
まあ、こんな感じで最近考えてることをお話しさせてもらいました。
みんなの意見を集めて、どんな共通認識があるんかを見てきたわけです。
実は、もう少し言いたいことがあったんですけど、長くなりすぎるんで、ここで止めときます。
見てくれてありがとうございます。参考になったんやったら嬉しいです。
じゃあね、お元気で!
ほんまに、2024年9月にAGIを達成したって言うたのは正しかったんかな?
あの主張を貫いておけばよかったかもしれませんな。
でも、まだ終わってへんで。9月の半ばやから、あと15日くらいあるわ。
AGIが達成されたかどうか、判断する時間はまだあるんです。
はい、これで終わりです。バイバイ!

コメント

タイトルとURLをコピーしました