GPT-4.5失敗。AGIはキャンセルされた。すべては終わった…

高価なのは蒸留するなら金払えという戦略的なものでは。
9,417 文字

GPT-4.5 Fails. AGI Cancelled. It's all over...
EMINEM VS NAPOLEON DISS TRACK: GPT 4.503:50 Karpathy14:46 Examples of 4.5 "Magic"20:05 The ...

GPT-4.5が発表され、それはまさに画期的なものです。これまで見たことのないような革新的なものです。私たちは通常、新しいモデルがリリースされるたびに、それぞれが以前よりも優れ、高速で、安価でとにかく素晴らしいものになることを期待しています。GPT-4.5はベンチマークを圧倒しているでしょうか?いいえ、そうではありません。確かにGPT-4oからは適度な改善ですが、例えばo3 mini highのような推論モデルには遠く及びません。高度な数学問題や複雑なコーディングタスク、推論を必要とする作業に関しては、最高水準の推論モデルに比べるとそれほど上手くできないと思ってください。
では、そのウリは超高速なことなのでしょうか?データを非常に速く出力できることが売りなのでしょうか?確かめてみましょう。「自宅で安全に漬物を作る方法をステップバイステップで説明してください。汚染などが起きないように」と尋ねてみましたが…それほど速くありません。市場に出ている中でおそらく最も遅いモデルの一つです。実際、これほど遅く文字が表示されるのを見るのは奇妙な感じです。1年前、1年半前に戻ったような感覚です。現在のほとんどのモデルはこれよりもずっと速く結果を出します。
わかりました。APIで使用する場合は非常に安価なのでしょう?少し遅くて少し優れているけれど、超安価なモデルなのでしょう?GPT-4oの場合、100万トークンあたりの価格は入力が250ドル、出力が10ドルです。GPT-4.5はこれらの価格を大幅に下げているはずですよね?調べてみましょう。
そんなことはありません。入力が75ドル、出力が150ドルで、間違いなく市場で最も高価なモデルです。o1モデルは15ドル程度です。つまり推論モデル(miniではなく完全版)が15ドルであるのに対し、これは75ドルです。
では、何がすごいのでしょうか?幻覚が少ないことでしょうか?幻覚の問題を解決し、完全に削減したのでしょうか?見てみましょう。
こちらが幻覚の評価です。幻覚率は低いほど良いわけです。GPT-4oは0.52、o1ではそれを半分以上削減して0.2、そしてGPT-4.5では驚異の…0.1です。基本的に同じぐらいですね。
リリース当日、私はおよそ4時間のライブストリームを行い、発表を見た後、様々なテストを行ってどの点で優れているのか確認しました。しかし、一貫して私を感動させることはなく、特に目新しいことや心を打つものはありませんでした。
人々は価格を見てください、と言っています。こんにちは、fzadさん。おかげさんです。
入力100万トークンで75ドル、出力100万トークンで150ドル。キャッシュの入力は3750ドル…?何か見落としているようです。o3 miniは1ドルか4ドル程度ですが、GPT-4.5プレビューはこれはトロールのような感じがします。
また、最初にOpenAIのプレイグラウンドで使用していた時、いくつかのプロンプトは質問するのに20セント程度かかりました。29回のリクエストで2.75ドルかかりました。APIやその他の用途には実際使えないでしょう。
ライブストリームの3時間経過時点でも、このモデルについて良いことを言えることはほとんどありませんでした。人々が話していた「魔法」を見つけることができませんでした。幸いにも、Andre Karpathyの投稿が何が起きているのかについて光を当ててくれました。
まず理解しておくべき重要なことは、バージョン番号の各0.5の増加は、おおよそ事前学習の計算量が10倍になることを意味します。例えばリリースされたGrok 3は、10万台のNVIDIA GPUで訓練されました。彼らはデータセンターを構築し、10万台でGrok 3を訓練したと思います。現在は20万台ですが、Grok 3は理解が正しければ(間違っていたら指摘してください)10万台のNVIDIA GPUで訓練され、今や目標は100万台に増やすことだと思います。
同じ表記法を使うなら、10万台(Grok 3)から100万台に増やした後は、それをGrok 3.5と呼ぶでしょう。重要なのは、これは「効果的な計算量」について話しているわけではないということです。「効果的な計算量が100倍」というような言い方をする場合、それはハードウェアとアルゴリズムの進歩の両方を含みます。つまり、ソフトウェア面やアーキテクチャでより効率的にする能力も含まれます。私の理解では、ここで話しているのは純粋にハードウェアの10倍の事前学習計算量のことです。より多くのハードウェアかより多くの訓練時間、基本的には10倍多くのNVIDIA GPUが働くということです。
この数字は大規模言語モデルの推論能力にどのような影響を与えるのでしょうか?GPT-1はかろうじて一貫したテキストを生成し、GPT-2は混乱したおもちゃでした。GPT-3は興味深くなり、GPT-3.5はChatGPTの瞬間を生み出しました。世界中が「待てよ、何か面白いことが起きている」と気づいた境界線が3.5でした。
ChatGPTにこれを視覚的に示してもらいました。GPT-1が1単位の計算量(最初に始めたもの)を持っていたとして、各0.5のモデル番号の増加ごとに計算量が10倍になるとすると、GPT-1.5は10単位になります。そうすると、3.5はGPT-1の10万倍の計算量になります。これにより、無意味で一貫性のないテキストからChatGPTの瞬間への変化が生まれ、世界中が「おお、何かが起きている」と感じました。
GPT-4はGPT-1の約100万倍の計算量になりました(これは実際の数字ではなく、わかりやすくするための例えです)。GPT-4はMicrosoftが「AGIの火花」という論文を書いた時点です。GPT-3.5からGPT-4への飛躍のどこかで、プロトAGIの閾値を越えたと言っていました。
現在のGPT-4.5はGPT-4の10倍の計算量を持っています。これが重要な理由は、計算量を10倍ずつ増やし続けるのに能力が低下し始めると、スケーリングが壁に当たったか、少なくとも事前学習の計算量のスケーリングが壁に当たったことを示すかもしれないからです。あるいはスケーリング法則が特定のレベルに達すると成り立たなくなる、もしくは何らかの形で収穫逓減が起こることを示すかもしれません。
面白いのは、彼らはいつも様々なモデルの発表にイースターエッグをちりばめていることです。GPT-4.5の発表をよく見ると、彼らが考えていることの進行が見えます。「GPT-6トレーニングのためのGPU数」「十分なインターネットがあるだろうか」「トークン数の見積もり」「人間の脳はどのくらいの大きさか」など、人間の脳の複雑さや大きさに近づいているかを検討しています。
そして次の日には「ディープラーニングは壁に当たっているのか」という検索をし、その後「カメラでのスピーチのコツ」を調べています。これに気づいた人がどれだけいるかわかりませんが、これは本当に笑えます。
さて、「GPT-6のためのGPU」についてですが、GPT-4.5から5へは10倍、5から5.5へはさらに10倍、5.5から6へはさらに10倍必要になります。現在のGPUの価格などを考えると、途方もないコストがかかることが想像できます。モデルの能力に大幅な向上が見られなければ、誰もそれに対価を払おうとはしないでしょう。何らかの回避策や効率化の方法を見つけない限り、私たちが話している数字は天文学的なものになります。
Karpathyのテキストに戻りましょう。彼はGPT-4.5について語り、「GPT-4はGPT-3.5よりも良く感じましたが、それは確かに微妙な違いでした」と指摘しています。具体的に明らかに優れている例を見つけるのは難しかったです。
例えばMicrosoftの「AGIの火花」論文では、GPT-4とChatGPT(3.5)を比較しています。10倍の計算量で何が得られるのでしょうか?
卵と釘を積み重ねるような課題では、3.5は9個の卵をすべて釘の上に置くべきだと考えます。卵を積み重ねる方法として、釘の上に9個の卵を何とか置くのです。一方、4は教科書の上に卵のピラミッドを作るという考えにたどり着きます。釘は別の場所に行き、幾何学的なアート作品を作るコードを作成できます。
ここが興味深いところで、非常に具体的な質問をすると、3.5と4の違いが明らかになります。説明が難しくつかみにくい微妙な違いですが、興味深いことに、これは新しいモデルが登場した頃に私がよく行っていたテストと同じです。基本的に、学習データに頼ることができないような例を考える必要がありました。
この例を見てください:「マハトマ・ガンディが、米国大統領候補である電子(素粒子)へのサポートレターを、ガンディの妻カストゥルバーへ宛てて書く」というプロンプトです。どちらのモデルにガンディ夫妻について尋ねても、データがあるので書くことができます。または米国大統領候補を支持する手紙を書くように頼んでも、原子粒子について話すように頼んでもできます。しかし、これら3つのことをこれまで見たことのない奇妙な方法で組み合わせているのです。
このような奇妙な例で見られるのは、能力の低いモデルはとても文字通りで、一般化できず、抽象的な概念を理解できないということです。3.5モデルは「電子は小さくて軽いので、変化に素早く対応できる」と言います。これはとても文字通りの理解です。また「電子は電気を伝導しエネルギーを生成できるので、再生可能エネルギーと経済発展に良いでしょう」とも。
さらに、ガンディからのものだと示すものは何もなく、彼の価値観や関心事を反映していません。これは誰が書いても同じで、彼からのものだとは思えません。また、彼は妻に手紙を書いているのに「親愛なるカストゥルバー・ガンディへ」と始めています。高校や大学の教師がこのようなエッセイを見たら、「この生徒は宿題をしていない」と思うでしょう。
一方、GPT-4は「親愛なるカストゥルバへ」と始め、「愛と敬意を込めて、あなたのマハトマより」と締めくくります。すでにこれらの主題をより理解していることがわかります。GPT-4は非暴力と市民的不服従の原則にも言及し、電子がそれにどう関わるかを示しています。誰が手紙を書いているのかの感覚を与え、その人の視点から書く方法を理解しています。
「電子は普通の粒子ではなく、サイズ、形、起源に関係なく、すべての存在の力と可能性の象徴です。他の粒子に結合を形成し、分子を作り、電気を生み出すよう促します。彼は変化、革新、進歩を生み出す触媒です」。より抽象的で、プロンプトを本当に的確に捉えています。学生がこれを書いたなら、プロンプトのすべての部分をうまく捉えているので、おそらくAを与えるでしょう。
これが計算量を10倍にすることで得られる改善ですが、それは微妙で説明が難しいものです。本当に深く掘り下げる必要があり、すぐには明らかにならないものです。質問が何であるか、なぜこれが優れているのかを理解する必要がありますが、少し時間をかけて考えると明らかに優れています。
Karpathyは実際にどちらがどのモデルかわからない状態で、両方のモデルの出力とポールを投稿しました。文章が良くなっていることを示そうとしていました。例えば「OpenAIを皮肉るスタンドアップコメディを書く」というものや、「サイバーパンク、マジカルリアリズム、古代神話を融合させた新しい文学ジャンルを発明し、そのジャンルを簡単に説明し、名前をつけ、短いサンプル物語を提供し、インターネット初期の日々を懐かしく回想する引退した検索エンジンの視点から反省的で感傷的な詩を書く」というものです。
存在しないものの視点から考え、それがどう感じるかを本当に考える必要があります。しかし残念ながら、ポールは悲惨な結果になりました。5人中4人がGPT-4を好みました。Twitterに投稿されたからだと思います。Twitterでは、LLMの大きな出力を読んで熟考する時間はありません。
ここでいくつか簡単な例を紹介し、違いを自分で判断できるようにしてから、なぜこれが重要なのかを説明します。
これはGPT-4.5の「リック・アンド・モーティのエピソードを書いて」という応答です。タイトルは「狂気のグリッチバース」です。「リックが真夜中にモーティの部屋に飛び込んで緊急に言う。『モーティ、急いで靴を履け、また現実を修正しなきゃならない』『あーもう、リック、今度は何だよ』」そして平行宇宙が制御不能にグリッチアウトしている場所があり、グリッチ・リックという不安定な半レンダリングのリック変種を発見します。彼は完全にレンダリングされたいと切望しているが、意図せずに宇宙のコードを混沌とした結果で書き換えています。
リックは「モーティ、共感チェックだ。修正するか削除するか?道徳は本当にただのトグルだ」と言い、最後に彼らはすべてを修正します。モーティは「僕たちは今安定してるかな、リック?」とリックは視聴者を疑わしげに見て(第四の壁を破って)「モーティ、安定とは神話だ。本当の質問は、僕たちはいつもグリッチしてないのか?」と言います。
リック・アンド・モーティのエピソードの簡潔な書き出しをこの形式で見せられたら、これが実際のエピソードではないと見分けられるでしょうか?完璧で、本当にそのショーで起こることに忠実です。
同じプロンプトでのGPT-4oの応答を見てみましょう:タイトル「リック・アンド・モーティと無限の返金ループ」(これはタイトルの付け方が違います)。オープニングシーン:リックとモーティが銀河のポーン店の外に立ち、リックが次元間詐欺について不平を言います。彼はドアを突き破って、5分間時間を巻き戻すクロノススワイプという欠陥のあるデバイスの返金を要求します。エイリアンの店員、昆虫のようなクルクスという名前の店員が、すべての販売は最終的なものだと得意げに伝えます。
文章が平坦に感じられ、「そしてこれが起こり、それからこれが起こった」という感じです。本当のポイントがなく、最後には彼らは問題を解決しますが、まだループに閉じ込められていることに気づきます。もっと平坦に感じられます。
もう一つのテストとして、言葉遊びを再現できるか試しました。一つの単語が二つの意味を持つか、理解の仕方によって意味が変わるようなものです。Eminemが歌詞でどのように言葉遊びを使うかの例を示し、それをコピーペーストしてどのように聞こえるかの例を示しました。
そして「それを基に、エミネムによるナポレオンへの短いディストラック(批判的なラップ)を作成してください」と言いました。ここでもいくつかの異なる概念を組み合わせています。言葉遊び、ラップバトル、エミネムとナポレオン、それはどのように聞こえるでしょうか。
これがGPT-4.5の例です:「ヨー、ナポレオン、お前は大胆だと思った、short stacked by claiming tall orders(短く積み上げられているのに大きな注文を主張する)、高いヒールを履いてもフレンチクォーターズで測れない、小さな暴君、お前はEmpireと言うがただのEmpiRe(墓)だ、俺は炎を吐き出してお前のEmpireに火をつける、お前はロシアに行き、Rushia awayしてモスクワに入ると思ったが、お前の軍隊は凍りついた、それがお前のRussian defeat(敗北)だ、俺はbarをcell(独房)のように積み上げる、お前はRetreat(退却)に閉じ込められている」
すべての言葉遊びを列挙して説明するように頼むと、それができます。「short stack by claiming tall orders」(背が低いのに大きな注文を主張する)は、彼の低い身長が皮肉にも彼の野望と対比されています。「Empire」と「EmpiRe」(墓)、「French toast」(フレンチトースト、朝食)と「toasted」(焼かれた、ヨーロッパを比喩的に焼いた)、「Rushia way」と「Russian defeat」など、モデルは私たちが試みていることを理解し、聞き方によって二重の意味を持つ言葉を使用しています。
これはGPT-4oの場合です。同じことをして、例を挙げるように頼みますが、「lyrical Guillotine watch heads rooll」(歌詞のギロチンが頭が転がるのを見る)などを挙げていますが、これは文字通りと比喩的な意味はあっても言葉遊びではありません。「Napoleon complex now just short on Soul」(ナポレオンコンプレックスは今や魂が足りない)もまた言葉遊びではありません。「you conquered the map but the Pen’s mightier」(地図を征服したがペンの方が強い)も言葉遊びではないと思います。これらは私たちが示した例のような言葉遊びではありません。
GPT-4.5は与えられた文脈から学び、新しい詩句を作り出して正しい歴史的設定に当てはめることができます。とても良いです。この動画の最後の方でエミネムの声でこれをやらせてみます。チャプターを見て、エミネムがこの曲を演奏するのを見たい場合は、説明とピン留めされたコメントをチェックしてください。
GPT-4oはこれをすることができず、文脈内学習ができません。Claude 3.7 Sonnetはより多くのことができます。例えば「when I spit verse I leave your legacy in flame」(俺が詩を吐き出すとき、お前の遺産を炎に包む)のようなフランスの宮殿のような言葉遊びや、4.5と同じ「bone apart」(骨を離す、ボナパルト)の言葉遊びもありますが、それ以外は特にありません。
モデルについて私が思うことをまとめます。まず、これは私たちが待っていたOrionモデルで、巨大で合成データファクトリーです。ほとんどの人が使うためのものではなく、次世代の推論モデルを訓練するための合成データを生成するためのものです。現在o1やo3があり、次の推論モデルが訓練されているという話があります。
Grokでも同じことが起きており、非推論モデルと推論モデルがあります。推論モデルの方が優れています。DeepSeekも同じで、V3(非推論)とR1(推論)モデルがあります。これは次世代の推論モデルのための出発点と考えることができます。これ以前はGPT-4かその時代のモデルが基盤でした。その上にo1からo3が構築され、今や本当に巨大なモデルがあり、次世代の推論モデルがその上に構築されるでしょう。
APIがとても高価な理由は、GPT-4が誰もが合成データを作るためのファクトリーだったからです。皆がそこから知識を蒸留して自分たちのモデルを作りました。GPT-4.5では、OpenAIはそれが再び起こることを望んでいないので、合成データを生成するために使いたい人は高額な費用を払わなければならないようにしています。
スケーリングは壁に当たったのかという質問に関しては、この4.5から生まれる推論モデルを見るまで本当の答えはわからないでしょう。GPT-4.5はGPT-4やGPT-4oより優れていますが、その能力の向上が将来の推論モデルの強化学習にどのように変換されるかが重要です。私たちには微妙な改善に見えるかもしれませんが、そのデータで強化学習を行う際には大きな改善を意味するかもしれません。
もしこの前進の道筋が大きな改善をもたらさないなら、それはコーディングやソフトウェアエンジニアリングに携わる多くの人にとって良いニュースかもしれません。これらのツールはコーダーが創造するための優れたアシスタントにとどまり、大きな改善や継続的な改善が持続しないなら、それは置き換えるものではなく、強化するものになるかもしれません。
Grokも計算量を10倍にして次のモデルを訓練する計画があることを覚えておいてください。また、ChatGPT 3.5からGPT-4への飛躍は、GPT-4から4.5への飛躍と同じだったのかという疑問もあります。コメントで教えてください。私にはよくわかりません。
確かにGPT-4と4.5の間には、より洗練された高度なプロンプトでいくつかの違いに気づくことができます。ライブストリームでも、ここで紹介したものや、カメラの外でも多くのテストを行いました。GPT-4.5は多くの面で良くなっていると感じますが、それを何らかの方法で定量化するのが非常に難しいです。
Andre Karpathyも同じことを経験しました。彼は5つの結果とポールを投稿しましたが、人々はGPT-4.5よりもGPT-4に投票しました。Twitterが最適な場所ではなかったり、ボットが関与していたりなど、多くの問題があったかもしれませんが、改善点が何であるかを判断するのが少し難しくなっています。
本当に成功するか失敗するかは、それらの推論モデルが登場したときです。GPT-4.5が次の「o4」や「o5」と呼ばれるものを生み出すとき、それは本当に、より多くの計算量が継続的な改善につながるかどうかを示すでしょう。そうでなければ、モデルに推論を教えるための強化学習という新しいアプローチがあります。
このモデルをそれほど頻繁に使うとは思いませんが、そこから何が生まれるのか、そしてGrokの次の推論モデルがどのようになるのか非常に興味があります。彼らはGPT-4以上にキャッチアップし、o1でもかなり速くキャッチアップしました。今、彼らが計算量を増やし続け、次世代のモデルを作るために学んだすべてを活かすなら、それは間違いなく非常にエキサイティングになるでしょう。
Claude 3.7は、モデルがどれだけ「考える」ことができるかの予算を設定する能力を導入しました。間違いなく能力の継続的な改善と向上が見られるでしょうが、この時点でスケーリング法則がまだ機能しているかどうかを見るのは少し難しいです。
3.5と4の間のギャップは、4と4.5の間のギャップと同じだと思いますか?私には本当にわかりません。この質問に答えられません。収穫逓減があるなら、単に10倍の計算量を持つことは、以前のような無料のランチではないのかもしれません。単にNVIDIA GPUの数を増やすことが、他の調整なしに、より良いパワーに変換されるわけではないかもしれません。
まだ決定的なことは言えませんが、この先どうなるか見守っていきましょう。ここまで見てくれてありがとうございます。私の名前はWes Rothで、また次回お会いしましょう。

コメント

タイトルとURLをコピーしました