GPT-5（オリオン？）の予測と期待 – OpenAIファンボーイと懐疑派、どっちが正しいんや？

5,792 文字

GPT-5 (Orion?) Predictions and Expectations -- Who's right, OpenAI fanboys or skeptics?

A lot of what to expect from GPT-5 (probably named Orion) is written in the data and how the recent models perform...Con...

おはようございます。今日の動画はGPT-5の予測と期待についてやねん。わてはデイビッド・フードいうて、42ロボットAIのCEOやで。うちの会社では、組織がAIを導入するのを手伝うてんねん。
ここにオリオンの写真があるんやけど、これはGPT-5がオリオンって名前になるんちゃうかって人が多いからやねん。多分、数字とかも付くんやろけどな。最近のサムのツイートを解読しとる人らがおってな、「冬の空でオリオン見てるんが気持ちええわ〜」とかなんとかいうてるらしいねん。
正直言うて、そんなんに時間使うのはもったいないと思うわ。モデル自体とか、特にOpenAIみたいなモデル会社に注目しすぎやと思うねん。もっと、Palerみたいな会社を褒めたってほしいわ。あの会社は今すぐに組織や企業に価値を与える、現実世界のシナリオや解決策に取り組んどるからな。でも、そういう話はあんまり聞かへんのや。
これについては、ストロベリーの動画とGPTXケースの誤謬についてのリンクを載せとるから、見てみてな。これらは、わての GPT-5 への期待にも関係してくるで。
コメント欄でLLMの進歩が鈍化しとるっていう意見に反発があったから、もうちょっと詳しく説明させてもらうわ。これがGPT-5の予測の背景になるからな。
まず、わてが言うてへんことを明確にしとこか。技術全体が鈍化しとるとは言うてへんで。AIそのものが鈍化しとるとも言うてへん。LLM関連の技術が鈍化しとるとも言うてへん。LLM自体やのうて、その周りの技術はまだまだ進歩すると思うで。これまでの焦点がLLM自体にあったからな。
新しいブレークスルーが不可能やとも言うてへんで。もちろん、新しいブレークスルーはあり得るやん。トランスフォーマーがAI技術の終着点やとも思てへん。将来的には、トランスフォーマー以外の大規模言語モデルやAIモデル技術が出てくるんとちゃうかな。
正直、AGIにはそれが必要やと思うわ。理由はいっぱいあるで。大規模言語モデルには限界があるからな。確かに、めっちゃすごい評価テストにはパスしとるけど、それだけやったらAGIのことや、物事の本当の意味、モデルの実際の価値についてはあんまり教えてくれへんのや。
データにはある程度の有用性はあるけど、完全なデータセットやないねん。つまり、意味がないわけやないけど、全てを意味するわけでもないってことや。評価テストで100%取ったからって、それがAGIやってことにはならへんのや。
実際、わては、トランスフォーマー技術を使ったLLMだけではAIにはなれへんと思うわ。GPT-4が出てから、評価テストの結果はほんの少しずつしか改善してへんのや。新しいモデルが出るたびに「おお、前のモデルより1%良くなったで！」みたいな感じやけど、それってそんなに大したことか？違うと思うわ。
基本的に、GPT-4があって、マルチモーダルってのがあって（これはLLM自体の改良かもしれへんし、別のものをくっつけただけかもしれへん）、それからClaude 3.5が出てきて、これはGPT-4より良いんやけど、桁違いに良いわけやないねん。多くの使用例では、ほぼ同じ結果を出すんや。
O1を評価テストで比較して、前のLLMと比べるのは、りんごとイチゴを比べるようなもんや。O1はモデルだけやのうて、思考の連鎖や他の技術を使って、モデルを循環させたり、いろんなことをさせたりするプロセスや簡単なアルゴリズムも含んどるからな。
だから、評価テストでO1をただのモデルとして扱うのはちょっと詐欺みたいなもんやで。使われとるのはモデルだけやのうてからな。
GPT-4の使用例を見てみると、2023年4月にGPT-4でできたことの多くは、O1やClaude 3.5でも特に改善されてへんのや。今日でも、2023年4月のGPT-4と同じくらいのことしかできへんのやで。
計算量のグラフを見てみると、指数関数的に増加する資源（計算量）を投入して、線形的な改善しか得られへんのがわかるわ。出力の改善は線形的なもんやねん。
データ不足に陥る可能性もあるし、それが硬い限界になるかもしれへん。確かに、人類はデータを生成し続けとるけど、望む改善を得るのに必要な速度でデータが生成されとるかは不明やねん。
OpenAIの独自のベンチマークを見ると、さらにひどいで。指数関数的に計算量を増やしても、得られる結果は線形どころか、非線形的に減少しとるんや。GPT-4の時点で、改善の度合いはどんどん小さくなっとるわけや。
これを extrapolate すると、GPT-5 はほとんど同じくらいになるんとちゃうかな。このグラフだけ見ても、そんなに低くならへんと賭けてもええくらいや。
だから、「LLMはまだ急速に発展しとる」って言うなら、そのデータを見せてほしいわ。うちの会社で実際に実世界のソリューションを構築しようとしたテストでも、これは裏付けられとるんや。
LLM自体はそんなに改善されてへんのや。Claude 3.5はGPT-4より良いけど、大差はないし、全ての場合で良いわけやないねん。GPT-5も良くなると思うけど、全ての場合でってわけやないと思うわ。
ちょっと振り返ってみようか。GPT-1からGPT-2、GPT-2からGPT-3、GPT-3からGPT-4への変化を見てみると、これらは全て大きな変化やったんや。GPT-1はほとんどゴミみたいなもんで、ほとんど使い物にならんかった。GPT-2になって、「おっ、これは何かになりそうや」って感じはあったけど、まだあんまり役に立たへんかった。
GPT-3から3.5への改善もかなりのもんやった。3から4への変化も大きかったけど、これらの中で一番小さな差になりそうなんが、GPT-4からGPT-5への変化やと思うわ。
多くの使用例で、GPT-4とGPT-5は同じくらいの性能を発揮すると思うわ。エッジケースや限界的なケースでの改善が増えてくると思うねん。
GPT-5がモデル以上のものになると予測しとるで。AIonについて話すなら、ストロベリーみたいに、モデルだけやなくて、プロセスも含むんとちゃうかな。
Llama 4も今年の後半に出るらしいで。ザッカーバーグがそう言うとったわ。Llama 4はGPT-5と競合すると思うわ。GPT-5より優れとるかもしれへんけど、競合はするやろ。
評価テストの話に戻ると、GPT-5は間違いなく評価テストでは良い成績を取るやろ。モデル会社は皆、評価テストの結果を最適化しとるからな。評価テストで良い成績を取れば、資金も注目も集まるからな。たとえ少しの改善でも、みんな興奮するんや。
でも、もっと実用的な見方をすると、これらのモデルが特定の使用例に十分な性能を持っとるかどうかが重要やねん。2024年9月の時点で、多くのモデルは多くの使用例に対して十分な性能を持っとるんや。でも、みんなモデル自体に注目しすぎて、それらをツールとして使う方法に焦点を当てられへんのや。
みんなめっちゃ興奮して、もっと実用的な視点を持つ人らを批判するかもしれへん。「すごいやん！AGIやで！」とかな。でも、わてから見たら、実用性は期待はずれになると思うわ。確かに、より有用にはなるやろうけど、主に以前のモデルでは解決できへんかったエッジケースに関してやと思うわ。
GPT-3からGPT-4への変化よりも大きな変化があるとは思えへんわ。もっと小さな変化になるはずや。指数関数的にリソースを追加して、線形的で劣化する結果しか得られへんというデータは、そんなに良くならへんことを示唆しとるんや。
でも、彼らはそれをモデル以上のものとして使うことで隠そうとするやろうな。これはちょっとずるいけど、りんごとイチゴを比べるようなもんや。
AGIになるかって？わからへんわ。みんな、AGIについてはもうちょっと落ち着くべきやと思うわ。確かに興奮するし、面白い話題やけどな。「ロボットの友達ができた！」みたいな感じで。でも実際のところ、AGIの実現にはまだまだやることがあるんや。
LLMだけではAGIにはならへんし、LLMにちょっとしたループやAIエンジニアリングを加えただけでもAGIにはならへん。まだまだやることがあるし、おそらくブレークスルーが必要やと思うわ。
トランスフォーマー技術やないか、トランスフォーマーの新しい組み合わせで、今のとは違う新しいバージョンの技術が必要になるかもしれへん。
今日のLLMは全て、ループに入れると必ず暴走して、現実離れしたことを言い出すんや。データセットにないことは扱えへんし、人間なら「もちろんこうするよね」って思うような単純なことでも、データセットにないと上手く扱えへんのや。GPT-5でもこれは同じやと思うわ。
GPT-5はエージェントの構築には役立つと思うわ。O1もエージェント構築には役立つしな。でも、ここで言いたいのは、知識があれば今でも優れたエージェントを構築できるってことや。
今年、有名なエージェント構築者が言うてたけど、LLMをループに入れるだけやったら、エージェントの構築は難しくなるで。LLMに頼りすぎとるからや。でも、ソフトウェアを構築するのと同じようにエージェントを構築するなら、ほとんどの使用例でGPT-5は必要ないと思うわ。
実際、ソフトウェアやエージェントの中では、問題を解決できる最小で最も安価で最も高速なモデルを使うのが望ましいんや。だから、多くの場合、GPT-3.5を使うか、場合によってはファインチューニングしたり、特定のシナリオ用のミニモデルを使ったりするんや。そういう場合、GPT-5は全く役に立たへんのや。
トランスフォーマーにはまだまだ深刻な制限があって、それがAGIの実現を難しくしとると思うわ。
コンピューター科学者らが「AGIを構築するにはシステム1思考とシステム2思考が必要や」って言うとるのは変やと思うわ。それだけで魔法のようにAGIができるわけやないねん。わての意見では、ストロベリーはAGIやないで。
ストロベリーの動画で、AGIの定義について詳しく説明しとるけど、ストロベリー自身のAGIの定義にもいくつかのピースが欠けとるんや。たとえシステム1とシステム2の思考が完璧にできたとしても（システム2思考が完璧にできるかどうかは議論の余地があるけどな）、それだけでは足りへんと思うわ。
新しい要素を生み出す能力が必要やと思うねん。世の中に新しいものは何もないとか、誰も新しいものを作り出さへんっていう考え方があるけど、わてはそれは違うと思うわ。そうやなかったら、どうやって何かが生まれるんや？
例えば、コンピューターはどうやってできたんや？誰かが最初に考え出さなあかんかったやろ。100万年前にはコンピューターなんてなかったんやからな。
でも、ここで一番大事なことがあるんや。これはいろんな組織で共通して見られることやけど、複雑なシステムにはめっちゃ多くの「つなぎの組織」が必要なんや。これがどれだけ重要かって、大抵の人は過小評価しとるんやで。
AGIを作るには、まだまだたくさんの「つなぎの組織」を作って、それを適切に機能させる必要があるんや。トランスフォーマーやLLMを使ってAGIを構築することは可能かもしれへん。他のことを全部きちんとできてて、新しい要素がなくても、AGIの定義や期待することをちょっと広げれば、ってことやけど。
でも、LLMじゃない部分で、まだまだたくさんの「つなぎの組織」を作らなあかんのや。実際、本当に優れたエージェントを作るってのが重要やと思うわ。でも、ほとんどの人はそれを作ってへんのやで。
LLMの間にも、まだまだやらなあかんことがたくさんあるんや。
GPT-5はいろんなことを速くするやろうか？エッジケースの開発は間違いなく速くなるやろうな。エッジケースの処理は良くなると思うわ。
AI技術全体を速めるかって？たぶんそうやろうけど、逆に遅くしてる面もあるかもしれへん。GPT-5が全てのお金と時間とエネルギーと資源を吸い取ってしまって、新しいブレークスルー技術を生み出す妨げになってる可能性もあるからな。
LLMをツールとして使うことを速めるか？ちょっとはそうかもしれへんけど、そんなに大きくはないと思うわ。
AIエンジニアリングを速めるか？それはどうやろうな。人々がLLMをツールとして使うことの重要性に気づくかどうかによると思うわ。実際、時間が経つにつれて、LLM自体よりもそっちの方が重要になっていくと思うわ。
サティア・ナデラも最近のツイートでそんなことを言うてたな。モデルの操縦の仕方が、モデル自体よりも重要になるって。特にモデルが一般化されていくにつれてな。この話については、別の動画を作ろうと思とるわ。
ストロベリーやオリオン、QARは論理的なプロセスを速めるやろうか？たぶんそうやろうな。でも、また少しずつの改善に留まると思うわ。彼らは既に高まる期待と戦っとるからな。
エージェントの構築を速めるか？ちょっとはな。でも、また言うけど、エージェントに必要なことのほとんどは今でもできるんや。ただ、みんなLLMに頼りすぎた解決策を求めすぎとると思うわ。
実世界のソリューションを速めるか？ここでもまた、GPT-3からGPT-4への変化ほどのゲームチェンジャーにはならへんと思うわ。でも、確かに以前は苦戦してた新しい使用例がいくつか出てくるやろうな。
適切なソリューションアーキテクチャを速めるか？たぶんそうはならへんと思うわ。GPT-5が優れれば優れるほど、人々はそれに頼りすぎて、実際のソリューションを構築できる本物のソフトウェアを作ることから遠ざかってしまうからな。
まあ、かなり批判的な意見を言うてしもたな。ここまで聞いてくれてありがとう。よかったら動画にいいねを押してコメントも残してな。時間をとってくれてありがとうわ。
もし、わての意見に同意でけへんところがあったら、遠慮なく議論しようや。組織向けの無料カスタムAI導入ロードマップが必要なら、電話してくれるか、下のリンクをクリックしてな。本当にありがとう。良い一日を！バイバイ。