
8,614 文字

OpenAIが問題を抱えている可能性があり、それは同社の最新モデルに関連しています。個人的にはかなり良いモデルだと思いますが、多くの人はそう思っていないようです。現在、GPT-4.5は期待されていたほど印象的なモデルではないという考えが広まっており、一部の人々はOpenAIが失敗に向かっていると言っています。それでは、彼らが本当に問題を抱えているのか、そして彼らの没落が避けられないのかを見ていきましょう。
Futurismが最近公開した記事のヘッドラインには「OpenAIがGPT-4.5で失敗した可能性がある」と書かれており、熱狂が冷めていると主張しています。これはGPT-4.5が革命的なモデルとして紹介されたにもかかわらず、実際にはすべてのカテゴリでそうではないからです。おそらく問題はモデル自体というよりも、マーケティング戦略が功を奏さなかったことにあるでしょう。彼らが行ったことの一つは、GPT-4.5が今日までで最大かつ最も知識豊富なモデルだと主張しながら、同時に期待を抑えるために革命的なモデルではないことを明確にしたことです。これは前述したようにマーケティングの問題を引き起こしました。基本的に両方の立場を取ろうとしたからです。最も先進的なモデルだと言いながら、同時に最高のものではないと警告することはできません。
GPT-4.5についての動画を作りましたが、この記事はいくつかの点で正しいです。OpenAIはおそらく大衆の反応が冷ややかになることを知っていたと述べられています。実際、AIの批評家であるGary Marcusを引用し、彼が言語モデルを「中身のない誇大宣伝」と評し、匿名の専門家がそのモデルを「失敗作」と呼んだと書かれています。記事によると、このモデルは生み出された期待にもかかわらず、ChatGPTやGPT-4を文化的現象と財政的成功にした影響力に欠けています。要するに、この記事はOpenAIがGPT-4.5で間違いを犯した可能性があると示唆しています。
より広い視点から見れば、これはそれほど大きな問題ではないと思います。なぜならOpenAIが何をしようとしているのか理解できるからです。後ほど詳しく話しますが、外部からの視点では状況はあまり良く見えません。彼らは新しいモデルについて大々的に宣伝し、最終的にGPT-4.5をリリースしたとき、大衆の反応はかなり否定的なものでした。
ちなみに、このニュースレターはスペイン語で最大のものになる予定です。本気であることを示すために、このMidJourneyマスターコースやDeepsoの講座、これらすべてのドキュメントや割引を無料でニュースレター登録者全員にプレゼントします。必要なのは、説明欄のリンクからメールアドレスを登録するだけです。安心してください、広告は送りません。新しいニュース、研究、求人、ツールなどに関する週2回のレポートのみを送信します。alerta.comは、時代に取り残されたくない人のためだけのものです。
GPT-4.5のリリース前に言われていたことを確認することも重要です。The Wall Street JournalやBloombergのような媒体の以前の記事がかなりの情報を漏らしていたことを覚えているでしょうか。Orionというコードネームでプロジェクト名GPT-5と呼ばれるものについて語られており、18ヶ月以上開発されており、ChatGPTの背後にある技術における大きな前進を約束していました。OpenAIの最大の投資家であるMicrosoftは、このモデルが2024年半ば頃に登場することを期待していました。これは約8ヶ月前になります。
明らかにOpenAIは少なくとも2回の大規模なモデルトレーニングを実施し、それぞれが膨大な量のデータを処理する数ヶ月を要し、より知的なシステムを作ることを目指していました。しかし、彼らが試みるたびに新しい問題が発生し、モデルは研究者が期待していた結果に達しませんでした。プロジェクトに近い人々によると、Orionは現在のOpenAIモデルよりもパフォーマンスが良かったものの、その巨大な運用コストを正当化するほどではなかったとのことです。これはかなり目を引くことです。なぜなら、記事によるとGPT-4.5は実際にはGPT-5と呼ばれる予定だったからです。
状況を分析すると、OpenAIはより高度なモデルを開発しようとしたものの、期待に応えられなかったため、GPT-5ではなくGPT-4.5として再命名することにしたようです。GPT-4.5にはコードネームOrionが付けられており、それはGPT-5について言及されていたものと同じです。これは単に誇大な期待を生まないように命名規則を調整しただけだということを示唆しています。
現在のGPT-4.5は運用コストがかなり高いままです。実際、Proプランに入っていなければアクセスすることさえできません。これは良いモデルですが、パフォーマンスの微々たる向上に対して月額200ドルという価格を考えると、本当に価値があるのかは明確ではありません。
GPT-4.5がかなりの議論を引き起こしていることがわかります。例えば、ある人は一般的な意見としてGPT-4.5がOpenAIの最初の大失敗だとコメントしています。コミュニティによるテストによると、あまりにも高価で改善点が少なく、創造性においてはGPT-4oよりも劣る場合もあるとのことです。この情報は半分本当で半分誇張だと思います。期待という点では確かにOpenAIの最初の大きな躓きかもしれませんが、GPT-4oより劣っているとは思いません。これについてはもう少し詳しく話します。
一方、AIの有名な批評家であるGary Marcusはこの意見をリツイートし、彼はこのことについて長い間警告していたと述べています。彼によれば、これはOpenAIの支持者、つまり彼の警告を聞き入れなかった人々にとってのみ驚きであり、他の人々にとっては完全に予測可能なことだったとのことです。Marcusは長い間OpenAIの批評家です。同社が本当の競争上の優位性を持たないこと、そして彼が開発に影響を与えていると考える大きな内部問題などを含め、彼が間違いだと考えることについて率直に話してきました。
ここでMarcusはOpenAIが深刻な問題を抱えていると信じる理由について重要な詳細を説明しています。彼は強力なブランドを持っているものの、GPT-4.5は非常に高価であり(この点には同意します)、競合他社に対して決定的な優位性を提供していないと指摘しています。つまり、真の競争上の優位性がないということです。また、スケーリングによってAGI(汎用人工知能)に到達していないことも言及しています。これは事実ですが、私はAGIは後に来ると信じています。さらに、GPT-5プロジェクトが失敗したとされ、DeppseekとOpenAIの間の価格戦争が同社に影響を与えたとの推測もあります。
また、同社が赤字であることや、主要な人材の多くが会社を去ったことも述べています。これは注目に値します。なぜなら、これらの元従業員の多くはOpenAIでの参加のおかげで既に億万長者となっているためです。そのため、一部の人々は単に世界で最も競争の激しいスタートアップの一つに留まるよりも、AIにおけるクリエイティブなプロジェクトに取り組むことを好むのかもしれません。
最近のインタビューでMarcusは再びOpenAIの状況について言及し、見た目ほど良くないことを示唆しました。しかし、Marcusは業界の常連の批評家であることを覚えておくことが重要です。時には的確な観察をしますが、他の場合には彼の発言は客観的な批評というよりも、セクターに対する一般的な懐疑論によって動機づけられているようです。彼の視点を分析する際には、これは重要なニュアンスとして考慮すべきです。
「OpenAIは非常に過大評価されていると思います。彼らのビジネスモデルが最近数日で崩壊したと思います。Deepseekが彼らがお金を請求しようとしていたものを基本的に無料で提供したからです。また、DeepseekはOpenAIよりもオープンで、それが人材にとって魅力的になるでしょう。状況は良く見えません。70億ドルの評価額だと思います…」
だから私はChubiの主張に完全には同意していないと言いました。部分的には同意しますが、すべての側面に同意しているわけではありません。例えば、Andrej Karpathyがコミュニティテストを行い、参加者の80%がGPT-4.5よりもGPT-4の回答を好んだという結果がありました。しかし、これは絶対的な意味で有効なテストだとは思いません。技術的にはテストですが、サンプルサイズが小さすぎます。たった5つの質問しか使用されていません。5つの回答に基づいてモデルを判断することは、5人だけにアンケートを行い、それを最終的な結論とするようなものです。サンプルサイズが大きいほど、評価はより正確になります。これが、より厳密な研究ではモデルが他のモデルより良いか悪いかを宣言する前に、より多くの対称的なテストを使用する理由です。
例えば、このビデオを作成している間に、GPT-4.5が他のモデルを上回り、LLMsのアリーナでトップになったという更新が公開されました。この新しい評価では3,000票が集められ、以前のテストと比較してサンプルサイズがはるかに大きくなりました。ユーザーはモデルとより多くやり取りし、生成された回答について意見を提供することができました。OpenAIが自社モデルがトップを目指していると述べていたことを考えると、ここでの結果はかなり論理的に見えます。
他のカテゴリを分析すると、GPT-4.5はプログラミングや数学、ハードサイエンスなどの分野で1位にランクされており、他のモデルもかなり優れていることを考えると、これはかなり驚くべきことです。モデルの何が突出しているのか正確にはわかりませんが、「雰囲気」という言葉は少し奇妙に聞こえるものの、その背後に実際のものがあるようです。
Andrej Karpathyのような専門家が行ったユーザーテストにもかかわらず、これらの結果はリアルタイムでモデルを評価できる迅速さと効果をすべて捉えることはできません。ここでより直接的なテストを行うことで、モデルがどのようにパフォーマンスを発揮するか、そして結果がどのように比較されるかを正確に見ることができます。
スターコントロールに関しても、GPT-4.5が他のモデルを大幅に上回っていることがわかります。このEloレーティングの上昇はかなり注目に値します。特に競争を考慮すると驚くべきことであり、この特定のカテゴリで印象的なパフォーマンスを示しています。
Gary Marcusによれば、Deepseekの問題もOpenAIのリリースを複雑にした要因の一つでした。一部の業界パートナーがOpenAIを離れているのは、オープンソースモデルにアクセスできるようになったためかもしれません。また、誰かがOpenAIには真の競争上の優位性がないと言及したとすれば、それは別の企業が同じ価格または安価でベースモデルを提供できれば、OpenAIと協力する組織は同様のモデルを提供する他の企業と協力することを決めるかもしれないということです。それらはオープンソースまたは無料である可能性もあり、自分でホスティングできるでしょう。
これは最近、ヒューマノイドロボットで知られるFigure社のインタビューで確認されました。彼らは現在使用しているものがすべてオープンソースであるとコメントし、OpenAIとの契約を終了したことも言及しました。その理由は、彼らが大きな進歩を遂げ、ヒューマノイドロボットへのAI統合において最高であると信じているからです。
「それがどのように見えるのか全く見当がつきません。そこにはロボットデータがありません。だから基本的に、今日は私たちはオープンソースモデルを使用していますが、内部的に独自のモデルとロボット上で内部的に収集した独自のデータを使用しています。基本的には基盤モデルを自分たちで構築しています。そして約1年間、ほぼ独占的にこれを行ってきました。私たちはロボット工学でこれを行うことにおいて世界最高だと思っています。他に誰かがこれを示したとは思いません…」
他のトピックについても話すと、Deep Researchでの幻覚についても言及する必要があります。このビデオはOpenAIへの攻撃ではなく、特定の側面に対する批判であり、OpenAIが本当に問題を抱えているのかという疑問です。
基本的に、Deep Researchは多くの人が本当に良いと言っているOpenAIの主力ツールです。しかし、現在それには使い物にならないとは言いたくないが、特定の側面では、これがこのようであれば使う意味は何かと疑問に思うような欠点があります。
ある人は、これは長い間最先端モデルで見た中で最悪の幻覚だとコメントしており、すべての言語モデルに適用されることだと思います。そのため、これはOpenAIだけの問題ではなく、すべての研究ツールで起きていることです。
指摘された問題は、Deep Researchが評判の高いソースの著者から情報を収集した何千もの記事からデータセットをコンパイルしたと主張しながら、一連の統計や分析を捏造したということです。しかし、実際に調査してみると、これらは真実ではないことが判明しました。
これは当然大きな問題です。なぜなら研究ツールが幻覚を生成するなら、結果の信頼性について疑問が生じるからです。Redditの誰かがこれを投稿しました。恐らくこれは最も適切な表現方法だと思います。研究ツールが幻覚を生成するならば、それは信じられないほど危険であり、Deep Researchの目的をほぼ無意味にします。なぜなら、あなた自身が各ソースを確認して精度を確認する必要があるからです。
これは真実だと思います。あなたのために作業をしてくれる研究ツールを持つ意味は何でしょうか。しかし後でそれらのソースが正当なものであることを確認しに行かなければならないのです。単に自分で研究を行うこともできるでしょう。もちろん、時間の節約になるかもしれませんが、目標は「よし、この研究レポートを手に入れたので、主要な詳細だけを確認する必要がある」と言えるように、すべてがしっかりと裏付けられ検証されていることであるべきです。
前述したように、これはすべての深い研究ツールの問題です。ソースが実際に提供され、リンクをクリックしてそれらのソースを確認できるような更新を見たいと思います。緑のチェックマークのような検証マークがあれば便利でしょう。検証されたソースに対してはチェックマークがあり、何かが分からない場合には「このソースに確信がない」という表示があるといいでしょう。なぜなら、これはツールをやや役に立たないものにしてしまうからです。
実際、使用することに少し不安を感じます。AIツールを使って研究をし、その研究がいくつかの幻覚を返すならば、もちろんそれは大きな問題です。
しばらく前、これらのモデルが経済の大部分を自動化し始める可能性があると言われていたことを思い出します。2025年や2026年までに最高のモデルをトレーニングする企業は非常に進んでいるので、次のサイクルで追いつくことは誰にとっても不可能だと考えられていました。
これはすべて単なる誇大宣伝だったのでしょうか?なぜなら、今や最大のモデルをトレーニングする人々でさえ競争の先をそれほど行っておらず、事態が急速に変化しているように見えるからです。Ilya Sutskeverはコンピュータが成長し続けている一方でデータは同じペースで成長していないため、私たちが知っているような事前トレーニングは終わりを迎えるだろうと述べました。そのため、この分野では新しいイノベーションが生まれるでしょう。個人的にはこれについてかなり楽観的です。
より大きなモデルがより良い推論を生み出していないという事実は、真の人工知能作業が始まったことを意味すると思います。なぜなら、簡単な解決策はすでに尽きているからです。以前は解決策は簡単でした。単に大きくするだけで、より知的になりました。しかし今、彼らは革新的な方法を考える必要があります。これは将来的にはおそらく本当に知的なシステムを見ることになるということです。なぜなら、人々はもはやトンネルの一つの方向だけを見ているのではなく、複数の解決策を探索しているからです。
OpenAIにとって良くない動きだと本当に思ったもう一つのことは、OpenAIを批判するためではなく、OpenAIが問題を抱えているのかという疑問のためですが、イライラさせたとは言いたくないものの、確かに考えさせられたことです。非常に驚きました。なぜなら、これをまったく予期していなかったからです。
ここで起きたのは、Frontier Mathのベンチマークについてです。基本的に多くの時間と労力を費やしたAIベンチマークがありました。これは数学のベンチマークで、AIがこれらの問題を解決できるなら、そのAIは信じられないほど知的だと言われていました。
基本的に、OpenAIはEPOC AIに300の高度な数学問題を作成するよう依頼し、これらがFrontier MathベンチマークのコアとなるAI評価を形成することになりました。唯一の問題は、OpenAIが秘密裏にこのベンチマークに資金を提供し、o3モデルと関連付けたことです。OpenAIはこのベンチマークの作成に資金を提供し、テストセットの問題と解答の両方にアクセスしました。ベンチマークの作成者はo3モデルがリリースされるまでこれを明らかにしませんでした。
これによりFrontier Mathについて大きな論争が生じ、このベンチマークの信頼性にやや傷がつきました。なぜなら、o3モデルの主要な側面の一つは特定のベンチマークで2%から25%への驚くべき飛躍であり、これは誰もを驚かせたからです。そのベンチマークが無効になれば、人々は他のベンチマークスコアの完全性にも疑問を抱き始めるでしょう。私も同じようにしています。
問題は、OpenAIがそのモデルがより良く見えるようにベンチマークを歪める、あるいは少なくとも操作するインセンティブはあるのかということです。これらの企業は投資を引き付けようとしており、これを行うことで確かにその可能性を高めることができるでしょう。
Gary Marcusもこれについてコメントし、o3モデルに関するOpenAIの印象的な結果は多くの留保を持って受け止めるべきだと述べています。彼らは問題とその解答にアクセスしており、何をトレーニングしたのか、どのような検証技術やデータ拡張を組み込んだ可能性があるのかはわかりません。
問題は、現在でもまだ待っていることです。EPOC AIはその取っておきのテストセットを使用してモデルを独立して評価することができていません。このテストセットはまだモデルに見せていない一連の質問で構成されています。
私としては、OpenAIのモデルが事前にアクセスしていないにもかかわらず、正しく推論できるような異なるベンチマークを見たいと思います。しかし、OpenAIについて完全に悲観的ではないことを言わなければなりません。同社はまだ素晴らしいことをしており、特に今では超知的AIに焦点を当てているため、うまくいくと思います。
これは別の動画で説明しますが、問題はOpenAIはこのモデルのリリースで失敗したのでしょうか?GPT-5は期待に応えられなかったのでしょうか?皆さんの意見や理論を聞かせていただきたいです。
私の正直な意見は、はい、GPT-4.5またはGPT-5は失敗だった可能性があります。しかし、このモデルは実際には、革命的なものというよりも、PBSタイプのモデル、つまり移行モデルやテストモデルのようなものだと言えるでしょう。第二に、それは推論モデルではありません。第三に、私たちが離れ始めている新しいパラダイムは、まだ多くの未探索の領域がある推論時計算やテスト時計算のパラダイムに道を譲っています。
したがって、OpenAIにはまだ多くの進むべき道があると言えるでしょう。なぜなら、彼らはその分野のパイオニアであり、彼らのつながりや提携のおかげで引き続きリードし続けると思います。しかし、もちろん現在は競争があります。中国のような他の国々があり、競争の面では対処が非常に難しくなっています。そのため、これらの他の企業がどうなるかを見るのは興味深いでしょう。
言うまでもなく、忘れずにいいねを押して購読してください。次の動画でお会いしましょう。
コメント