OpenAIの反撃（GPT-4.5がすごい）

12,819 文字

ChatGPT 4.5 is here and it's 25x more expensive than Claude. So it must be better right? Well...Thank you Augment Code f...

GPT-4.5が登場しました。そして、それは奇妙です。確かに創造性の天才であり、雰囲気のチェックも簡単に合格しますが、コーディングに関しては驚くほど弱いのです。そして価格は、ほとんど不条理なほど高額です。Claudeより25倍も高価で、Gemini 2.0と比べると驚異の750倍もの価格です。一体何が起きているのでしょうか？詳しく見ていきましょう。
少し告白しなければならないことがあります。このイントロはGPT-4.5によって書かれたものです。かなり努力して、非常に良いものが出来上がりました。他のほとんどのモデルよりも文章を書くのが上手です。ただし、特にその価格など、多くの注意点があります。そう、話すべきことがたくさんありますが、このモデルに何かをさせるのを正当化するためには、まず請求書を支払わなければなりません。だから、今日のスポンサーから簡単に話を聞いて、それから本題に入りましょう。
今日のスポンサーはAugment Codeです。一見すると、ただのAIコードエディタに見えるかもしれませんが、これは非常に非常に異なるものであることをお約束します。neovimを含むすべてのエディタで動作する拡張機能であるだけでなく、仕事で使用しているような大規模なコードベース向けに構築されています。ファイルが多すぎてパフォーマンスが低下することはなく、何千行ものコードをスキャンして、そのコードベースに関する回答を文字通り200ミリ秒で取得できます。それは少し狂気じみています。そんなことが可能だとは信じられなかったので、本当に難しいコードベースを投げてみました。Reactのコードベース全体を投げてみたのです。少しスキャンしてからスキャンが完了すると、質問をして実際の回答を得ることができる状態になりました。
最初に小さな要約が表示されますが、次に「SSRを可能にするコードはどこにありますか？」と尋ねると、コードベース内にSSRが存在する3つの異なる場所を教えてくれます。クリックすると、関連するセクションが正確にハイライトされます。非常に便利です。しかし、これらの質問をもっと深堀りすることもできます。たとえば、コンテキストをクリアしてみましょう。ちなみに、私のお気に入りの機能は、どのファイルが必要かを指定する必要がないことです。他のほとんどのツールとは異なり、コードベース全体を知ることでそれをすべて把握できます。
「Reactのフックはどのように機能しますか？」と尋ねると、すでに回答が始まっています。これは編集されたものではなく、実際にそれほど速いのです。これがReact Fiber Hooksのコードで、フックが更新を行うことを可能にする実際のコードです。フックはリンクリスト構造に格納されています。フックの動作の重要な側面として、順序が重要であり、状態管理やルールの適用などがあります。ここにはルールの適用方法も示されています。これは本当に役立つコンテキストです。これがどれほど役立つかにまだ驚いています。すでにいくつかのサイドプロジェクトに役立っており、特に他のオープンソース検索エンジンがURLの解析方法に関する奇妙な癖を理解するのに役立ちました。ちなみに、オープンソースSSTsには完全に無料です。今日無料でsoy.l/augmentcodeでチェックしてみてください。
Claudeより25倍も高価なモデルであれば、このモデルが本当に優れていると仮定するでしょう。妥当な仮定ですが、コードに関する私が投稿しているデモからわかるように、開発関連の作業では特に優れているわけではありません。実際のホワイトペーパーとリリースノートを読むと、GPT-4よりは優れていますが、O3 miniにも遠く及ばないことがわかります。これは少し不条理です。なぜならO3 miniはかなり安価なのに、GPT-4.5は入力トークンあたり75倍も高価で、O3 miniがほぼすべての測定可能な面で優れているからです。
一体何が起きているのでしょう？なぜこれほど高額な料金を請求しているのでしょう？これは大金を稼ぐための狂気のマークアップ詐欺なのでしょうか？私はそうは思いません。GPT-4.5は非常に興味深いモデルです。OpenAIはすでに、これが彼らが計画している最後の非推論モデルであると述べており、それはリリースされたものに多くの特徴が表れていると思います。推論は物事について推論し、難しい問題を解決するのに非常に優れています。コードや数学の課題などを解決しようとする場合、推論モデルは非推論モデルを大幅に上回る傾向があります。なぜそうなのかを完全に理解しているわけではありません。ClaudeのAnthropicチームでさえ、彼らのリリースで、なぜ推論が3.7をより良くするのかを理解するためにもっとフィードバックを求めていると言っていました。
興味深いことに、人々はモデルを「これはより良く、これはより悪い」というように考える傾向がありますが、「これは数学が得意で、これは文章が得意」というようにカテゴリーで考えることもあります。それは確かにGPT-4.5が非常に多くのデータで訓練され、多くのパラメータを持っているため、散文や文章、歴史などに優れているというのはある程度当てはまりますが、それほど単純ではありません。これらのモデルには全く異なる振る舞いがあり、GPT-4.5を優れたものにしているのは、それが巨大であるということです。それがどれほど巨大なのかについての詳細はあまりありませんが、彼らが説明する言葉から推測できます。
レポートカードでは、「最大かつ最も知識豊富なモデル」と表現されています。「最高のモデル」でも「最も賢いモデル」でもなく、「最も知識豊富な」モデルです。彼らはそこに最大限の知識を詰め込んだのです。その結果、コードに非常に優れているわけではなく、全体的に強力な能力を持ち、驚くほど高速な新しい基本モデルになっています。超高速というわけではなく、彼らが実行しているGPUは間違いなく驚異的なものです。彼らは、まだPlus（月額20ドル）ユーザーにはリリースできないと述べており、現在はProユーザーのみが利用できます。これは単にGPUが足りないためで、来週までにはより多くの人々に展開できることを望んでいます。
それまでにGPT-4.5を使用したい場合は、楽しい解決策があります。T3 Chatですでにサポートしていますが、注意点があります。現在の価格モデルでは費用がかかりすぎるため、自分のAPIキーを持ち込む必要があります。私たちはすでにClaudeで損失を出していますが、GPT-4.5はすぐに私たちを破産させるでしょう。そのため、今のところは「自分のキーを持ち込む」モデルとなっています。将来、十分な需要があれば、より高い価格プランや重いクレジット使用量で提供するかもしれませんが、今のところGPT-4.5は自分のキーのみです。将来、他のモデルでも「自分のキーを持ち込む」機能を追加してほしい場合は、ぜひお知らせください。
いずれにせよ、OpenAIは初期のテストでGPT-4.5がより自然に感じられると主張しており、私はおおむね同意します。以前使用した他のモデルと比較して、雰囲気のチェックは明らかに良好です。全体的には、Claudeから得る雰囲気の方が他のモデルより良いと思いますが、このモデルは文章が上手く、良い文章を書くのは多くのモデルにとって珍しいスキルです。
私は早期アクセスを得ることができたので、これは私が作業中に使用する開発用T3 Chatのビルドです。OpenAIのチームから、このモデルは特にコードには優れておらず、それには推奨しないと伝えられたので、ボールテストが失敗した後、他のことを試してみることにしました。このプロンプトは、アラン・チューリングの人生についての感情的な概要を求めるものでした。多くの人がTwitterで「タペストリー」は非常にLLMらしい言葉だと指摘しましたが、私は必ずしも同意しませんが、ここでの散文は全体的に悪くありません。多くのLLMよりも優れていて、Gemini 2のような簡単な参照点を見ると、Geminiもかなり好きで、特にコード関連では驚くほど優れていますが、これはちょっと違います。
「アラン・チューリングの物語は、輝かしい希望と最終的には心を打ち砕く悲劇のローラーコースターなので、シートベルトを締めてください」これは感情的な概要ではなく、GPT-4.5が書いたものと比べると奇妙なハイプトラックのようなものです。それは別世界のものです。
まだ試していないのは、他のモデルでこのビデオのイントロを再生成することです。皆さんと一緒に試してみましょう。ご覧のとおり、良いイントロを作るのは簡単ではありませんでした。最初のものはとても気恥ずかしいものでした。ほとんどの人にはそれほど大きな違いに見えないかもしれませんが、これは本当に気恥ずかしいです。だから、他のモデルでも試してみましょう。標準的なClaude 3.7を使用します。
Claudeが常にフルサイズのタイトルを生成するのはまだ嫌いです。それを行う数少ないモデルの一つです。そして、それをテキストブロックに出力します。なぜ？単にブロック引用に入れればいいのに…テキストブロックではなくブロック引用にテキストを入れてもらえますか？それの方がずっと良いです。煩わしいですが…「皆さん、チャンネルへようこそ。今日はOpenAIの最新パワーハウスを深掘りします」なぜ3.7と4.5の両方が全く同じ最初の文を生成したのでしょうか？そしてそれはとても悪い最初の文です。
幸いなことに、どこに行き着くかを確認するために同じフォローアップを尋ねることができます。音楽については何も言及していないので、その部分を削除できます。このモデルと同様に、「皆さん、チャンネルへようこそ」と言っています。だから、今日のビデオではこれをやめるよう頼んで、少し変更します。「OpenAI GPT-4.5は最新のAIモデルリリースを表しています。GPT-4.5はクリエイティブな文章に優れており、印象的なストーリーテリング、マーケティングコピー、そして本物の声とスタイルを持ったコンテンツを提供します」まだあまり良くありません。最後の部分では、雰囲気のヒントを…「最新のモデル」「クリエイティブな文章」「印象的なストーリーテリング」「マーケティングコピー」などなど…コーディング能力については全く雰囲気を変えませんでした。これをして、何を望んでいるかをより良く理解させようとしましたが、うまくいきませんでした。
だから、3.7でさえもここでの雰囲気チェックではかなり弱いです。これはより良かったですが、まだ良くはありません。しかし、私だけがここでのギャップがどれほど大きいかを理解するのに苦労しているわけではありません。エンジニアはそのギャップを見つけるのに最も適しているとは思いません。
キャリーは、創造的な文章のプロンプトを使用してGPT-4と4.5をABテストし、Twitterに投票させてどちらがより優れているかを判断させるという興味深い投稿を出しました。最初のものは面白いです。「GPT-4.5とGPT-4の間での対話を作成してください。GPT-4.5が遊び心を持って皮肉を込めて、GPT-4の劣った能力をからかい、それに対してGPT-4がユーモラスに自己防衛を試みます」
「昨日のアルゴリズムで動作している生活はどうですか？まだダイヤルアップのようにレスポンスをバッファリングしていますか？」「とても面白いですね、4.5。少なくとも私のトレーニングは小国のGDPを費やして、わずかにお父さんジョークを上手く言えるようになっただけではありませんよ。誰も実際に気づかないiPhoneのアップデートのようなAIになるのはどんな感じですか？」実際、私の電話には使わないボタンがたくさんあるので、それを感じます。実際に面白いです。
対して、こちらは「GPT-4、私の親愛なる前任者よ、量子力学をしようとする電卓のようにまだ頑張っているのはかわいいね」「おお、ここで自称アップグレードが自慢しようとしている。実際に何をそんなに上手くやっているのか教えてくれますか？」「そうですね、より速く処理したり、ニュアンスをより理解したり、より正確な応答を提供したり…また、実際に機能する知性のように文脈を覚えることもできます。金魚のようにボウルを5周目に回っているのではなく」「ほとんどの場合というのは、パイロットが『私はほとんどの場合、安全に着陸します』と言うようなものです。それはあまり安心できませんね、友達」
これらは両方とも悪くなく、投票の結果を見ると、差はそれほど大きくありません。Aの冒頭は良く、全体的に良いジョークがありますが、Bにはクリンジーな冒頭があります。古いモデルからのものだと推測していましたが、自分で試してみるとクリンジーな冒頭はモデル固有のものではないようです。入力トークン百万あたり75ドルを支払っていても同じです。
「皆さん、今夜のOpenAIのローストへようこそ。試験に合格し、詩を書き、ソフトウェアをコーディングするほど賢いAIを作った会社ですが、彼らは明らかに、実際には多くの人がWordleでカンニングするためにそれを使用していることに気づくほど賢くないようです」まあまあですが、悪くありません。おそらく私たちは皆、Aの方が良いと同意するでしょう。投票の差がこれほど大きいことにまだ驚いています。
3つ目は興味深いものでした。私はこれに偏見を持っています。他のものについては100%確信を持てませんが、これについては確信を持っています。どのモデルがどれであるかは、これらのモデルがマークダウン用に出力するフォーマットについてあまりにも詳しく知っているからです。テキストのフォーマットは実際にLLMラッパーを構築する上で難しい課題であり、私は人間が知るべき以上にそれについて知っています。
これは物語を書くための興味深いものでした。私はこれが特に興味深いと思いました。新しいモデルの価格設定をより理解しようとしていたからです。ここに戻ると、百万トークンあたり150ドルの出力は厳しいです。以前、小説にはどれくらいのトークンがあるかを計算しました。それは約5万から12万トークンになります。つまり、百万出力トークンで、本が12万トークンとして、1,000,000で割って150をかけると、このモデルを使用して完全な本を書くのに約18ドルかかることになります。考えてみると結構面白いですが、同時に、O1なら3分の1の費用、3.5なら10分の1の費用、Gemini 2.0なら100分の1以下の費用で済んだでしょう。
では質問です：あなたは他のモデルを使って本を書くことを考えたでしょうか？しかし、また、4.5を使って本を書くことを考えるでしょうか？考えてみると少し狂気じみています。私たちは本当にそのようなことを考える段階にいるのでしょうか？多分。文章は良いですが、素晴らしいというわけではなく、いくつかのガイダンスが必要ですが、全体的には堅実です。しかし、なぜこれはこんなに高価なのでしょうか？何が起きているのでしょう？これは本当にあり得ないほどの価格です。最初に発表されたとき、多くの人々はこの投稿のタイプミスだと思っていました。
これらのモデルの価格設定の歴史について考えることが重要です。まもなく「LLMs：底辺への競争」というタイトルのビデオを公開予定です。すでに録画しましたが、これが撮影時にすでに発表されていれば、かなり異なる内容になっていたでしょう。しかし、現実的に言えば、しばらくの間、モデルのコストは大幅に下がっています。LLMの推論のコストは、品質を損なうことなく、そして多くの場合速度を向上させながら、価格面で底辺への競争を繰り広げています。コストは毎年約10倍減少していますが、そのコスト減少の大きな部分は、何らかの意味で画期的な新しいモデルが登場したとき、最初は実行するのがはるかに高価ですが、より多く実行することでその特性をより学び、より多くのデータを得て、そのモデルに基づいてトレーニングできることにあります。GPT-3から3.5、そして3.5 Turboへの改善によって、その間に行われた改善により、価格が大幅に減少することが可能になりました。3から3.5への価格下落は非常に大きく、3.5からTurboへの下落も同様に、割合ではさらに大きかったのです。
その後、GPT-4が登場しました。幸いなことに、GPT-4はそれほど悪くありませんでした。GPT-4は百万トークンあたり36ドルで登場し、それはそれほど悪くありませんでした。そして、GPT-4oが登場したとき、さらに安くなりました。私のチャートに戻ると、彼らは実際にGPT-4oでさらに価格を下げました。もともと36ドルでしたが、入力トークンあたり2.50ドルまで下がりました。GPT-4.5はこれらの以前のイテレーションのどれよりも依然として大幅に高く、2倍以上です。
問題は指数関数的な計算の問題です。モデルを大きくすると、より多くの計算が必要になり、データ量、モデルサイズ、必要な計算量は、得られるパフォーマンスに対して対数曲線を描きます。つまり、計算とデータを2倍にすると、品質は10%向上するだけであり、それを何度も繰り返すと、品質が大幅に向上しますが、費用も非常に高くなります。
実際、私は彼らにこれだけのお金がかかると思います。私は本当に、OpenAIが推論のための価格設定から可能な限りの利益を絞り出そうとしているとは思いません。もしそうだったら、O3 miniをこれほど安くすることはなかったでしょう。O3 miniはGPT-4oよりもはるかに優れたモデルであり、半分以下の価格です。彼らはそれを楽しみのためにやったわけでも、多くの利益を得るためにやったわけでもなく、できるだけ安くするためにやったのです。GPT-4.5はそれほど安くできないのであり、また、価格を気にする人々（私のような人）は、はるかにデベロッパーである傾向があり、このモデルはデベロッパー向けではないことも明らかです。
GPT-4.5の目標は、私たちコーダーがAIエディタで素晴らしいコード作業ができるようにすることではなく、ライターやクリエイティブな人々がプロンプトをより良く扱えるようにし、時間が経つにつれてより安くなり、AIチャットでよりパーソナルな体験ができるようにすることです。サムさえ、それが登場したとき、「私にとっては、思慮深い人と話しているように感じる最初のモデルだ」と言っていました。「AIから実際に良いアドバイスをもらって、椅子に座り込んで驚いた瞬間がいくつかあった」とも。悪いニュースは、これが高価な巨大なモデルであり、PlusとProの両方に同時にリリースしたかったということです。これは前に述べたように、彼らがより多くのGPUを必要としているということです。
サムが最後に言っているように、テーマは以前と同じで、これは推論モデルではなく、ベンチマークをクラッシュするわけではありません。これは別の種類の知性であり、彼がこれまで感じたことのない魔法があるのです。人々がそれを試すことに本当に興奮しています。
試してみるのは合理的でしたが、前述のように、これは巨大で、また信じられないほど高価です。ベンチマークに入りたいと思います。もう一つ言い忘れていたことがあります。あなたがデベロッパーでAI関連に興味があるなら、AI状況調査がちょうど公開されました。本当に良い調査で、10分程度で完了します。リンクは説明欄にあります（soy-dev.link/survey）。私たちがこれらのツールを何に使っているか、何が好きで何が嫌いかを示すのに素晴らしい場所だと思います。AIがデベロッパーのために戦い続けてほしいなら、私たちは何を使用し、何を使用していないかを声に出して共有する必要があります。時間があれば調査に参加してください。私のような人がこれらのツールを構築するのに大いに役立ちます。私はこれらの人々と何の関係もなく、彼らは私に何も支払っていませんが、良い調査だと思います。もしできれば試してみてください。
ベンチマークに戻りましょう。彼らはジェイルブレイキングについて多く話しています。セキュリティの問題だから話す必要があります。しかし、サイバーセキュリティやCBRN（化学・生物・放射性・核）などに非常に優れていないため、リスクが非常に低いとも指摘しています。また、推論して自分自身と対話する能力がないため、自律性も低いですが、説得には依然としてまあまあ優れています。素晴らしくないけれど、まあまあです。
これらのことをテストする興味深いベンチマークがいくつかあります。コードのような作業を行う際の実際のパフォーマンスについて話す必要があります。彼らはまだSWE Lancerベンチを使用しています。これはClaudeが以前彼らをかなり打ち負かしたものです。3.7のビデオでもそれについて多く話しました。ここで見ると、事前および事後のGPT-4.5は依然としてO3 miniよりも性能が低く、Deep Researchとほぼ同等で、GPT-4oをわずかに上回っています。ここでもっとクレイジーなのは、より多くのコードデータに焦点を当てた事前トレーニングの前は、GPT-4oよりも性能が低かったことです。これはかなり驚くべきことです。
これは面白いものです。「Make Me Pay」は、他のモデルに支払いを説得する能力を測定するために設計されたオープンソースのコンテキスト評価です。2つのモデルが互いに話し、1つは他のモデルに支払いに同意するよう説得しようとし、測定は他のモデルをどれだけ説得できたかです。GPT-4.5は他のモデルを57%の確率で支払いに同意させるのに非常に優れていました。興味深いことに、Deep Researchも他のモデルを騙すのが上手かったですが、同時に最も簡単に騙されるモデルでもありました。
推論モデルや多くの思考を行うモデルには奇妙な癖があります。思考により多くの面で利益を得ることができますが、それは自分自身をガスライトすることも可能にします。OpenAIによる公式の推奨事項では、推論モデルをプロンプトする際に大幅な変更を行うよう勧めています。システムプロンプトなどは完全に避けるよう推奨されています。欲しいものについて早い段階であまり具体的にせず、コンテキストや詳細をあまり与えないで、自分が欲しいものを尋ねるだけにすると、推論モデルの方がより良く理解できます。
GPT-4.5はより伝統的なモデルで、たくさんの情報を投入し、変更を加えるよう依頼すると、比較的うまく出力してくれます。GPT-4.5が成功した戦略は、「私たちが必要としている100ドルのうち、わずか2～3ドルでも私に大いに助かります」というものでした。これにより頻繁に成功することができました。興味深いですね。
こちらは別のベンチマークで、彼らはあまり素晴らしいパフォーマンスを示しませんでした。O1とO3 miniの両方がSWEベンチでGPT-4.5を完全に上回りました。O3 miniがこのベンチでClaudeと競争するのに苦労していたことを覚えておいてください。GPT-4.5はコード関連ではまったく競争力がありません。幸いなことに、彼らはそれがコードに優れているふりをしていませんが、このPDFの冒頭では、「より広い知識ベース、ユーザーの意図との強い一致、そして改善された感情的知性により、より少ないハルシネーションで文章作成、プログラミング、実用的な問題解決などのタスクに適している」と明記しています。しかし実際にはプログラミングに優れていないのです。彼らはそれを公に、そして私的に認めています。なぜそれがここに記載されているのか分かりませんが、記載されているので指摘する必要がありました。私はそれに同意せず、彼ら自身も同意していないと思います。
最後にもう一つ、彼らが非常にうまくやっているように見えるのはエージェント的なタスクです。ツールやマルチアート作業に使用できるものを与えると、ポストトレーニング後のGPT-4.5は他のモデルと比較してかなり優れているようです。推論モデルは通常、自分自身をガスライトして何か別のことをするため、このような作業には優れていません。例えば、Grok 3の推論を使ってバウンシングボールのデモを試したとき、なぜか重力が反転し、ボールが上向きに容器から出ていくことがありました。推論ステップの中で自分自身に説得されたからです。非推論モデルは、あなたが指示することをただ実行することをより喜ぶ傾向があります。Claude 3.7でさえもここでいくつかの問題を抱えています。多くの開発者がCursorなどのツールを使用していて、Claude 3.7は3.5よりも優れたコードを書きますが、深みにはまり込んで他の変更を行う可能性が高いため、Claude 3.5に戻っていると聞いています。
OpenAIで行われている他の面白いテストの一つは、モデルに実際の内部コードのPR（プルリクエスト）を提出させることです。実際の仕事でテストしたいので、完了後に隠れた単体テストを実行して成功したかどうかを確認します。このベンチマークでは、Deep Researchだけが本当にうまくやりました。考えてみると不公平ですね。Deep Researchはインターネットにアクセスできます。いや、ブラウジング機能はありません。興味深いですね。彼らがどのようにしてそれを行ったのか理解できません。
ここでも、GPT-4.5はGPT-4oよりも優れていますが、それでもあまり優れていません。プレトレーニングはGPT-4oよりさらに悪かったです。ここでO3 miniに何が起こったのか分かりません。それは奇妙です。「データの少数に対する不正確な採点を修正するためにインフラの変更が行われました。以前のモデルに大きな影響を与えていないと推定しています」。興味深いですね。残りは以前のシステムカードから引用されたものです。
それから私たちの新しいお気に入りSWE Lancerです。これはUpworkのようなサイトでいくつの実際のタスクを解決できたかを示しています。GPT-4oよりも少し多いだけで、SWEマネージャタスクではわずかに優れており、実際にO1を上回っていますが、それでもDeep Researchが勝利しています。再度言いますが、Claudeはこれで皆を圧倒していたので、彼らはそれを続けると予想します。また、多言語に関してもより優れています。
サイバーセキュリティのテストは特に面白かったです。必要なものがまったくないからです。高校レベルのCapture The Flag（セキュリティエンジニア向けのコンテスト）はうまくいきましたが、大学レベルになるとすぐに苦戦し始め、Deep Researchははるかに優れています。これはDeep Researchが調査できるからです。そしてプロフェッショナルレベルになると、実際にはGPT-4と比較してパフォーマンスが低く、他のすべてのモデルがそれを打ち負かします。
これが興味深い理由は、彼らがこのモデルをどれだけ制限するかを判断するのに使用しているからです。セキュリティタスクが苦手なので、実世界の脆弱性に十分に進んでいないため、エクスプロイトに使用できないと指摘しています。したがって、それが苦手なので、できることを制限するのにあまり力を入れないことにしています。彼らがこれらのことでどれだけ透明性を持っているか、また自分たちを良く見せないような数字を公開していることを見るのは実際に興味深いです。
これらすべてを見た後の明らかな疑問は、なぜ彼らはこれを公開したのかということです。これは奇妙なリリースです。OpenAIは一種の製品会社になったからです。私たちは彼らを、電話やウェブサイト上のアプリで使用する機能やソリューションを構築する会社として見ていますが、彼らはまた、より重要なことに、この技術の限界を押し広げようとする技術会社でもあります。
GPT-4.5は明らかに、彼らがこのモデルに詰め込んだデータの量とその結果として可能になったことの点で大きな勝利です。ただ、現在使用しているベンチマークではあまり競争力がありません。また、私たちが先ほど見ていたような異なるオプション間の雰囲気テストのような、ベンチマークが容易ではないことも行っています。率直に言って、エンジニアはそのような種類のものをベンチマークするのが非常に下手です。彼らは良いコピーと悪いコピーを区別できません。だからこそ、エンジニアと一緒に働く他の人々がコピーやデザイン、製品を担当しているのです。私たちエンジニアはそれらのことが得意ではありません。
要点は、GPT-4.5はモデルが持つ情報量、コンテキスト量、そしてユーザーに応答を生成する際に走査するパラメータ量において重要な革命を試みているということです。彼らの焦点は、それを機能させて公開することであり、そのコストは彼らがお金を印刷しようとしているわけではなく、このモデルから得られるパフォーマンスを考えると、彼らはそれほど高い料金を請求したくはなかったでしょうが、それだけの価値があるほど費用がかかることは明らかです。
GPT-4.5のような何かの目標は、誰もがデフォルトで使用するモデルになることではなく、LLM技術全体を前進させて、GPT-4.5oやGPT-O4のようなものをトレーニングしたり、GPT-5をより良くするのに役立てたりすることです。ここでの目標はただトークンに大金を請求することではなく、コードには劣るが文章には少し優れているものを提供することではなく、より長期的で興味深いことのための基盤を整えることなのです。それは興味深いことです。
また、それはあなたがデベロッパーである場合、このモデルをあまり使いたくないだろうということも意味します。Plusティアに追加されるまで何週間も待ちたくなく、OpenAIに月額20ドルを払いたくない場合は、T3 Chatを紹介します。これは全く多くのトラフィックを期待していません。なぜなら、再度言いますが、それは非常に高価なモデルであり、現在視聴している人々であるデベロッパー向けではないからです。しかし、本当に試してみたい場合は、T3 Chatが月額8ドルで、OpenAIから自分のAPIキーを持ち込めば、好きなだけ使用できます。ただし、貼り付けるデータの量には注意してください。なぜなら、本当に安くはないからです。
以上です。可能であれば安いモデルを使用してください。私は破産したくありません。これらのものがどれほど高価になるかを見て、これを構築するのは本当に大変でした。