OpenAIのo1モデルは画期的進歩か、それとも失敗か?

3,869 文字

Is OpenAI's o1 model a breakthrough or a bust?
Find the source and more in the full blog post:

OpenAIの新しいo1モデルがGPT3やGPT4のような以前のモデルほど注目されていない理由をお話しします。これは、ClaudeとO1を使用してFigmaデザインをコードに変換する実際の製品の例です。o1が明らかに遅く、かなり高価で、時には良いこともありますが、時にはそうでもないことが一目でわかります。
では、なぜOpenAIはo1に多大な投資をしているのでしょうか。それはAIの進歩が減速していることに関係しています。新しい大規模言語モデルは、それぞれが前のモデルより少しずつ良くなっているだけのように見えます。OpenAIの最新モデルOrionでさえ、GPT4より常に優れているわけではないと予想されています。
なぜそうなのかと疑問に思われるかもしれませんが、その一部は単純に学習データが枯渇してきているためです。AIモデルをどれだけ賢くできるかという限界に直面している中で、私たちに何ができるでしょうか。現在、まだ手つかずの可能性が大きく残されているのは、モデルを高速化することです。
AIプレイヤーたちがどこに投資しているかを見る必要があります。彼らは推論を高速化するためにより特化したハードウェアに投資し、また自社のデータセンターを構築し、低コストの電力を提供する原子力発電に投資することでコストを下げようとしています。
次のbreakthroughは、RockやCerebrasのような高度にLLM最適化されたハードウェア企業から生まれる可能性があります。これらの企業は、非常に特化した計算において最大10倍のパフォーマンス向上を実現しています。これは単なる仮説ではありません。Amazonは既に新しいチップをリリースしており、Appleのような大企業もそれらを使用する計画を立てています。
より高速な推論により、これまでは長い待ち時間によってユーザー体験が悪化するため実現できなかった新しいワークフローが可能になります。しかし、LLMが依然としてミスを犯す現状で、より賢くならないのに高速化することに意味があるのでしょうか。言い換えれば、AIの知能向上が頭打ちになっているとすれば、速度の向上とコストの低下を利用して、AIからよりスマートな出力を得る別の道を見つけることはできるのでしょうか。
答えは意外かもしれません。例えば、この数式を見せられたら、答えが7だとすぐにわかるはずです。LLMも同様です。ダニエル・カーネマンはこの種の自動的な早い思考をシステム1思考と呼んでいます。これは今日のLLMの動作方法によく似ています。常に素早く答えを得られますが、複雑さが増すと正確性が失われる可能性があります。
もし頭の中で即座にこの計算の答えを出せと言われたら、多くの人はわからないでしょう。その代わりに、どうするでしょうか。問題を小さなステップに分解し、それぞれに自動的に答えられるようにして、最終的な結論に至るというアプローチをとるはずです。
ダニエル・カーネマンはこれをシステム2思考と呼んでいます。o1を見ると、基本的に同じことをしています。ChatGPTにより複雑な数学の問題を尋ねると、人間の思考と同じように、確実に出力できる小さな部分に分解し、それらを最終的な答えにつなげていくのがわかります。
実際、これはLLMの最大の弱点の1つである幻覚に効果的です。o1に「strawberry」という単語にいくつの「r」があるかを尋ねると、最初は「5つ」のような間違った答えを出すかもしれません。しかし、人間も即座には答えられないでしょう。文字を1つずつ数える必要があります。o1も同じように次にそれを行い、正しい答えにたどり着きます。
これは非常に興味深いものの、完全に新しいわけではありません。このような思考の連鎖(Chain of Thought)アプローチは以前から存在しており、モデルをこのアプローチに特化して訓練することは比較的新しいものの、アリババのqwqモデルのような同様のパフォーマンスを持つオープンソースの模倣品が既に登場しています。
これは根本的に新しい技術やアプローチではありませんが、特に速度が向上しコストが低下している状況を考えると、有用である可能性があります。ユーザー体験を損なうことなく、より良い答えを出すための時間を確保できるようになるからです。
しかし問題は、o1が全ての種類の問題に対してより良い答えを出すわけではないのに、現在のプレビューではトークンあたりの費用がClaude Sonnetの4倍かかることです。さらに、思考プロセスで大量のトークンを使用するため、2〜10倍多くのトークンを出力します。つまり、o1からの出力の総コストはSonnetの最大40倍になる可能性があり、必ずしも良い結果が得られるとは限りません。
また、常により遅くなり、時には信じられないほど遅くなります。最悪なのは、o1からの結果が10秒、20秒、30秒以上見えないことがあり、これによってユーザー体験が大幅に悪化することです。ここでは、実際の製品ビルダーでo1を使用しています。
Figmaデザインをインポートしてボタンをクリックすると即座にコードがストリーミングされる場合と、ボタンをクリックしてから30秒以上何も起こらないのを待つ必要があり、結果の品質が同程度である場合、ユーザーは間違いなく前者を選ぶでしょう。さらに、その製品が月額20ドルだとして、モデルのコストが40倍になれば、わずかに良いかもしれない、しかし信じられないほど遅い製品に月額800ドルを支払いたいとは思わないでしょう。
では、実際にこのような状況が見られるのに、なぜこれが依然として興味深いのでしょうか。その理由はAIエージェントにあります。誰もが話題にしていますが、私たちは常に人間の監督なしで一連のタスクを完了するためにAIを使用したいと考えています。そのためには、AIはものごとをより良く分解し、ステップバイステップで完了する必要があります。また、失敗率を下げ、自身の間違いをより早く発見する必要があります。
従来の大規模言語モデルは、インターネット上の全てのテキストとコードで訓練されているため、文章から次のトークンや単語を完成させることは得意ですが、タスクを分解して実行するように訓練されていませんでした。o1では、複雑なステップバイステップの問題に対して、その種の問題で訓練した場合にパフォーマンスが向上する例が見られています。
現在のClaudeのコンピュータ使用が実世界のタスクで15%の成功率しかないことを考えると、効果的なエージェントが実際にいつ登場するかは不明確です。問題は、新しい訓練方法でどれだけ改善できるかということです。これは一部の人々が信じているような新しいbreakthroughにつながるのでしょうか、それともAIバブルの崩壊の始まりになるのでしょうか。
大きな新しいAIイノベーションについて語り続けていますが、一般の人々の生活はそれほど変わっていないかもしれません。AIモデルがそれほど良くならず、これらの新しい技術が大きなbreakthroughにつながらない場合、一部のハイプは冷めていく可能性があります。それは必ずしも最悪のことではないかもしれません。
ドットコムバブルが崩壊したとき、数億ドルの資金調達を行った企業でさえ、多くが破綻しました。インターネットは最終的に巨大になりましたが、2000年以前の人々の誤りは、すべてがすぐに、今すぐに巨大になり、時間をかけて解決すべき追加の課題がないと信じたことでした。
AIについても同じように考えている人々がいるようです。すべてが良くなっていて、後戻りはないと。現実には、困難な問題があり、S字カーブの進歩があるでしょう。AIが膨大な問題を解決できる可能性はありますが、それは今日ではないかもしれません。一部の問題は、10年後でさえ大規模採用に十分な効果を発揮しないかもしれません。
WebVanやPets.comは完全に実行可能なインターネットビジネスでしたが、それは10年後の話でした。一方で、初期から効果的なビジネスを作り出し、今日まで成長し続けている企業もあります。問題は、どのAI製品が実際のユーザーの日々の使用に本当に機能することを示し、どれが単なるハイプで、一連の追加の進歩が起こるまで十分に良くないのかということです。その進歩には短い時間がかかるかもしれませんし、非常に長い時間がかかるかもしれません。
breakthroughを見て、それが継続すると考えるのは簡単です。現実には、まだわかりません。ただし、かなりうまく機能しているように見えるユースケースがいくつかあることはわかっています。AIチャットアシスタントは、ブレインストーミング、研究、執筆、編集、その他様々なタイプのタスクで非常に役立ちます。
最近のもう一つの大きな勝者は、AI支援のコーディングです。特別なIDE、Co-pilot、フルアプリケーションビルダー、あるいはデザインを高品質なコードに変換できるような特化したツールを使用するかに関わらず、これらは一般的に満足しているユーザーと共に大きな採用を見ている製品の一例です。
将来は不確実で、来年にはエージェントがすべてを変えるかもしれませんが、私はこれらのカテゴリーに最も注目しており、これから何が起こるのかを本当に楽しみにしています。

コメント

タイトルとURLをコピーしました