
2,703 文字
OpenAIの最新モデルがついに登場しました。o1と呼ばれるこのモデルは、数学やコーディングに関する質問において大幅な性能向上を見せ、最も厳しいベンチマークテストの多くで高得点を記録しています。なぜこれほどうまく機能するのか、その秘密を見ていきましょう。
OpenAIは最近、o1プレビューとo1ミニという2つの新しいモデルをリリースしました。これらは、サム・アルトマンが何ヶ月も前からほのめかしていたモデルで、以前はqarとストロベリーというコードネームで呼ばれていたものです。これらは、複雑な問題を推論あるいは思考するように設計された、まったく新しい種類のモデルを代表するものです。
o1は本当に高度な推論ができる最初のシステムなんです。難しいプログラミングの課題や、難しい数学の問題、難しい科学の問題で助けが必要な場合、本当に素晴らしい結果が得られます。物理学、化学、生物学などの分野での困難なベンチマークタスクでは博士課程の学生と同等の性能を発揮し、数学とコーディングにおいては特に優れています。
ただし、クリエイティブな文章作成やテキスト編集といった、より非形式的で主観的なタスクでは、ユーザーが必ずしもGPT-4よりもo1を好むわけではないことは注目に値します。これはおそらく、OpenAIがo1を訓練した非常にユニークな方法の結果でしょう。
o1プレビューとo1ミニは、まったく新しい種類の言語モデルと言えます。o1が推論を行うとすれば、その方法は人間が複雑な問題に取り組む方法とどれほど似ているのでしょうか。問題を小さなステップに分解する思考の連鎖プロセスを活用しています。多くの人々は、GPT-4のような以前のモデルにプロンプトを与える際に、「ステップバイステップで考えて」とか「一呼吸おいて一行ずつ進めて」といった戦略をすでに使用していました。
モデルはステップを進め、自身の間違いを認識し、修正を試み、異なる戦略を試し、必要に応じてアプローチを微調整します。言い換えれば、単に答えを吐き出すのではなく、人間の推論を反映するような方法で問題に取り組んでいるのです。
人々はすでにこれを行っていました。2022年にGoogle Brainの研究者たちによって発表された「思考の連鎖」という用語がすでにありました。論文から思考の連鎖の例を見てみましょう。
ジョンは8等分されたピザを1枚持っています。ジョンが3切れ食べ、友達が2切れ食べました。残りは何切れでしょうか?
思考の連鎖はこれを次のように分解します。まず、ピザの総スライス数を確認します – ピザは8等分されています。次に、ジョンと友達が食べたスライスの数を計算します – ジョンが3切れ、友達が2切れ食べました。最後に、元のスライス数から食べた総数を引いて、残りの数を求めます – それは3切れです。
思考の連鎖によってステップに分解せずに、言語モデルは単に最も可能性の高いトークンを予測しようとするだけで、多くのリクエストではコンテキストが十分でないことがよくありました。
多くの人々がすでに手動の思考の連鎖を使用していたとすれば、OpenAIはこれをどのように取り入れたのでしょうか?彼らはあまり多くを語っていませんが、ここに良い推測があります。AIの研究者たちは、GPT-4へのどんなプロンプトエンジニアリングでもo1の能力に匹敵することはできないと述べています。代わりに、新しいモデルは強化学習を通じて、まったく新しい方法で訓練されました。
これは、報酬と罰を正負の行動の信号として使用し、モデルが自身の行動から試行錯誤によって学習できるようにする機械学習の一種です。OpenAIは、人間が書いた思考の連鎖だけでなく、大規模な強化学習でo1をさらに訓練しました。これは、人間の推論を模倣する独自の合成思考の連鎖を生成することを許可したことを意味します。
これらの思考の連鎖は報酬モデルによって判断され、その後、時間とともにモデルの訓練と微調整に使用されます。OpenAIは、o1が強化学習とより多くの思考時間をかけることで一貫して改善することを発見しました。
これは、基本モデルがさらなる訓練で改善し続けられるだけでなく、実運用時にユーザーがo1に複雑な問題を尋ねた場合、考える時間が長くなればなるほど、OpenAIがより多くの計算リソースを使用でき、その結果、応答の正確性が向上することを意味します。
これはo1が改善し続けることを意味するのでしょうか?はい、未リリースバージョンのo1はまだ進化し続けていることがわかっています。o1プレビューは、完成版モデルの初期バージョンとして説明されており、数週間または数ヶ月以内にリリースされることが期待されています。
いくつかのYCスタートアップはすでにアーリーアクセスを受けており、彼らにとって結果は驚異的なものでした。実際、最近発表された研究では、思考の連鎖を使用することで、言語モデルは本質的に直列的な問題を解決できることが証明されました。
これは、十分な計算リソースがあれば、このシリーズのモデルの可能性は無限大であることを意味します。サム・アルトマンによると、これらの推論時スケーリング則を考えると、現在のo1モデルはGPT-2の段階にあり、数年以内にGPT-4の段階へと飛躍する可能性があることを示唆しています。
では、o1は実際に推論しているのでしょうか?哲学的な議論は避けますが、イエスと言って差し支えないでしょう。o1は、計画を必要とする複雑な問題に取り組む際、独自の中間ステップのシーケンスを生成し、それらを順に処理し、多くの場合(必ずしもではありませんが)正しい答えにたどり着きます。
おそらく、o1は答えを暗記するモデルから推論を暗記するモデルへの転換を示していると言うのが、より正確でしょう。もちろん、o1にはまだ改善の余地があります。時々幻覚を見たり、詳細を忘れたり、分布から外れた問題に苦労したりします。
すべてのモデルと同様に、エッジケースを概説したり推論スタイルを導いたりするプロンプトなど、より良いプロンプトエンジニアリングで結果を少し改善することができます。
次は何でしょうか?OpenAIの研究者によると、コードインタープリターやブラウジングなどの追加ツールのサポート、より長いコンテキストウィンドウ、そして最終的にはマルチモダリティを含む、エキサイティングなアップデートが計画されているとのことです。
残された唯一の本当の疑問は、あなたがo1で何を構築するかということです。
コメント