
12,338 文字

世界はOpenAIのo1プレビューのインパクトを理解するのに数日しか時間がなかったんです。その間、私は7本の論文を読み返して、o1とは何か、そしてこれからどうなるんかを説明しようと思います。今日公開された講演も参考にして、数日前に私が主張したことを裏付けたいと思います。つまり、o1プレビューはモデルの訓練方法とその能力に大きな変化をもたらしたってことです。もちろん、まだできへんことについても忘れずに触れますけどね。この動画を全部見ても考えつかへんようなこともあるんですから。
少なくとも、OpenAIのトップ研究者の一人はこう考えてるんです。「全然違う次元で勝ってる、ほぼ同じ知能レベルの2つの種族が長期間共存するなんて予想してへんかったけど、正直そういう状況になってるみたいやな」
この発言を紹介したのは、今のAIの特別な瞬間を表現するためです。o1シリーズのモデルについて、OpenAIが非常に高いレベルで何をしたんかを説明したいと思います。動画が進むにつれて、もっと詳しく説明して、3年前の論文からの引用で裏付けていきますけど、大きな絵を見たい人のために、私の考えをここで述べておきます。
言語モデルの元々の目的は言語をモデル化することです。次の単語を予測することやと思ってください。それを「パラダイム1」と呼んでもええかもしれません。面白いけど、あんまり役に立たへん。質問をしたら、言語モデルは次の質問を予測するかもしれません。
もう一度簡単に言うと、私たちは別の目的を持ち込みました。「パラダイム2」です。モデルに正直で、無害で、役立つものを作ってほしかったんです。私たち、というか私たちの代理人が、その目的を満たす出力を生み出したときにモデルに報酬を与えました。確率的な観点からだけでなく、時には無害で、正直で、役立つ回答が得られるようになりました。ChatGPTの登場です。うまくいってるって聞いてますね。
少なくとも私にとって、o1は「パラダイム3」を表しています。客観的に正しい答えに報酬を与えたいんです。元の目的を忘れたわけやないですけど、その上にもう一つ層を重ねたんです。
でも、実際にはどうやってそれを実現したんでしょうか?まあ、ここでも1分で要約して、後でもっと詳しく説明しますけど。
ほとんどの人は、モデルに「思考の連鎖」と呼ばれるものを出力させることができるのを知ってるかもしれません。例えば、モデルに段階的に考えるように頼むことで、もっと長い出力や、その中に推論のステップを含むものが得られます。でも、その秘密はもう数年前からあるんで、o1の特別なところやないんです。
そこで、人々は素晴らしいアイデアを思いついたんですが、うまくいかへんかったんです。人間の段階的な推論の例を何千も与えてモデルに学習させるのはどうやろか?確かに、それはうまくいくんですけど、最適やないんです。あんまりうまくスケールしません。
OpenAIは、もう一歩先に進めることができると気づいたんです。彼らの言葉を30秒ほど引用させてもらいます。
「推論のためのモデルを訓練するときに、すぐに思いつくのは、人間に思考プロセスを書いてもらって、それを訓練するということです。でも、私にとってのアハ体験は、RLを使ってモデル自身に思考の連鎖を生成させ、所有させるように訓練すると、人間が思考の連鎖を書くよりもさらに良くなることがわかったときでした。これは、本当にスケールできて、モデルの推論を直接探求できるというアハ体験でした」
待って、モデルが生成した思考の連鎖を訓練する方がええんですって?でも、なんでそれらはよく間違えるんでしょうか?そして、この文脈で強化学習って何を意味するんでしょうか?
ちょっと比喩的になりますけど、こんな感じやと思います。モデルに近づいて耳元でささやくんです。「めっちゃクリエイティブになってや。次の単語を超正確に予測することはそんなに気にせんでええよ。とにかく多様な出力が欲しいんや」
モデルは、いわゆる温度1の状態で、クリエイティブになって多様な思考の連鎖を生成するのを喜んでます。一方で、他の研究者たちは「何してんねん、こいつら。めっちゃ信頼性低くなるやん」って思ってるかもしれません。
でも、もしその出力を自動的に評価する方法があったらどうでしょう?そうしたら、多くの人も「まあ、その出力の一部はええかもしれんな。特に、もっと長い時間をかけて考えて、もっと長い思考の連鎖を生成すれば」って同意するかもしれません。
正解の割合が低くても、少なくとも1つか数個の正解があれば問題ないんです。そうしたら、何千もの出力の中から、数学、科学、コーディングで正しい答えを生成したものを選び出し、その正しい答えと正しい推論ステップでモデルをファインチューニングするんです。
これが強化学習になる理由です。最高の出力だけが次のラウンドに進み、モデルのさらなる訓練に使われるんです。正しい出力と正しい推論ステップだけでファインチューニングや追加訓練をしているので、このプロセスはデータ効率が非常に高いんです。
ウェブでの訓練とは違って、あなたのランダムなRedditのコメント(ひどかったですよね)や数年前のツイートは含まれません。これは黄金のデータなんです。
つまり、これは訓練時の計算能力(モデルのファインチューニングや訓練)と、テスト時の計算能力(思考時間)の結婚なんです。テスト時というのは、モデルが実際に出力しているときのことで、訓練されているときじゃないってことを覚えておいてください。
モデルに時間を与えて、最終的な出力を生成する前に「連続計算」と呼ばれるものを次々と生成させると結果が向上することは、すでにわかっていました。特に技術的な分野では、それは理にかなっています。そして、それが実際に起こったんです。
でも、その正しい生成物で訓練時の計算能力を使って訓練やファインチューニングをすると、この2つのスケーリンググラフが得られます。これは難しい数学コンペのものです。考える時間が長いほど、結果が良くなります。でも、正しい出力と推論ステップでモデルやジェネレーターを訓練やファインチューニングすると、それも顕著な向上を生み出します。
そして、お気づきかもしれませんが、どちらのグラフもすぐに頭打ちになるようには見えません。
冒頭で言及した7本のジューシーな論文に入る前に、多くの人が持っているかもしれないより大きな疑問に触れたいと思います。これは推論なのか?人間のような知能と言えるのか?
確かに人間のようではありませんが、結局のところ、それは重要ではないかもしれません。私が思いついた例えはこうです。
図書館員を想像してください。あなたは質問に答えてもらうために図書館員のところに行きます。ここでの図書館の本はモデルの訓練データです。元々のChatGPTはとてもフレンドリーな図書館員でしたが、しばしば間違った本を持ってきたり、あるいは正しい本を持ってきても、あなたの質問に答えられる間違った段落を指したりしていました。
ChatGPTは図書館員としては悪くなかったですが、自分が何を渡しているのか全く理解していませんでした。本当に知的ではないことを示すのは、やろうと思えば簡単でした。
o1シリーズのモデルは、はるかに優れた図書館員です。彼らは、どの本が質問に成功して答えたか、どれが失敗したかをノートに取っています。本のレベルだけでなく、章、段落、行のレベルまで。
でも、もちろん、根本的な疑問が残ります。図書館員は実際には自分が提示しているものを理解していないんです。
ここで哲学的にややこしくなります。結局のところ、それは重要なのでしょうか?私たちは人間の脳がどのように機能しているのかさえ理解していません。正直なところ、これについては皆さんに任せたいと思います。コメントで意見を聞かせてください。
でも、この比喩から一つはっきりしていることがあります。モデルの訓練データ、つまり図書館にない何かについて質問すると、図書館員がどう考えているかに関係なく、間違えてしまうんです。
ちなみに、図書館員が「わかりません」と言う可能性は極めて低く、代わりに無関係な本を持ってくる可能性が高いです。もちろん、この弱点はo1プレビューでもまだかなり顕著です。
この分析に同意するなら、もう一つのハードルが続くでしょう。訓練データの不足だけでなく、十分な訓練データはあるけど、明確に正解や不正解がない分野についてはどうでしょうか?そうなると、すべての思考の連鎖を選別して、正しいものでファインチューニングする方法がなくなってしまいます。
元のGPT-4.0と比べて、正解と不正解が明確な分野ではパフォーマンスの向上が見られます。正解と不正解の区別が難しい分野では、あまり向上が見られません。実際、個人的な文章では後退しています。
これが全体像ですが、ここからはここ数日で見られたジューシーな詳細と隠されたヒントに入ります。
でも、その前に、私と私のチャンネルについて2分だけお時間をいただきたいと思います。コメントを残してくれたり、最後まで見てくれたりすることに感謝していると言うとき、本当にそう思っています。あなたの時間の一部をいただけることは光栄です。それ以上のサポートは期待していません。
昨年の終わりにPatreonでAI Insidersを立ち上げたのは、チャンネルを財政的に存続させるための試みでした。去年の半ばに以前のビジネスの運営を完全にやめてしまったからです。正直なところ、29ドルという価格を選んだのは、それだけの価値があると思ったからです。人々が登録し、ほぼ1年間安定していたことに本当に感動しました。これらの人々は本当に私のスパルタンです。多くの人がこれを見ているでしょう。
でも、もちろん、少し高すぎて払えないという人々のメールも読みました。そこで9ヶ月後、私は自分のキャリア全体を賭けて、いわばギャンブルをすることにしました。価格を大幅に下げて、月29ドルから月9ドルにしたんです。年間サブスクリプションの割引を使えば、月7.56ドルになります。
ここで、私の献身的なサポーターたちにそのより高い層に留まってもらうために、フィルターをかけていない個人的なポッドキャストを元の29ドルの層専用に保持します。そして、その層に留まる人全員に個人的にメッセージを送って感謝の意を表します。新しく参加する人にもそうします。
他の皆さんで、月9ドルが可能な人には、この2分間を使って何が得られるかを紹介させてください。
独占的なAI解説ビデオにアクセスできます。昨夜の「人類最後の試験」やベンチマークについてのこのビデオのような、現在約30本あります。YouTubeで期待されるのと同じクオリティです。もちろん、YouTubeと同じようにコメントすることもできます。
各ビデオをダウンロードして、オフラインで見ることもできます。
9ドルか7ドルで、Discordにもアクセスできます。これは始まってから大きく進化して、今では生放送のミートアップや新しい読書クラブ、もちろん一般的な議論もあります。自己紹介ページを見れば、Discordに参加している人たちのレベルがわかります。
もちろん、これらのことを気にしない人もいるでしょう。ますます必要とされている、誇大広告のないAIジャーナリズムをサポートしたいだけの人もいるでしょう。9ドルが高すぎる場合も完全に理解できます。とにかく見てくれてありがとうございます。
さて、o1に話を戻しましょう。気づいたかもしれませんが、私たちには実際にはその思考の連鎖が見えません。o1を使ったことがある人なら、要約と出力は見えますが、その出力に至った本当の思考の連鎖は見えません。
OpenAIは、その理由の一部が彼らの競争上の優位性にあると認めています。ここまでの分析を追ってきた人なら、それは理にかなっていると思うでしょう。ライバルの研究所、特に利用規約をあまり気にしない研究所は、o1シリーズが出力した成功した思考の連鎖を訓練に使うかもしれません。結局のところ、それがその成功の鍵となる要素なんです。だから、隠しておくのは理にかなっているんです。
でも、その思考の連镾が見えなくても、明らかに連続計算がずっとうまくなっています。数字を何回も二乗するのを想像してみてください。並列でやるのは本当に難しいですよね?次の計算をするには、最初の計算の結果を知る必要があります。
でも、長い下書き用紙や隠された思考の連鎖があれば、モデルはそれがずっとうまくなります。長くて紛らわしい質問を一連の小さな計算ステップに分解する能力が、o1プレビューがこのような質問にほとんどの場合正解する理由だと思います。人々が私に指摘しているように。
私は自分の最後のビデオで言ったように、Simple Benchで初めてベンチマークを取ったとき、o1プレビューが出したすべての答えを分析したので、このことをよく知っています。
このような質問で、他の多くの事実の中に一つの事実をこっそり入れ込むようなこと、例えば「彼女が他の3枚のクッキーを食べたとき」というのは、Simple Benchのほんの小さな要素に過ぎません。まだまだ、ひどく失敗する質問カテゴリーがたくさんあります。これも、訓練データにないからです。図書館員は、そこにない本を取り出すことはできません。
最も人気のあるAIベンチマークの一つであるARC AGIの作者たちは、こう言っています。要するに、o1は「答えを覚える」から「推論を覚える」へのパラダイムシフトを表しているんです。
正解につながった推論ステップで訓練されたことを思い出してください。どの分野でどんな種類の推論が正解につながるかを認識し始めているんです。「訓練データにその正確な事実、正確な答えがあるか」というよりも、「この問題を解くのに適切だと思われる種類の推論ステップがあるか」という感じです。
でも、この動画で明確にしたと思いますが、もしそれらの推論ステップや事実が訓練データにない場合、つまり分布外の場合、それでも失敗します。o1はまだ、分布に曲線を当てはめてパフォーマンスを向上させるという広いパラダイムから外れていません。
すべてを分布内にする、すべてを訓練する、図書館を拡大するためには、まだ人工知能のための新しいアイデアが必要だと彼らは言っています。別の言い方をすれば、物理的な世界のための基盤モデルはまだ存在しません。現実世界のタスクに対する「正解」の大規模なデータバンクがないんです。それが、モデルがSimple Benchで失敗する理由の一つです。
o1プレビューがGPT-4.0ができなかった問題を今解けるようになっている、そんな問題のパターンに気づき始めるでしょう。o1の星の一人であるOpenAIのゴノム・ブラウンは、このチャンネルでインタビューした有名なラウル教授からの例を挙げました。ブロックを積み重ねる問題で、最初は少し紛らわしいんですが、o1プレビューはうまく解きます。
ちなみに、これは元々、言語モデルが絶対に解けないような問題の例として挙げられていたものです。でも、ブロックを積み重ねるのはデータが少ない分野だとは言えません。ただ、以前のモデルは起こっていることの量に圧倒されてしまっていただけなんです。連続計算や計算が多すぎて、できなかったんです。
訓練データが、良くも悪くもパフォーマンスを決定するという証拠をさらに求めるなら、ここにo1プレビューの例があります。
「男の子の父親である外科医が『この子の手術はできない。彼は私の息子だ』と言います。外科医は男の子にとって誰ですか?」
覚えておいてください。外科医は男の子の父親として説明されていますが、外科医は男の子のもう一人の父親なんです。男の子には2人の父親がいるんです。
いつものように、試験形式の知識ベンチマーク、特に真の推論ベンチマークではなく、実世界の能力と同じではないことを覚えておく必要があります。
ここで、o1についての10の興味深い事実と背景を紹介し、最後に私たち全員がこれからどこに向かうのか、次に何が来るのかで締めくくりたいと思います。
まず、お分かりかもしれませんが、o1の訓練はGPT-4とは根本的に異なっていました。強化学習の追加レイヤーがあるということは、ベースのGPT-4.0にどれだけプロンプトエンジニアリングを施しても、段階的に考えるように求めても、そのパフォーマンスに追いつくことはできないということです。
次に、o1プレビューとo1は、私たちがこれまで組み立てていなかった推論ステップを組み立てているかもしれません。まだ「推論ステップ」ではありますが、モデルは望ましい結果を達成するステップを組み立てるように最適化されています。
去年私がよく話題にしていたo1の主要な著者の一人、ルーカス・カイザーが言ったように、「正しい思考の連鎖を知っていれば、何でも計算できる」んです。そして、アンドレ・カーパシーが2日前に言ったように、それらの思考は私たちにとって読みやすくなくてもいいんです。他の言語から翻訳されたり、彼ら独自の作り出した言語での推論ステップを組み立てているかもしれません。
覚えておいてください。目的は明らかに正解を得ることなので、モデルはそれを達成するためにできる限り最適化するんです。
次の点として、ゴノム・ブラウンが指摘しているように、これはまさにチェスで起こったことなんです。実際、彼はこう言っています。「これは、Code Forces コンテストにおけるo1の性能について話すのと、とてもよく似てきています。チェスの軌跡によく似てきているんです」
これは何を意味するのでしょうか?ここでは明らかに単純化しますが、最高のチェスモデルであるStockfishは、元々人間の専門知識を使って手作りの関数でボードの位置を評価するように訓練されていました。もちろん、人間よりもはるかに多くの位置を評価するための探索を使用していましたが、それでも手作りの関数を持っていました。
2023年7月まで… その時、Stockfishは手作りの評価を取り除き、完全にニューラルネットワークベースのアプローチに移行しました。つまり、独自の推論ステップを作成し、それらを最も効果的な方法で組み合わせるように最適化することで、私たち自身では思いつかなかったような推論に到達する可能性があるんです。正解と不正解を評価できるものがある限り、パフォーマンスは向上し続けるでしょう。
次の一連の興味深いポイントについては、9ヶ月前に作った動画を参考にします。もちろん、私は極端に偏見を持っていますが、QARについての予測は完全に的中していたと思います。正直なところ、時間があれば、この動画全体を見ることをお勧めします。でも、ここでは9ヶ月前、12ヶ月前に、これらの研究者たちが何が来るかを見ていたことを説明するのに役立つ瞬間をいくつか取り上げます。手がかりはそこにありました。私たちはそれらを組み合わせるだけでよかったんです。
4つ目の興味深いポイントは、動画の17分目からのものです。思考の連鎖を出力するこのアプローチは、異なるモダリティに拡張できます。思考の連鎖が基本的に世界のシミュレーションになるような。つまり、マルチモダリティと、答えを出す前に一連のものを生成する能力が、私たちが推論と呼ぶものにより近くなるでしょう。
これは短いスニペットですが、重要な詳細が含まれていると思います。o1ファミリーのモデルが物理学のテストで劇的に良いスコアを出しているのと同じように、OpenAIのビデオ生成モデルであるSoraは、ピクセルで物理学をモデル化することがはるかに上手くなる可能性があります。思考の連鎖を使って次のピクセルを予測し、実際に機能した予測でファインチューニングすることができるかもしれません。
データラベリングの革命さえ必要ないかもしれません。ビデオ生成モデルは、YouTubeのどの動画がより正確に現実を描写しているかを学習できるかもしれません。元Googleの社員でOpenAIのメンバーだったジェフリー・アービングが言ったように、「ピクセルごとに考えてみよう」というシナリオがあり得るんです。
言い換えれば、このステップの変化はテキストに限定される必要はありません。
次のポイントについては、なぜこんなに動画の後半まで遅らせたのかわかりませんが、11月に私が行った予測を見てください。「Let’s Verify Step by Step」という論文の重要な段落を取り上げ、OpenAIが取り組んでいることを示しました。
Let’s Verifyは、アクションを選択するようなものかもしれません。結局のところ、元の論文では、このようにテスト時の計算能力を使用することは一種の探索として描写されていました。そして、Let’s Verifyでは、強化学習を含む一歩前進のヒントを与えていました。
彼らはこう言いました。「私たちは強化学習を使って解決策を生み出すジェネレーターを改善しようとはしていません。RLで訓練された場合にジェネレーターが報酬モデルから受け取る監督については議論しません」
そして、ここが重要な文章です。「強化学習でジェネレーターをファインチューニングすることは自然な次のステップですが、それは意図的にこの研究の焦点ではありません」
これが彼らが行った後続の研究なのでしょうか?もしこの予測がYouTubeでのいいねに値しないなら、あるいは好ましくはAI Insidersに参加する価値がないなら、私には何がそれに値するのかわかりません。
それから、2022年の論文で、それがどのように行われるかの詳細に入りました。簡単に言えば、生成したものの中で実際に機能したものでモデルをファインチューニングすることを含みます。正解を得る論理的根拠を生成するまで続け、それらすべての論理的根拠でファインチューニングするんです。
彼らは言います。「STARは、最終的な答えを直接予測するようにファインチューニングされたモデルと比較して、複数のデータセットでパフォーマンスを大幅に向上させることを示しています」
これはLet’s Verifyを思い出させませんか?そして、「30倍大きな最先端の言語モデルをファインチューニングするのと同等のパフォーマンスを発揮します」
次に、このアプローチの主要な著者の一人であるイライアス・サトヴァからの警告を皆さんにお見せしたいと思います。おそらく彼は安全な超知能会社でこれを実践しているのでしょうが、彼は警告を発しています。
「強化学習は創造的です。強化学習にはもっと大きな課題があります。それは創造的なんです。強化学習は実際に創造的です。AIにおけるすべての驚くべき創造性の例は、強化学習システムから生まれています。例えば、AlphaZeroは、人間が何千年もかけて完成させてきたゲームの全く新しいプレイ方法を発明しました。
それは強化学習なんです。私たちが理解できないかもしれない問題に対する創造的な解決策を生み出すことができるんです。だから、AIが実世界と相互作用して、私たちが判断する何らかの有益な結果を達成しようとしながら、長期的あるいは中期的な時間軸で強化学習を行うとどうなるでしょうか?でも、非常に非常に非常に創造的であるとしたら…
これは、この問題が解決不可能だということではありません。でも、それが問題であるということを意味します。そして、より単純なアプローチのいくつかは、Sydneyの悪ふざけを非常に控えめに見せるような、予期せぬ創造性に苦しむことを意味します」
次に、私はQAR Strawberry、つまりo1の空間推論の弱点を予見していたと思います。この開発は、数学のような狭い領域では大きな前進かもしれませんが、まだAGIの解決策ではありません。世界はまだこれが機能するには少し複雑すぎるんです。
世界の複雑さをモデル化し、真の空間知能を実現する切実な必要性が、なぜファ・リーのスタートアップがわずか4ヶ月で10億ドルの価値を持つようになったかの理由です。
すでにこの動画でほのめかしたように、OpenAIはジェネレーターの出力の個々の推論ステップを評価したと思います。全体的な答えが正しいかどうかだけでなく。でも、その背景についてはこの2023年11月の動画から数分間再生する方が簡単です。その中で、ちなみに、このチャンネルの2023年6月の動画を引用しています。
それがテスト時の計算能力ですが、Let’s Verify Step by Stepはどうでしょうか?2021年のオリジナルの検証器論文に戻ると、彼らはこう言っています。2021年当時、彼らのアプローチで気づいた問題は、モデルが正しい解答に報酬を与えていたけど、時々誤った推論を使って正しい最終答えに到達する偽陽性があったということでした。
これが問題だと分かっていたので、彼らはそれに取り組みました。そして今年5月に、Let’s Verify Step by Stepを発表しました。この論文では、検証器または報酬モデルにプロセス(P)に焦点を当てさせ、結果(O)ではなく、結果はずっと劇的でした。
次に、グラフが上昇し続けていることに注目してください。もし、テスト時の計算能力がもっとあれば、これは上昇し続ける可能性があります。実際、6月1日にそのことを推測しました。
約10%のこの違いは、GPT-3とGPT-4の差の半分以上です。そして、私だけでしょうか、それともそのラインは成長し続けているように見えますか?より多くの計算能力が利用可能になれば、その差はさらに大きくなる可能性があることを示唆しています。
GPT-4や5が、例えば1兆(10の12乗)の解決策をサンプリングできる未来を想像してください。私の仮説が浮かび上がってきているのがわかりますね。強化されたテスト時の計算能力を利用して、グラフを100%に近づける、新しく改良された「Let’s Verify Step by Step」、QARと呼ばれるものです。
そのプロセス、報酬モデルについてもっと詳しく知りたい場合は、当時「パフォーマンスを2倍に」というタイトルで作った動画をチェックしてください。でも、非常に短いバージョンは、推論シーケンスの個々のステップに気づくように報酬モデルを訓練したということです。
その報酬モデルは、誤ったステップを見つけることがとても上手くなりました。さらに、そのモデルが誤ったステップがないと結論づけたとき、グラフで見たように、それは正しい解決策の強い指標でした。
また、元のジェネレーター(GPT-4)が1000回に1回しか正しい解決策を出力しなかった場合でも、時々そのような正しい解決策を選び出すことができました。
さらに、この方法はある程度分布外に一般化され、数学を超えて化学、物理学、その他の科目でのパフォーマンスを向上させました。
そして、ゴノム・ブラウンは、o1の訓練に検証器が使用されたことを明確にほのめかしていると思います。私の理論では、すべての推論ステップが正しく、最終的な答えも正しかった答えだけが、o1ファミリーの訓練やファインチューニングに使用されたということです。
でも、有名なLet’s Verifyのグラフを示した後、彼が空中に残したこのポイントを見てください。
「このプロセスを行えば、つまり本当に良い報酬モデルですべてのステップを検証する報酬モデルを使えば、さらに大きな向上が得られます。78.2%まで上がり、さらにサンプルを増やせばその数字、その線はもっと上がるように見えます」
これは、Let’s VerifyがO1の鍵だったというヒントとしては、これ以上ないくらい大きなものです。
Let’s Verifyについて話を終える前に、その論文がGoogleの研究を引用していたことを忘れないでください。Let’s Verifyの周辺にいた他の主要な著者たちの何人かもAnthropicに移っています。だから、OpenAIだけがこれに取り組んでいるわけじゃないんです。確かに彼らは大きくリードしていますが、他の2つの研究所のどちらかが追いつく可能性は十分にあると思います。
この動画の初めの方で、より高い温度が創造的な思考の連鎖を生成するのに最適だと話したのを覚えていますか?それは2021年のOpenAIの論文で既に示唆されていました。11月2023年の動画で引用したこの段落を見てください。
「検証は、複数の高温解を抽出することから成り立っています」そして検証について続けています。
これがどこに向かっているのか不思議に思っているかもしれませんが、これが私がO1ファミリーのAPIが温度を1に保っている理由だと思う理由です。モデル自体がそれらの思考の連鎖を生成するのに使われ、そして正しい解決策でそのモデル自体がファインチューニングされたと思うんです。言い換えれば、モデルがそのように訓練されたので、温度を1に保つのが最適なんです。OpenAIは実際にそれを変更することを許可していません。
コメントで、私が何か発見したと思うかどうか教えてください。
とにかく、これらが事実でした。そしてホワイトハウスは確かにこれらすべてをとても真剩に受け止めています。彼らは今年初めにStrawberryとO1を見せられ、今では、AIデータセンターの開発を促進し、資金を提供することが、これらのプロジェクトがアメリカの国家安全保障と経済的利益にとって重要であることを反映していると説明しています。
少なくとも政府は信じ手です。でも、私たちはどうでしょうか?私はO1プレビューにとても感銘を受けました。あなたはどうですか?教えてください。
視聴ありがとうございました。AI Insidersでお会いできることを楽しみにしていますが、いずれにしても素晴らしい一日をお過ごしください。
コメント