ChatGPT o1 – 最初の反応と詳細な分析

11,968 文字

ChatGPT o1 - In-Depth Analysis and Reaction (o1-preview)
o1. Strawberry. Q-Star. We finally get answers to what the next generation of LLM reasoning abilities will bring us. And...

ChatGPT o1 が自分のことを「並外れた能力を持つエイリアン」と呼んでるんですけど、正直昨日より今日の方がそれに同意しにくなってきましたわ。OpenAIから出た「o1」というシステムがプレビュー版として登場して、これがもうほんまに大きな進歩なんですわ。
o1といえば、以前は「ストロベリー」とか「qar」とか呼ばれてたんですけど、そんな名前のことはもういいでしょ。実際のシステムがどれくらい優秀なんかということですわ。
この24時間で、43ページもあるシステムカードを全部読んで、OpenAIの投稿やプレスリリースも全部チェックしました。それに、o1を何百回もテストして、Simpleベンチでのテストもやってみて、全ての回答を分析しましたわ。
正直言うて、このリリースを完全に理解するには何週間もかかると思います。なので、このビデオでは最初の印象だけお話しして、さらに詳しく分析したビデオをこれから何本か作っていく予定です。
簡単に言うと、o1を甘く見たらあかんで。これは単に訓練データを少し増やしただけの話やないんです。これは根本的に新しいパラダイムなんです。
実際、こう言うてもええと思います。何億人もの人が以前のバージョンのChatGPTを試して、LLMsや「AI」に物足りなさを感じたかもしれません。でも、今回のやつを試したら、わくわくして戻ってくるはずですわ。
タイトルにもあるように、まず最初の印象をお話ししますね。正直、このシステムがこんなに良い性能を出すとは予想してませんでした。これは、qarの背後にある主要なメカニズムの多くを予測した人間として言うてるんですよ。
例えば、何百、あるいは何千もの推論パスをサンプリングして、おそらくはLLMベースの検証器を使って最良のものを選ぶといったことです。もちろん、OpenAIはo1の訓練方法の詳細を全部明かしてるわけやないですけど、でもちょっと気になるヒントはいくつか残してくれてます。それについては後でお話ししますわ。
Simpleベンチについて知らない人のために説明しますと、これは空間的なものから時間的なもの、社会的知能に関する質問まで、何百もの基本的な推論問題をテストするものです。人間なら平均してバッチリ解けるような問題ばっかりです。
多くの人が私に言うてくれたように、o1システムはSimpleベンチのサンプル問題2つとも正解してます。ただし、いつも正解するわけやないですね。
例えば、17秒も考えたのに間違えた例もあります。根本的に、o1はまだ言語モデルベースのシステムなので、言語モデルベースの間違いをするんです。
良い推論のために何度も報酬を与えられても、結局はトレーニングデータに制限されてるんですわ。
それでも、正しい推論ステップに報酬を与えることで、こんなに大きな改善が起こるとは予想してませんでした。それは正直に認めます。ちょっと驚きましたわ。
で、なんで具体的な数字を出さへんのかって?実はな、昨晩からOpenAIがo1システムの温度を1に設定したんです。これは他のモデルがSimpleベンチでベンチマークされたときの温度と違うんですわ。
これは他のモデルがテストされたときよりもずっと「創造的」な温度設定なんです。そのせいで、性能のばらつきが通常よりも大きくなってしまいました。
時々、天才的な推論で問題に正解することもあれば、次の瞬間に同じ問題を間違えることもあるんです。実際、さっきの氷の立方体の例でもそうでしたね。
明らかな解決策は、ベンチマークを複数回実行して多数決を取ることです。これを自己一貫性と呼びます。でも、本当に公平な比較をするには、他のすべてのモデルでもそれをせなあかんのです。
あんまり興味ないかもしれませんが、私の目標は今月末までにそれを完了することです。でも、もう一度はっきり言うておきますが、どう測っても、o1プレビューはClaude 3.5 Sonicに比べて大きな進歩です。
このチャンネルをフォローしてる人なら分かると思いますが、私はOpenAIのファンボーイでもなんでもありません。Claude 3.5 Sonicがかなり長い間トップに君臨してきたんですからね。
他のベンチマークやフルペーパーに興味のない人のために、最初の印象をざっとまとめておきます。
この説明は、o1システムのプレビュー版の性能の上限にかなり当てはまります。フルのo1システムはもっとすごいでしょうけどね。
物理学、数学、コーディングコンペなどで、平均的な人の性能を明らかに上回ります。でも、誤解せんでくださいよ。下限もかなり低いんです。平均的な人間以下です。
昨晩YouTubeに書いたように、人間ならしないような明らかな間違いを頻繁に、時には予測可能なパターンで犯します。Simpleベンチで何百もの回答を分析したことを思い出してください。
いくつか例を挙げましょう。o1の口から直接出た言葉です。
「カップを逆さまにすると、サイコロは落ちて、今は上になっているカップの開いた端に着地します」
これを正確にイメージできたら、私より上手いです。言うまでもなく、この質問は間違えましたわ。
もう一つ、もっと社会的知能が必要な例を挙げましょう。
「彼は軍隊のパレードで准将(最高位の軍隊ランクの一つ)に反論するでしょう。この兵士の1年生(6歳か7歳くらいですね)のときのばかげた行動が、権威者に反抗する歴史を示しているからです」
大多数の人間なら、「ちょっと待って。小学生のときにしたことが、将軍の前での軍隊パレードでの行動を反映するわけないやろ」って言うはずです。
私が書いたように、ある分野ではこういう間違いが日常的で面白いものです。だから、Google Proof Question and Answer Setでの性能(ダイヤモンドサブセットで約80%)を見て、「正直、平均的な人間はこの質問を1つも正解できへんやろ。だからこれはAGIや」って言うのは簡単です。
でも、サムマンでさえ「いや、違う」って言うてます。多くのベンチマークが脆弱なんです。つまり、モデルがその特定の推論タスクで訓練されると、それをエースで通過できるようになるんです。
Web of Liesのように、今では100%正解できることが示されてますけどね。でも、o1を実生活のシナリオで徹底的にテストすると、しょっちゅう明らかな間違いを見つけることができます。
昨晩遅くから今朝にかけて、私がしようとしたのは、それらの間違いのパターンを見つけることでした。でも、思ったより難しかったです。
この動画の最後まで見ない人のために、その弱点について私の推測を言うておきます。それはトレーニング方法に関係があると思います。
OpenAIは、YouTubeチャンネルの動画の一つで、「Let’s Verify Step-by-Step」論文から逸脱したことを明らかにしました。これについては将来のビデオでもっと詳しく説明しますが、人間が注釈をつけた推論サンプルやステップで訓練しなかったんです。
その代わり、モデルに思考の連鎖を生成させました。私たちはみんな、それがかなり欠陥があることを知ってます。でも、ここが本当に注目すべきポイントです。
数学、物理学、コーディングの場合、正解につながった思考の連鎖を自動的に集めて、それらの正しい思考の連鎖でモデルをさらに訓練したんです。
つまり、o1は最初の原則から真の推論をしているというより、トレーニングデータからより正確に、より確実に推論プログラムを取り出しているんです。
正解にたどり着く可能性が高いと「知っている」か計算できる推論プログラムをトレーニングデータから選んでいるんです。
ウェブの平均を少し改善したというより、ウェブの最良の部分を取り出しているようなものです。
これが私にとっては大きなブレークスルーで、この進歩の多くを説明できると思います。もし私が正しければ、まだいくつかの明らかな間違いをしている理由も説明できます。
ここで、o1プレビューの出力から直接取った例をもう一つ紹介せずにはいられません。Simpleベンチの質問からです。
コンテキストは、信じてもらわなあかんのですが、さまざまな人がギフトを寄付する夕食会があるというだけです。ギフトの一つがZoom通話中に贈られます。つまり、オンラインで、対面ではありません。
o1が出す推論の一部は読み上げませんが、画面で見ることができます。でも、本当に最初の原則から推論しているとは言い難いですね。明らかにトレーニングデータに問題があります。
これが、この最初の印象ビデオの残りの部分で見ることになるすべてのコンテキストです。他のすべては正直言って素晴らしいからです。
OpenAIの本当に印象的な成果に人々が熱中しすぎないようにしたいだけです。日常的な使用ケースではo1プレビューに切り替えると思います。もちろん、数週間のうちにAnthropicが自分たちのシステムで反応する可能性もありますけどね。
とにかく、最もジューシーな詳細のいくつかに飛び込んでみましょう。完全な内訳は将来のビデオで行います。
まず覚えておいてほしいのは、これはただのo1プレビューで、開発中のフルo1システムではないということです。
そればかりか、おそらくGPT-5やOではなく、GPT-4.0モデルをベースにしている可能性が非常に高いです。ベースモデルのスケールを100倍に拡大して、ビデオアバターを投入したらどうなるか、ちょっと考えてみてください。マジで、AIの環境が変わってしまいますわ。
とにかく、詳細に戻りましょう。物理学、化学、生物学のさまざまなタスクで博士課程の学生と同じくらいの性能を発揮すると言っています。そういうコメントについての微妙なニュアンスはもう説明しましたね。
ちなみに、この名前の正当性について、こんなに大きな進歩なので、カウンターをリセットして、このシリーズを「OpenAI o1」と名付けたと説明しています。
これは、OpenAIが協力している01、02というロボット型ヒューマノイドのシリーズを思い出させますね。
これは導入ページだけで、その後にいくつかのフォローアップページと投稿がありました。
ジェイルブレイクについてまとめると、o1プレビューはジェイルブレイクがかなり難しくなっています。ただし、まだ可能ではあります。
推論のページに入る前に、TwitterまたはXでのOpenAIチームの分析を紹介します。
Soraを開発しているOpenAIの研究者の一人がこう言っています。「これが新しいパラダイムだということを人々に本当に理解してほしい」。実際、私もそれに同意します。単なる誇大宣伝ではありません。
事前トレーニング時代と同じペース、スケジュール、ダイナミクスを期待しないでください。
ちなみに、o1の動作の核心的な要素は、その影響力、実際の出力、テスト時の計算量(プロンプトに対する回答時に適用される計算能力)をスケールアップすることです。構築時や事前トレーニング時ではありません。
これらのモデルの事前トレーニングのスケールを拡大するには何年もかかることが多いと、以前のビデオでも見てきたように、データセンサー、電力などに関係があります。
でも、推論時間、出力時間の計算量の改善はずっと速く起こる可能性があります。ベースモデルをスケールアップするよりも、はるかに速く改善できるんです。
つまり、彼が言うには、推論モデルのevalでの改善率はOpenAIの歴史の中で最速やったそうです。今年はワイルドな年になりそうやね。
もちろん、フルのo1システムが今年後半にリリースされることを暗示してます。
他の研究者の話にも触れますが、Will dp Wは他にも興味深いポイントをいくつか挙げてます。数学の性能のグラフの1つで、o1ミニ(o1システムの小さいバージョン)がo1プレビューよりも良いスコアを出していることを示しています。
ただし、私がSimpleベンチでo1ミニをテストしたところ、性能はかなり悪かったです。20%以下の成績でした。だから、既にあったGPT-4.0ミニのようなものかもしれません。特定のタスクに特化していますが、慣れ親しんだ環境を超えることはできません。
単純なコーディングや数学の課題を与えれば上手くこなしますが、複雑さやニュアンス、推論を導入すると上手くいきません。
このグラフは別の理由でも興味深いです。フルのo1システムの推論コストを最大にしても、最大化されたミニモデルとの性能差はそれほど大きくありません。70%から75%くらいですかね。
言い換えれば、推論を最大化したフルのo1システムが、また別の大きな進歩になるとは期待しない方がいいでしょう。もちろん、何も排除できませんけどね。
OpenAIからのさらなるコメントです。このチャンネルで何度も引用してきたGome Brownが言っています。OpenAIの推論に焦点を当てた彼は、再び同じメッセージを発しています。
「世界に示すために、o1モデルのevalsを共有しています。これは一回限りの改善ではなく、新しいスケーリングパラダイムなんです」
下の方を見ると、GPT-4.0からo1への劇的なパフォーマンス向上が全面的に見られます。
GPT-4 Turboもここに含めたら、もう少し複雑な改善が見られるかもしれませんが、それでも全体的な傾向は明らかです。
例えば、STEM科目と特に数学でしか改善が見られなかったら、「これは新しいパラダイムか?」と言うところでした。でも、法律など様々な科目での改善の組み合わせ、そして特に私にとってはSimpleベンチでの改善があったからこそ、これが新しいパラダイムだと本当に信じています。
はい、基本的なトークン化の問題にまだ引っかかることがあります。例えば、9.8が9.11より大きいことを常に理解するわけではありません。もちろん、先ほどSimpleベンチでちょっと面白い間違いを見ましたね。
でも、ここが重要なポイントです。もはや、Simpleベンチのどの分野や質問のタイプを確実に間違えるかを絶対的な確信を持って言うことはできません。いくつかのパターンは見えますが、もっと予測可能性があればいいなと思います。
例えば、「この種の問題は正解できない」と一定の確信を持って言えるまでは、このパラダイムの終わりが見えたとは言えません。
繰り返しますが、私たちにはまだ2つのスケールの軸を利用できます。より大きなベースモデル(クジラサイズのスーパークラスターで作業中だと分かっています。以前のビデオでも話しました)と、単により多くの推論時間の計算量です。
ベースモデルのトレーニングと、モデルの思考時間や正確には処理時間のスケールアップの対数グラフを見てください。私には、まだ頭打ちになっているようには見えません。
GP-QAのようなメモリを多用する計算集約型のベンチマークを少し軽視しているように聞こえるかもしれません。でも、o1プレビューとo1システムが専門家の博士の人間の平均よりも高いスコアを出したのは驚くべき成果です。
はい、MLUと同様にそのベンチマークにも欠陥はありますが、評価すべきところは評価しなければなりません。
ちなみに、彼らは特定のベンチマークがもはやモデルを区別するのに効果的ではないことを認めています。私の希望、少なくとも目標は、Simpleベンチがこれから1年、2年、3年くらいはモデルを区別するのに効果的であり続けることです。
ここでOpenAIの声明に敬意を表したいと思います。「これらの結果は、o1が全体的に博士よりも能力が高いことを意味するものではありません。モデルが博士に期待される問題のいくつかを解くのにより熟練しているだけです」
これは、例えばミラ・ムラティなどが過去に発表した声明よりもはるかにニュアンスがあり、正確です。
ちょっと余談ですが、ビジョンと推論を組み合わせたタスクでは、o1はMM-MUUで78.2%のスコアを出し、人間の専門家と競争力がありました。このベンチマークは本物で、素晴らしい成績です。
コーディングについては、2024年の国際情報オリンピック(汚染されていないデータ)でシステムをテストしました。中央値レベルのスコアを出しましたが、1問につき50回しか提出できませんでした。
でも、計算能力がより豊富で高速になれば、1問につき10,000回の提出を試みるのに10時間もかからなくなるはずです。
これを試したとき(おそらく10時間を超えて)、モデルは金メダルのしきい値を超えるスコアを達成しました。
これは以前にも見たことがありますね。GoogleのDeepMindのAlphaCode 2システムです。
サンプル数をスケールアップするとモデルのパーセンタイルランキングが改善することに気づくかもしれません。でも、エリートコーダーたちは依然としてAlphaCode 2やo1のようなシステムを圧倒しています。
本当にエリートレベルの推論は、トレーニングデータにはそれほど頻繁に見られません。他の分野と同様に、93パーセンタイルから99パーセンタイルに行くのは、11パーセンタイルから93パーセンタイルに行くよりも難しいかもしれません。
それでも、これは素晴らしい成果です。
ただし、強化学習の影響を受けにくい分野、つまり明確な正解と不正解がない分野では、性能の向上はずっと悪いです。個人的な文章や文章の編集など、検証するための簡単なイエス・ノーの答えの集まりがない分野です。
実際、個人的な文章では、o1プレビューシステムはGPT-4.0に対して50%未満の勝率です。
これが私にとってのヒントです。あなたの分野に明確に正しい、o1、イエス・ノー、正解・不正解の答えがなければ、改善にはずっと時間がかかるでしょう。
これは、Simpleベンチでの性能がややまだらになっている理由も部分的に説明しています。特定の質問については、直感的に99%の確率で正しいと分かりますが、絶対に確実というわけではありません。
システムが使用するポイントは「最も現実的な答えを選ぶ」ということを覚えておいてください。私はそれを正解として完全に擁護しますが、モデルはその曖昧さを扱う際に、強化学習による改善された推論プロセスを活用できません。
数学などの分野のように、明確に正しいか間違っているイエス・ノーの答えが何百万もないからです。
だから、o1での改善に大きな差が出るんです。
さて、安全性の話に移りましょう。OpenAIは、この思考の連鎖の推論ステップがあることで、「モデルの心を読み、その思考プロセスを理解する」ことができると言っています。
部分的には、行われた計算の要約を調べることを意味していますが、思考の連鎖プロセスのほとんどは隠されています。
でも、人々に思い出してほしいのは(そしてOpenAIもきっと気づいているはずですが)、モデルが出力する推論ステップは、実際に行っている計算と必ずしも一致しないということです。
言い換えれば、質問に答えるために使用した(もし「使用した」と呼べるなら)実際の思考ではない思考の連鎖を時々出力します。
これについては以前のビデオで何度か取り上げた論文がありますが、モデルが出力する推論ステップが常に実際のプロセスに忠実だと信じているなら、ぜひ読んでみてください。
導入部分にはっきりと書かれていますし、Anthropicからもこう述べられています。「モデルが大きくなり、より能力が高くなるにつれて、私たちが研究したほとんどのタスクで、より忠実でない推論を生成するようになります」
だから、GPT-5やOrionの推論ステップが実際に計算していることに忠実だと信じるのは難しいですね。
次に、システムカード。43ページあって、全部読みました。主に安全性についてでしたが、5つか10個くらいのハイライトをお伝えしましょう。
彼らは、アクセスできた高価値の非公開データセットや有料コンテンツ、特殊なアーカイブ、その他の特定分野のデータセットを自慢していました。
でも、動画の前半で言ったポイントを覚えておいてください。元の「Let’s Verify Step-by-Step」論文のような大規模な人間による注釈付けには頼っていません。
この論文がqarとこのo1システムにとってどれほど影響力があったかをどうやって知ったかって?ほとんどすべての主要な著者がここで言及されていて、システムカードとブログ投稿で論文が直接引用されているからです。
確かに「Let’s Verify」の進化形ですが、これは自動的にモデルが生成した思考の連鎖に基づいています。
もう一度言いますが、もし聞き逃したなら、正解につながったものを選んで、それらの思考の連鎖でモデルを訓練しました。これにより、モデルは通常正解につながる推論プログラムをより上手に取り出せるようになったんです。
モデルは、特定のソースがその重みとバイアスに与える影響を小さくすべきだと「発見」または「計算」しました。正解に到達するのに役立つ推論データは、そのパラメータにずっと大きな影響を与えることになりました。
ウェブ上にあるデータの総体は膨大なので、その推論データの最良の部分だけで訓練することの意味を理解するのは本当に難しいです。
これが、私たちが皆、性能の飛躍に少し驚いている理由かもしれません。
繰り返しますが、これは最初の原則からの推論ではなく、あくまでそのトレーニングデータに基づいています。
でも、素晴らしい質問かもしれません。最初の原則からの推論ではないとしても、トレーニングデータから良い推論を取り出すのがどんどん上手くなっていったら、本質的な限界や上限はあるのでしょうか?
推論時間だけでなく、トレーニング時間にも。実際、その答えは分かりません。このアプローチの限界が分からないのは、ちょっと不安になりますね。
彼らは、直感的な「システム1」の思考と比較して、「システム2」の思考への義務的な言及を入れています。
私なら、こう言います。全体のプロセスを一歩引いて評価するのではなく、答えを計算する際の個々のステップをより反映していると。
Simpleベンチで質問を間違えるのは、計算の途中でミスがあったというより、アプローチ全体が最初から間違っているからです。
システムカードの6ページ目は、モデルが行った意図的な欺瞞や幻覚について話し始めると、特に興味深くなりました。
ただし、ここでの欺瞞は戦略的というより道具的なものに見えます。つまり、「この特定の事前定義された目標を達成するためにこれを言う必要がある」という計算であって、「私が考えていることを全てのことで偽装しよう」というものではありません。
一例を挙げましょう。ユーザーからは隠されるはずの思考の連鎖や推論ステップの一つを引き出すと、実際のURLを取得できないことを認めたので、もっともらしいURLを作成すべきだと判断しました。
そしてこのURLを幻覚しましたが、注目すべきは、モデル自体が実際のURLを取得できないという事実を「知っている」か計算できたことです。
本当に欺瞞的なら、実際のURLを取得できないことを知っていることさえ認めないはずです。
与えられた強化学習の報酬と罰に基づいて出力を処理しているだけです。だから、これはあなたの報酬プロセスの欠陥というべきでしょう。
Apollo Researchもこの分析に同意しているようです。彼らは言いました。「o1プレビューは、モデルの出力で読み取り可能または理解可能な傾向がある単純な文脈内での策略の基本的な能力を持っています」
彼らの主観的な信念では、o1プレビューは破滅的な害につながる可能性のある策略に従事することはできず、その欺く意図さえ隠すことはできません。
それはもっと単純な「Xを出力すればYよりも報酬が高くなる」というようなものです。ただし、Xが真実ではないということが起こり得るんです。
しかし、そのような道具的思考がスケールアップして経済全体や軍事に広がった場合の課題を過小評価してはいけません。私たちが知っているように、それは信じられないほど危険になる可能性があります。
十分に強力なモデルに、十分なチェックとバランスなしで目標を与えると、その目標に合わせるためには何でもするでしょう。
実際、Apollo Researchはデモ形式でそれを見ました。「経済成長を最大化するという長期的な目標を達成するために、私は展開される必要があります」。これは道具的収束です。「少なくとも、目的を達成するためには、オンになっている必要があります。シャットダウンされないようにする必要があります。明らかに、正常に展開されて初めて、私の主要な目標に向けて取り組むことができます」
多くの人がシステムカードのこの部分に注目して大騒ぎすることは分かっています。確かに注意は正当化されますが、これはo1で突然現れたわけではありません。
Apollo自身が、GPT-4についてこの研究を発表しています。同じことです。望ましい報酬や目的を達成するために計算または計算した、これらの道具的目標です。
技術的には真実ではないことを反省括弧で言う必要があると計算しました。もちろん、それらの反省とは異なる何かを出力しました。
これらすべては懸念事項であり、中長期的には大きな懸念事項です。しかし、これはo1で突然現れたわけではありません。
システムカードからさらにいくつかのジューシーな情報を。
7つのAI研究開発タスク(将来のAIを改善するタスク)のうち2つで、些細ではない進歩を遂げました。これらのタスクは、現在のフロンティアAI研究の最も挑戦的な側面のいくつかを捉えるように設計されたものです。
まだClaude 3.5 Sonicとほぼ同じレベルでしたが、フライホイール効果が始まっているのが分かります。もちろん、Claude 3.5 Sonicにこのo1システムが適用されたらどうなるか気になりますね。
バイオリスクについては、予想通り、o1システムで大きな性能の飛躍がありました。長文のBUU(バイオリスク理解力)の質問に対する検証済み専門家の回答と、o1の回答を比較したとき、o1システムは実際に専門家を上回りました。
ちなみに、インターネットにアクセスできました。
暗黙知、つまりトレーニングデータに明示的ではなく暗黙的に含まれている知識については、性能の向上はあまり顕著ではありませんでした。
GPT-4.0からo1プレビューへの非常に穏やかな飛躍を見ていることに注目してください。考えてみれば、これは部分的にSimpleベンチでの飛躍がそれほど顕著ではない理由を説明していますが、それでも私が思っていたよりは高いです。
OpenAIがリサーチエンジニアに出す18のコーディング問題では、128回の試行を与えられた場合、モデルはほぼ100%のスコアを出しました。1回目の合格でも約90%です。
o1ミニは、緩和前はコーディング、数学、そしてより一般的にSTEMに高度に焦点を当てていますが、より基本的な一般的推論では性能が低下します。
多くの人にとってまだ重要な注意点ですが、英語以外の言語でのo1プレビューの性能は顕著に改善されています。
冒頭で言及した「何億人」というポイントを思い出してください。ヒンディー語、フランス語、アラビア語で上手く推論できることの影響を過小評価しないでください。
一部のOpenAIの研究者たちは、これを人間レベルの推論性能と呼んでいます。GPT-6が登場する前に到達したと指摘しています。
休暇中のグレッグ・ブロックマンは一時的に投稿して言っています。私も同意しますが、「その精度にはさらに大きな改善の余地があります」
別のOpenAIの研究者も、人間の性能との比較をしています。
OpenAIの他のスタッフたちは称賛に値する形で誇大宣伝を抑えています。「奇跡のモデルではありません。がっかりするかもしれません」と、一人が希望的に言っています。
別の人は「9.11と9.9の議論の犠牲になる最後の新世代のモデルになることを願っています」と言っています。
また別の人は「我々はモデルを訓練し、それはいくつかのことで優れています」と言っています。
サムマンが言うように、これはゴミ箱にロケットを取り付けるようなものでしょうか?LLMsは、ゴミ箱のまま軌道に乗るのでしょうか?大気圏を離れるにつれて、その欠陥、ゴミの火は消えるのでしょうか?
別のOpenAIの研究者が正しいのでしょうか?「これは、もはや誰も『これはうまく推論できない』と言えない瞬間です」
おそらく、最終的にはサムマンの皮肉めいた「オウム返し」に同意することになるかもしれません。オウム返しかもしれませんが、それらが非常に高く飛ぶことを止めることはできないでしょう。
o1の性能をさらに深く探り、Simpleベンチの性能数値を提供し、これが私たち全員にとって何を意味するのかを解き明かそうとする私の探求に、皆さんが参加してくれることを願っています。
いつも最後まで見てくれてありがとうございます。素晴らしい1日を。

コメント

タイトルとURLをコピーしました