
1,891 文字

誰が想像したでしょうか。AGIに到達した時に最初に気付くのは、それがいかに役に立たないかということだとは。要するに、OpenAIは地球に核爆弾を投下し、みんながそれを喜んでいるのです。OpenAIの最新モデルo3は、数十年持続するように設計されたベンチマークを粉砕し、認知タスクで人間の専門家のパフォーマンスを凌駕し、そして最も重要なことに、これらのAIの賢さには天井がないことを再び示しました。彼らは既に私より賢いのです。そして私はかなり賢いのです。
何が起こったのか簡単に振り返ってみましょう。OpenAIは思考連鎖推論に基づく新しいモデルo3を導入しました。このAIは我々凡人との競争すら気にしません。なぜなら我々には勝ち目がないからです。高校数学の代わりに、o3は地球上で最も困難な数学の問題に挑戦しました。これは現在、最も困難な数学のベンチマークとされています。プロの数学者でも1問解くのに何時間も、場合によっては何日もかかるような問題です。
競技プログラミングでは、o3は現在世界で175位の最高スコアを保持しています。まあ、それは競技プログラミングであって実際のコーディングではありませんが。英国人らしい言い方ですね。私たちにはSベンチがあります。このベンチマークは実際のソフトウェアエンジニアが直面する本物の問題をテストしますが、o3は71%のスコアを記録しました。私たちが最近リリースしたSonnet 3.5の新バージョンでは、Sベンチで約50%のスコアを獲得しています。年初めの時点では最先端の技術でも3〜4%程度だったと思います。
では、なぜ役に立たないのでしょうか?GPTモデルでのAIの動作を見る必要があります。AIは本質的に言葉を吐き出します。これらの言葉は文脈の中で関連性があり、文、段落、全体の文書の中で意味をなしますが、AI自体は次の言葉が何になるかを、そこに到達するまで知りません。私たちの頭に突然浮かぶ衝動的な考えのようなものです。もし私たちがGPTだったら、橋から飛び降りたり、大きな男の後頭部を平手打ちしたりすることになるでしょう。
しかし、新しいモデルは異なる考え方をします。OpenAIのコンピュータの中で同じような言葉を吐き出し、それから「これは私が言いたいことなのか?」と立ち止まって考えます。実際、それはもっと深いものです。oシリーズは単なる言葉だけでなく、思考の連鎖を生成し、どの連鎖が最も有望かを判断します。チェスをするようなものです。後の展開は実際にはわかりませんが、ある時点で合理的な手の連鎖を見て、最も有望なものを追求します。これは私たちの思考方法にずっと近いように思えます。
しかし、問題が見えますよね?モデルは各回答に対して何万もの選択肢を検討する可能性があります。それらの選択肢はすべて生成され、支払われなければなりません。そしてそれは高額です。どれくらい高額なのでしょうか?
この発表で最も印象的なベンチマークであるArk AGIを見てみましょう。これは訓練データに含まれていない新しいテストのシリーズで、したがってそれを克服するには推論が必要です。参考までに、これらの課題は人間にとってはかなり簡単です。平均的な人は約85%のスコアを獲得し、oシリーズまでどのAIも近づくことすらできませんでした。そこで突然o3が平均的な人間を上回ったことは、非常に大きな出来事です。これは間違いなく推論であり、もはや統計的なごまかしではありません。
しかし、これは地獄のように使い物にならないものです。OpenAIは各質問に対して計算コストとして3,000〜4,000ドルを支払わなければなりませんでした。ちなみに、私は現在仕事を探しています。もし「はい、その濃い青の四角はその空いているスペースに入ります」と言って4,000ドル稼げる求人をご存知でしたら、コメントで教えてください。
私にとって最大のニュースは、このベンチマークでした。o3 miniは数学の競技で競争力があり、o1 miniより安価で、GPT 4oとほぼ同じ速さです。それは凄いことです。また、セキュリティテストに数ヶ月かかるとしても、今すぐに一般に使用できる可能性があるものです。o3 miniは初日から実用的であり、o3の現在の非実用性にもかかわらず、すぐにより安価でアクセスしやすくなる現実的な道筋があることを示しています。
私はPuyaです。兵役を終えたばかりで、完全に戻ってきました。もしビデオが気に入ったら、下のボタンをすべて押してください。本当に助かります。
コメント