
4,853 文字

新しいo1モデルは、全てのAIエージェント開発者にとって完全なゲームチェンジャーやねん。なんでこれがそんなにゲームチェンジャーなんかを本当に理解するには、まずダニエル・カーネマンの『ファスト&スロー』っちゅう私の大好きな本に書かれてる、システム1思考とシステム2思考について話さなあかんわ。
誰かと話してるときに、ほとんど努力せんでもええ感じがする、まるでこの状況を前に経験したことあるみたいな感覚あるやろ?それがシステム1思考や。速くて直感的な思考で、ほとんど努力せんでもええし、ほとんど制御せんでもええんや。既に認識してるパターンに基づいて、無意識のうちに働くんや。例えば、友達との会話みたいな、その場で話すときに使うんや。
一方、システム2思考はもっと意図的なもんや。もっと多くの精神的な努力、考慮、推論が必要やねん。これはスピーチの準備をしたり、問題解決したりするときに使うもんや。
でも、これがAIとどう関係あんねんて?数ヶ月前にChatGPTのエンジニアの一人、アンドレ・カーパシーが言うたように、大規模言語モデル(LLM)は今のところシステム1思考しかサポートしてへんのや。単に以前学習した馴染みのパターンに基づいてテキストを吐き出すだけで、何も考えてへんのや。
これが、今まで何か独創的なもんを思いつけんかったり、新しいもんを作り出せへんかった理由やねん。でも、OpenAIが今やったんは、大規模言語モデルにシステム2思考の要素を導入したことやねん。
今まで、AIエージェントが解決策を見つけられへんかったら、永遠にタスクをループし続けるか、人間に助けを求めなあかんかったんや。例えば、ブラウジングエージェントが有料の壁にぶち当たって、研究タスクで行き詰まることがあったんや。そんで、その有料の壁を避けようとして永遠にループし続けてしまうんや。もっと単純なアプローチは、ページを戻って別の検索をすることやねんけどな。
これが、うちのAIエージェンシーの複雑な非線形の多段階ワークフローで、ユーザーがこれらのエージェントを監督できるようにしてる理由やねん。幻覚を避けるために、ハードコードされた検証ロジックを追加するなど、他の方法もあるんやけどな。
でも、本当のゲームチェンジャーは、この新しいモデルで、これらのエージェントがついに自分で立ち止まって考えられるようになったことやねん。もうこれを心配せんでええようになったんや。
これは全てのAIエージェント開発者にとって大きな意味を持つんや。まず、McKinseyの2024年のAIの状況に関する調査で強調されてるように、企業がまだほとんどAIを業務に使ってへん主な理由は不正確さやねん。そして明らかに、不正確さへの恐れは、AIが望ましくないテキストを出力することやなくて、間違った推論から来てるんや。
AIが間違ってるかもしれへんって免責事項を追加することはいつでもできるし、Grok 2のおかげで、人々はついにインターネット上のものを信用せんようになってきたと思うわ。AIモデルだけやなくてな。
幻覚の最大の結果は、AIモデルがテキストを出力するだけやなくて、アクションを誤用したときに起こるんや。例えば、返金すべきやないときに顧客に返金してしまうと、もっと大きな問題を引き起こすんや。
これが、この新しいモデルが単に賢くなっただけやなくて、OpenAIが言うように、より安全になった理由やねん。
第二に、今までよりもはるかに複雑でオープンエンドなタスクをカバーできるようになったんや。うちのAIエージェンシーでの経験から言うと、o1モデルは基本的に、私たちのエージェントフレームワークでやってることをやってるんや。計画を立てたり、タスクを分解したり、さまざまな選択肢を探ったりするんやけど、今や複数のエージェントを自分で作って、プロンプトを与えたり、思考の連鎖パラメータを追加したりせんでも、この新しいモデルが最初から全部やってくれるんや。しかも、もっと上手にな。
そんで、エージェント作成プロセスがより信頼性が高くなっただけやなくて、より合理化されたんや。タスクを達成するのに必要なエージェントの数が少なくなり、プロンプティングや微調整も少なくなったんや。
じゃあ、これをどうやって実現したんか?理論的には結構シンプルなんや。文字通り「思考」を学習させただけやねん。話す前に考える方法をこれらのモデルに見せただけや。それだけや。でも実際はもっと高度なもんやろうな。
今のところ分かってることは、OpenAIが強化学習と思考の連鎖の合成データを組み合わせたことや。これによって、自分の思考を評価できるようになったんや。単に思考を出力するだけやなくて、自分の間違いを認識して修正したり、難しいステップをより簡単なものに分解したり、異なるアプローチを試したりすることを実際に学習するんや。
確実に言えるのは、思考の連鎖の学習データがここでの秘密のソースやってことや。だからOpenAIは今のところこれを非公開にしとるんやろな。
この日データをどう処理してるんかはまだはっきりしてへんけど、彼らが共有した数少ない例には「うーん」とか「面白い」みたいな言葉が含まれてるから、これは全部合成データやないと思うわ。
これは前に話した構造化出力みたいな単なる別の技術やないねん。これは完全に新しいAIのパラダイムなんや。
分かるやろ、今まで全てのAIモデルの計算量の99%は事前学習と事後学習に費やされてて、推論に使われるのは1%未満やったんや。今、OpenAIはこのパラダイムを大きく変えて、推論トークンに費やされる推論時の計算量を劇的に増やしたんや。
これが結果を大幅に改善することが示されてるんや。今年の他のモデルみたいに2%から5%の改善やなくて、一部のベンチマークでは、前のモデルと比べて8倍もパフォーマンスが向上してるんやで。
そして、これはGPT-5でもなければ、何か新しい種類のモデルでもないんや。我々の知る限り、GPT-4.0と同じ基礎モデルで、ただ新しい追加レイヤーが乗っかってるだけなんや。
でも一番ええのは、推論時の計算量を増やすにつれて、パフォーマンスもどんどん向上し続けてるように見えることやねん。これは間違いなく、OpenAIが正しい方向に向かってるってことを示してるし、推論モデルが次の大きなブレイクスルーになるってことを示してるんや。
ちなみに、今ChatGPTでこのモデルを使ってるなら、これはまだプレビュー版で、温度設定が1に設定されてるってことを覚えといてな。だから、Twitterで一部の人が、イチゴの質問に正しく答えられへんって投稿してるんや。うちのエージェンシーでは、推論タスクをする時は常に温度を最低でも0.3に設定してるんや。
OpenAIは意図的に不完全なプレビューモデルを最初にリリースしたんや。そうすることで、間違いを起こせるし、それを使ってさらに推論を改善できるからな。
もちろん、一定の制限もあるんや。最初の大きな制限は、このモデルがかなり高額やってことや。レスポンスを出力する前に大量の推論トークンを生成するから、かなり高くなるんや。そして、これらのトークンは入力トークンとしてやなくて、完了トークンとして課金されるんや。
それだけやなくて、出力トークン自体も前のバージョンの4倍も高いんや。全部合わせると、このモデルの総推論コストはGPT-4.0の約10倍になるんや。この価格設定やと、多くのユースケースで単純に採算が合わへんのや。
二つ目の制限は、レスポンスに時間がかかることや。考えるのに約10秒かかるから、電話のようなリアルタイムのアプリケーションは実現できへんかもしれへんな。
最後に、評価者はまだ個人的な文章や編集のような特定のタスクには標準的なGPTモデルを好むんや。だから、このモデルは主に複雑な問題解決や推論用に設計されてて、創造的なタスクには向いてへんのや。
全体的に見て、これらのモデルの制限が時間とともに進化して、異なるタイプのタスクを処理できるようになってるのは本当に面白いな。ちょうど、ある人は数学が得意で、別の人は創造的なタスクが得意なのと同じようにな。
だから、エージェントをデプロイするときは、すぐに適切な役割に適切なタイプのモデルを考慮せなあかんようになるやろな。
さて、問題は、いつ使うべきで、いつ使うべきやないかってことや。私の答えは、システム2思考を使うのと同じように使うってことや。時間的な制約が大きくない設計作業をエージェントにさせる必要があるときは、常にこのモデルを使うべきやな。
マネージャーやCEOの役割について考えてみてな。彼らは通常、残りのチームを導く必要があるから高給取りなんや。彼らは時々姿を消して、問題の範囲やプロジェクトについて本当に考え抜いて、それから他のチームメンバーに割り当てるタスクを持って戻ってくるんや。
彼ら自身はタスクを実行せえへん。それは非効率的やからな。高レベルの監督だけを提供するんや。チームメンバーが行き詰まったり、助けが必要になったりしたときだけ、飛び込んでさらなる指導を提供するんや。
これが基本的にDevinがやったことやねん。Devinのデモ動画を見たら分かるけど、Devinは複雑な問題を管理可能なステップに分解して、一つずつ実行してるんや。推論モデルがステップとアプローチを決定して、他の小さなモデルがコードを実装するんや。
希望的に言うと、このモデルがAssistant APIでリリースされたら、誰もが数日、あるいはもっと早く、あらゆる種類の役割に対して自分自身のDevinを作れるようになるやろな。
でも、それだけやないんや。これらのモデルを使って、エージェントを作成したり、その知識を処理したりするのを助けることもできるんや。それは次の動画で見せるわ。
これが将来にとってどういう意味を持つんか?o1モデルが画期的やと思ったんやったら、Orionが来るまで待ってな。OpenAIは、10分から20分、あるいはもっと長く、場合によっては何日もかけて問題を深く考え、ウェブブラウジングや他のツール、ファイルを使って必要な研究を行い、そして本当に新しい解決策を持って戻ってくるAIモデルに向かって進んでるんやと私は信じてるんや。
例えば、人類が数十年にわたって苦労してきた問題に取り組むことができるかもしれへん。これは最終的に知能の爆発的な成長につながるやろな。科学者たちがこれらのモデルを使って自分たちの研究を大幅に加速させるからな。
ああ、まいど!ここからが本当に面白くなってくるんや。AIエージェントにとって、この新しい推論能力を持つことで、同じ指示に従うだけやなく、自分のパフォーマンスを振り返り、改善が必要な領域を特定し、そして自分自身を調整することができるようになるんや。
この種の自己認識は、この新しいモデルで、今後数年間で指数関数的に自己改善するAIエージェントへの道を開くんや。アイデアと初期の指示だけから、常に自己改善し進化し続けるAIエージェントだけを使って作られたビジネスが出てくるのを見ることになるやろな。
でも、それだけやないんや。その間に、AIエージェントは単なるアシスタントから、ビジネスの全ての重要な決定における戦略的なパートナーになるんや。会社のデータを一度に全て分析して、自分では絶対に予見できへんかったような戦略的な洞察を提供してくれるようになるんや。
もちろん、これは企業の採用を大幅に増やすことにもつながるやろな。今まで不正確さのために慎重やった企業が、ついにこれらの新しいモデルを十分に信頼できると感じるかもしれへんからな。
o1モデルに関する動画はこれからもっと出てくるで。見逃したくないなら、チャンネル登録を忘れんといてな。
コメント