

OpenAIはGPT-4o miniをリリースしましたが、誰も気にしませんでした。おそらくOpenAIがこれまでリリースした中で、少なくともChatGPTの成功以来、最も盛り上がりに欠けるモデルだったでしょう。しかし、同じ過ちを犯さないでください。なぜなら、GPT-4o miniはかなり強力だからです。
OpenAIの従業員の一人が言っています。人々は、即座にAGIになるわけではない、あるいはフロンティアの能力を向上させるわけではないモデルのリリースに怒ります。基本的に、大きな飛躍がなければ重要ではないと考えるのです。しかし、彼は言います。ちょっと考えてみてください。なぜこれが作られたのか、この研究成果がどのようにして生まれたのか、それは何への道筋なのか、と。
ある人が彼に返信して言いました。数ヶ月前のトップティアモデルと同じくらい優れた、はるかに小さく安いモデルを作ったんですね。ふーむ、そのアルゴリズムの改良で何をしているんですか?
サム・アルトマンは「知能、メーター計測するには安すぎる」と投稿しました。入力トークン100万個あたり15セント、出力トークン100万個あたり60セント、MLUは82%で高速です。最も重要なのは、人々が新しいモデルを本当に本当に気に入ると思うことです。
一般的に、新製品が出てくると、私たちはそれがはるかに優れていて、より多くの機能があり、より多くのクールな要素があり、ただ単により大きく、より良くなることを期待します。何かが出てきて、それがより安く、少し速くて、クールで良いものだとしても、私たちはそれほど盛り上がりません。
このチャンネルで以前言及したように、マイクロソフトやグーグル、様々な大学が発表する論文をどんどん読んでいくと、非常に明白な傾向やパターンに気づきます。それは、彼らが研究しているアイデアが、6ヶ月後、12ヶ月後に製品として具体化された形で登場する傾向があるということです。
多くの研究論文が示唆しているのは、小さくすることが実際には大きな飛躍になる可能性があるということです。数週間前に紹介したルートLLMと呼ばれるものがあります。これは、クエリを強力なモデルと、より安価で高速だが能力の低いモデルのどちらかにルーティングするよう訓練されたモデルで、非常に効果的でした。研究者たちは、この場合GPT-4のパフォーマンスの95%を達成しながら、一部のテストで85%以上のコスト削減を確認しました。
マイクロソフトの研究から、Orca 2というモデルが作られました。Orca 2は良い成績を収めました。この青い線は、Llamaなどの他のものとどのように比較されるかを示しています。例えば、この濃い緑の線はLlama 2の700億パラメータモデルです。Orca 2はそれと同等で、一部のテストではかなり優れた成績を収めています。
興味深いのは、Orca 2が少なくとも10倍大きなモデルと同等かそれ以上のパフォーマンスレベルを達成し、より小さなモデルにより優れた推論能力を与える可能性を示したことです。濃い緑の線のLモデルは700億パラメータで、Orcaモデルは70億パラメータ、10倍小さいのです。
さて、あなたは「そうだけど、小さいってどういう意味があるの?」と言うかもしれません。グーグルや中国の研究者たち(テンセントもその一つだと思います)、そして他の多くの研究者による多数の論文があり、それらはほぼ同じことを示しています。つまり、複数のエージェントが協力して働く、あるいはGPT-4の複数のインスタンスが互いにやり取りすることで、はるかに良い結果が生まれるということです。
彼らはこれを時々「知能の社会」と呼んでいます。彼らの発見は、このような「知能の社会」アプローチが、LMの能力を大幅に向上させ、言語生成と理解におけるさらなるブレークスルーへの道を開く可能性があることを示唆しています。
ここで見られるように、青は単一のエージェントです。つまり、1つのChatGPTが質問に答えようとしているようなものです。カテゴリーは伝記、MMLU、チェスの手の妥当性などです。マルチエージェントディベートは、アイデアを別のGPT-4モデル、自分自身と同じモデルにぶつけているようなものです。私たちはモデルを混ぜたり合わせたりしているのではなく、単にアイデアを別のコピーと照らし合わせて検証しているだけです。ご覧のように、結果ははるかに良くなっています。
非常に興味深い2つのグラフがあります。左側には、数学の正確さとディベートに参加するエージェントの数の関係が示されています。ご覧のように、数学を行う能力、その正確さは、ディベートにエージェントを追加し続けると向上します。「二人の頭脳は一人よりも優れている」という言葉を聞いたことがあるでしょう。それをかなりよく示しています。
ここで見られるように、1つのモデルが最低スコアで、1つ追加するとかなり大きく正確さが向上し、それが続きます。私が見た他の論文では、ある時点でプラトーに達します。無限の数のエージェントや10億のエージェントがあれば、はるかに良くなるわけではありません。プラトーに達しますが、ある数まではずっと改善し続けます。
しかし、ディベートのラウンド数も回答を改善します。例えば、この場合、1ラウンドのディベートから2ラウンド、3ラウンドへと大きな飛躍があり、その後プラトーに達するようです。しかし、3ラウンドの堅実なディベートを行うことで、数学の正確さが劇的に向上するようです。
この研究を覚えていますか?「Generative Agents: Interactive Simulacra of Human Behavior」。これは小さなChatGPTが走り回る小さな町でした。この小さなアバターで表現される各キャラクターは、それぞれが独自のChatGPT、具体的には当時利用可能な最高のモデルであるGPT-4のインスタンスでした。
この論文では、OpenAIのAPIに非常に高額な請求書が発生しました。キャラクターが考えた思考や発した文章の一つ一つに対して、APIを通じてそのモデルを使用するために支払わなければならなかったからです。
25のエージェントがいて、ChatGPTはダイアログを作成しただけでなく、彼らの内なる思考も作成しました。その小さな世界で起こる出来事の一つ一つが記憶として保存され、各キャラクターは記憶のストリームを持ち、すべての記憶を振り返り、その重要性を評価しました。
すでに知っている人に挨拶をした場合、それは非常に重要性が低くなります。歯磨き粉がなくなったことに気づいた場合、それは中程度の重要性になります。そして、何か人生の劇的な出来事が起こった場合、それは非常に重要な記憶として保存されます。
これにより、彼らは人生を振り返り、最も重要な記憶を分析して、特定の洞察を得ることができました。彼らが興味を持っていることや楽しみにしていることについて尋ねられた時、記憶のストリームを分析することで、非常に人間らしい、現実的な方法で答えることができました。
これらの研究論文はすべて、確かにより大きな推論能力を持つより大きなモデルがあれば素晴らしいだろうが、私たちが持っていた多くの制限と、私たちが達成できる多くの進歩は、これらのはるかに小さく、はるかに高速で、はるかに安価だが、依然として能力のあるモデルを作ることによって達成できる可能性があることを示唆していました。
そして、それがまさにGPT-4o miniが何であるかです。例えば、このチャートを見てください。これらはモデル評価スコアです。私たちの新しいモデルであるGPT-4o miniはオレンジ色です。他のすべての小さなモデル、Gemini Flash、Claude Haiku、GPT-3.5 Turboなどの高速モデルを凌駕しています。実際、GPT-4oからそれほど遠くありません。
おそらく、ここでの数学が最も鮮明な視覚化でしょう。他のすべてのモデルが40代にあるのに対し、大小のGPTは70代の非常に高い位置にあり、非常に近接しています。
OpenAIは、これが何のためのものか、何が近々来るのかについて語っています。彼らがiPhoneに搭載され、アシスタントになるだけでなく、はるかに多くのことができる可能性があることを覚えておいてください。
アップルがリリースした研究論文の一つで、彼らはオンデバイスのアシスタントを訓練して、基本的に家を管理することについて話していました。それはサーモスタットやライトなどと接続され、あなたが話しかけると、あなたが何を意味しているのかを理解し、あまり説明なしに何が必要なのかを理解できるようになります。
例えば、「温度はどうですか?」と言えば、あなたの位置や時間などに応じて、家の中の温度なのか、今日の後半の温度なのかを理解できます。基本的に、あなたのオンデバイスアシスタントになるのです。
GPT-4はそれを行うことができますが、これらの単純なタスクに対しては非常に高価になるでしょう。サーモスタットを上げたり、ライトを調光したりするのに数セントかかり、かなりの請求書になる可能性があります。しかし、同じアシスタントが、例えば月に数ドルで運用できるとしたら、それは全く別の話になります。
ここでOpenAIは言っています。過去数年間、AIの知能の顕著な進歩と、コストの大幅な削減を目の当たりにしてきました。例えば、トークンあたりのコストは、2022年に導入された能力の低いモデルであるDaVinci-003以来、99%低下しています。
私たちは、コストを下げながらモデルの能力を向上させるという軌道を継続することに取り組んでいます。私たちは、モデルがすべてのアプリ、すべてのウェブサイトにシームレスに統合される未来を描いています。
これが何を意味するかというと、スマートフォン、つまりあなたの電話の中にAIアシスタントが欲しい、サーモスタットに欲しい、ライトに欲しい、腕時計に欲しい、靴に欲しい、車に欲しいということです。まあ、あなたはそれを望まないかもしれませんが、彼らは明らかにそうです。
これがどのように実装されるかが、あなたがくつろいでいる間にロボットがすべての仕事をするのか、それともブラックミラーのようなエピソードの悪夢になるのかの違いです。
そして、各キャラクターが独自のストーリーライン、独自の記憶ストリーム、独自の人格を持つこれらのリアルな世界を作成することに関しては、この実験を実行するのに数千ドルかかったと聞いたことを覚えています。ゲーム内時間がどれくらい経過したかは忘れましたが、おそらくバレンタインデーを中心に回っていたので、もしかしたら、その30日前からシミュレーションしていたのかもしれないと思います。残念ながら、正確には覚えていません。
しかし、25のエージェントが走り回り、考え、関係を作り、観察をするのをシミュレートするのに数千ドルかかりました。だから、あなたが作っているビデオゲームにこのようなものを追加したいと思っても、おそらくあなたを破産させるでしょう。
しかし今、私たちはそれを全く異なる光の中で見ることができます。ここにその論文のコードがあります。それはオープンソース化されています。Agents、Joon’s Park研究、そしてこれをあなたの家庭用コンピューターで実行できます。
コストが下がり続けるにつれて、これらのものを連鎖させる力が増大し、エージェント的なタスクを実行する能力が向上するという強力な理論があることを心に留めておいてください。また、それほど昔ではないトップモデルと同じくらい優れた、小さくて高速で安価なモデルを生産できるようになったという事実は、確かに依然として大規模な進歩が進行中であることを示しているようです。
それらは、そのようなシミュレーションやコーディングに使用されます。だから、私はこのミニモデルをそこに組み込んで、どれほどうまく機能するかを確認する予定です。近々、それに関するビデオを投稿します。
ここ数日、私がやや不在だったことに気づいた人もいると思います。映画「シャイニング」が非常に現実的だと言っておきます。仕事ばかりで遊びがないとジャックは退屈な少年になってしまう。要するに、私たち全員が時々休憩を取る必要があるのです。さもなければ、完全に狂ってしまいます。
この陽気な言葉で締めくくりましょう。私の名前はウェス・ロスです。ご視聴ありがとうございました。
コメント