ChatGPT o3、人間の限界を超える: これはAGIなのか?

8,558 文字

ChatGPT o3, sobrepasa el límite humano: ¿es una AGI?
Este video profundiza en el reciente lanzamiento de ChatGPT-O3 por OpenAI, un modelo que ha revolucionado el ámbito de l...

もしあなたがここにいるのは、科学技術に関することが好きだからでしょう。特に人工知能に関することに興味があるはずです。そして、おそらく情報から隔離された環境で生活しているわけではないでしょうから、今週末にChatGPT-O3とAGI(汎用人工知能)に関するウイルスのようなニュースを目にしたことでしょう。
金曜日にOpenAIが新しいモデル、ChatGPT-O3を発表しました。これは彼らが現在開発している、推論に関連する新しいブランチのモデルで、OpenAIが頻繁に言及するTier 2に関連するものです。発表の中で、モデルのデモに加えて最も注目を集めたのは、私にとっては普通ではないのですが、ベンチマーク、つまりモデルが様々な「試験」で得た合成スコアの話題でした。
注目を集めたのは、いくつかのベンチマークで以前のモデルを完全に圧倒的な差で打ち負かしただけでなく、Arc AGIという非常に興味深い名前のベンチマークでは人間のスコアを上回ったからです。ここで状況を整理してみましょう。
実は、人工知能に関する全てのことが非常に活発だった年末を経験しました。これは以前から分かっていたことです。なぜなら、少なくとも2024年の現在、人工知能の分野で起こることのペースを決めている企業がOpenAIだからです。
彼らは年初から、大きな発表は年末になると予告していました。さらに、彼らのモデルが政治的な問題、特に選挙の問題に巻き込まれないよう、米国の選挙後になると述べていました。私たちは皆待っていましたが、選挙の後、あるいは選挙の頃になって、確かに全ての企業が号砲を合図に多くのものを発表し始めました。
突然、ある日、おそらく商業的な状況が少し厳しくなってきていると見て(投資家などのレベルではなく)、彼らはツイートを投稿し、アドベントカレンダーのようなものを用意したと言いました。12日間、毎日違う発表をし、それらは全て素晴らしいものになると、いつものように彼らは述べました。
そして、これら全てが発表されました。あるものは他のものよりも印象的でした。実際、多くの人にとって少し物足りなく感じられました。それは悪い意味ではなく、単に既に期待していたものだったからです。何の驚きもありませんでした。そして突然、最終日に彼らは私たちに驚きがあると言いました。
彼らはこの新しいモデル、GPT-O3を発表しました。冒頭で述べたように、これは推論に関連するモデルの一つで、彼らが人工知能の進化とそれが時間とともにどのように改善されうるかについて設定した、いわゆるTier 2に関連するものです。誰もこれを予期していませんでした。主な理由は、3、4日前にO1 Proバージョンを発表したばかりで、そこでも既に信じられないような進歩がありったからです。
実際、先週、そのProモデルにアクセスできた人々がテストを行い、本当に大きな飛躍であると言っていたところでした。そして突然、彼らは「ところで、O3モデルを発表します」と言ってきました。その名前については、電話会社の関係でO2と呼べなかったと説明がありました。
通常、彼らはモデルの概要を説明し、すぐに例を示すことで、それがどのように機能するかを見せてくれます。しかし今回は、そのプロトコルを飛ばして、直接ベンチマークの結果を見せ始めました。知らない人のために説明すると、ベンチマークとは一種の試験、市場にある他のモデルと比較してどのようなスコアを持っているかを見るための合成テストです。
もちろん、ベンチマークのスコアを示し始めたとき、彼ら自身もある意味で結果に驚いていることに気付きます。スコアを見せ始めると、私たち全員が口を開けたままになりました。まず、これはもはやほとんど伝統になっていますが、彼らはプログラマーに挑戦しました。
彼らは「プログラミングのレベルについていくつかのテストを行いました」と言います。多くのスコアを見せ、どれくらいの割合を達成できるかなどを示しましたが、最も注目を集めたのは、国際的なコンテストでのスコアでした。スコアは0から3.000の範囲で、プログラマーにとって一般的なタスク、つまりコードの設計だけでなく、モデルは2.700以上のスコアを獲得しました。
OpenAIの中で、おそらく優秀なプログラマーであろう2人を除いて、誰もそのスコアを超えられないという冗談を言っていました。実際、数日後、私たちはそのスコアがGPT-O3を世界で175位のプログラマーに位置付けることになると気付きました。これは絶対的な驚異です。
しかし、そこで終わりではありませんでした。彼らは数学の世界にも進出しました。数学の世界でも、これまで人口の95%が解けないのはもちろん、最高の数学者でも苦労するような問題を解けるようになっています。実際、彼らはMath Frontierというページを直接示し、そこには「前例のない」といった面白い名前の難しい試験があり、それらの問題の25%を解決できると述べました。
この数字は小さく見えるかもしれませんが、多くの数学者がそのページの問題を一つでも解けることは成果であり、拍手に値すると言っているのです。つまり、簡単なことではないのです。そして、O1や以前のモデルと比較して、飛躍的な進歩が見られています。
このモデルが問題の25%を解決できるのに対し、O1バージョンは問題の2%しか解決できませんでした。そして、最後に示されたスコアで非常に注目を集めたのが、ARC-AGIと呼ばれるテストでした。AGIを思い出させ、誰もが驚くように意図的につけられた名前です。
これは少しマーケティング的な名前です。このケースでは、典型的な論理的推論テスト、例えばメンサの超高度な知能テストのようなものです。つまり、IQテストのように、このマスはどの色になるのか、このシーケンスに従うと次は何になるのか、といったものです。そして彼らは、このテストは5年間続いていると言います。
もし間違っていなければ、このテストに合格すると100万ドルの賞金が出ます。これまでの最高記録は16%か17%程度でした。そして突然、このシステムが87%に達したと言われました。これは何を意味するのでしょうか?人間の平均、つまりゼロポイントは85%とされています。
つまり、得られたスコアは人間の平均を上回っているのです。少しずつ説明していきましょう。もちろん、今週末に誰もが立てた大きな疑問は、これはAGIの登場なのか、ということです。なぜなら、純粋な推論テストで人間の限界を超えたからです。
ネタバレをしましょう。これから段階的に理由付けして説明しますが、ネタバレは「いいえ、これはAGIではありません。全くの別物です」。私は、物事の名前の付け方が問題になり始めていると思います。これは、このチャンネルやライブ配信などでよく言及してきたことです。
人工知能の周りの世界全体が抱える大きな問題の一つは、これらのモデルで扱わなければならない多くの概念が、機能の説明や他のものとの比較を試みる際に、人間自身にとって定義することが難しい概念だということです。
例えば、あなたに意識をどう定義するか聞いても、できないでしょう。あなたも私も、そしてほとんど誰もできません。哲学的な定義や辞書的な定義、多くのものがありますが、誰かに説明しようとすると理解や解釈が難しいものです。
各概念が何を指しているのかについて、ある程度の直感はありますが、「この概念の境界はここにあり、ここからここまでは意識的で、ここからここまでは意識的でない」というように言うことはできません。今、このモデルが意識を持っているという話をしているわけではありません。これは単に、名付けたり定義したりすることが非常に、非常に難しいものの一般的な例として挙げているだけです。
この状況で多くの企業が行っていることは、定義が明確でないため、自分たちの定義を作り出し、これが定義だと宣言し、それを満たしているので意識的であるとか、AGIであるとか、望むものであると主張することです。つまり、自分で定義を設定して、それで終わりです。
数日前に話したように、OpenAIはある意味でこれを言及していました。AGIへの道は5つのtier、つまり5つのステップを達成することだと述べました。最初は言語の習得、2番目は推論の習得、3番目は良いエージェントの生成、つまりこれらのシステムがある意味で自律的に機能するようになることです。
4番目は研究などに貢献できること、そして5番目は企業全体やシステム全体を指揮できるようになることです。これは悪い定義ではありませんが、AGIの古典的な定義ではありません。これはOpenAIが考え出し、その進捗を評価する方法として決めたものです。
結局のところ、これらの企業、特にその取締役たちにとって、AGI、つまり汎用人工知能に到達することは、世界の歴史に名を残す人物として認められるような偉業なのです。だから、誰もが最初になりたがり、そのために名前を変える必要があれば、変えてしまうのです。
実際には、状況はそれほど、そこまで似ているわけではありません。確かに、AGIの古典的な定義のようなものは存在します。実際、これは他の用語、ANI、AGI、ASIと一緒に出てきます。これらについても後で話しますが、これらの企業が話している内容とはあまりうまく適合しません。
AGIの一般的な概念は、自己改善、自己学習が可能で、何が起こっているのかを理解し、それに対して行動できるため、あらゆる種類のタスクを実行できるほど十分に知的なものです。これは悪い定義です。なぜなら学術的な定義ではありませんが、私たちが頭の中で多かれ少なかれ持っているイメージだと思います。
前述の通り、明確な定義を持つことは事実上不可能です。これを私はよく無限大と比較します。無限大の定義を与えることは非常に難しく、ほぼ不可能です。辞書的な定義で無限大が正確に何であるかをあなたに説明することは、非常に大きく、到達不可能なもので、難しいことです。
しかし、いくつかの例を挙げたり、特定のシーケンスを見たりすることで、無限大が何なのかを理解するのは比較的簡単です。もし自然数で1、2、3、4と数え続けて決して止まらないと言えば、無限大を理解できます。つまり、あまりにも途方もなく大きいので、決して止まらないのです。どれだけ時間がかかっても、常に次の数が存在します。
そこで無限大の定義を理解できます。たとえその定義が良くなくても。もし私がこれがAGIではない理由と、AGIがどうあるべきかを説明しようとするなら、かなり分かりやすい比喩を使えると思います。数年前、2015年に(これについては別の動画で話しましょう)、人工超知能に至るまでの一連の出来事がどうあるべきかを説明する記事が発表されました。
これは私たちが映画で見たような限界、つまり全てを解決できる人工知能、全ての技術を開発し、全ての問題を解決してくれるものですが、今のところはSFの領域です。しかし、彼が提案しているのは、私たちが現在どこにいて、どこに向かっているのか、そしてどのような段階が合理的であるかを見ることができるということです。
もしある点が明確でなくても、少なくともどの時間帯にいるべきかは明確です。彼は3つの段階を定義しています。これについては何年も前に動画で話していましたが、それらはANI、AGI、ASIです。Artificial Narrow Intelligence(特化型人工知能)、Artificial General Intelligence(汎用人工知能)、Artificial Super Intelligence(超人工知能)です。
ANI、つまり特化型は、今私たちが目にしているもので、特定のタスクを驚くほど上手く解決できる、ある程度の知能を持っているように見える小さなモデルです。例えば、ChatGPTでテキストを要約させると、すごく上手くできます。おそらく大多数の人よりも上手くできるでしょう。
例えば先日話した気象予報モデルを取ると、今日の予測アルゴリズムよりもずっと良い予測を提供してくれます。このような例は無数にあります。なぜなら、もはやほとんど全ての分野に存在するからです。Googleの検索エンジンでさえ、10年前から内部でANIを使用して、より良い検索結果を提供しています。
AGIについては飛ばしましょう。AGIについては先ほど説明しました。AGIとは、全てができる人工知能、質問をすれば答えてくれ、アシスタントとして使えば状況に応じて提案をしたり、これから起こることを説明したり警告したりしてくれるようなものです。
研究をしている場合、その人工知能が研究を行い、結論を出してくれる。つまり、これが人工超知能のアイデアです。全てができる段階に到達することです。では、AGIとは何でしょうか?AGIは変曲点です。
技術の進化は直線的ではありません。常に直線的だと思われてきましたし、直線的な印象を与えてきましたが、振り返ってみると、時間を数えると直線的ではないことが分かります。技術は自己強化的だと言えます。つまり、何かを開発しているとき、他の技術がその開発を助け、あなたが開発しようとしているものが他の技術の前進を助けることになります。
これにより、成長は直線的ではありません。つまり、私たちが達成できることは直線的に進むのではなく、成長し続け、ある点でほぼ垂直になり、特定の分野で飛躍的に進歩し、ほぼ全てを解決できるようになります。人工知能の場合、これは非常に垂直的な指数関数になると予想されています。
つまり、かなり水平に進み、その変曲点に達すると、突然上向きに向かい、ほぼ全てを一気に達成できるようになります。もし私にAGIとは何かと聞かれたら、定義は難しいですが、一つ確かなことは、それがANIとASIを分ける点だということです。
それは変曲点でなければなりません。そしてもし変曲点でなければならないのなら、必然的に(ここには他の選択肢はありません)、何らかのフィードバックを持っていなければなりません。つまり、指数関数、例えば5のX乗は、指数関数的成長、つまり5の1乗は5、5の2乗は25、5の3乗は125というように、上向きに続いていきます。
この技術が指数関数的な状況にあることが必要です。このような技術が指数関数的な状況を持つにはどうすればよいでしょうか?指数関数的な状況を得るには、自己フィードバックが必要です。これは何を意味するのでしょうか?モデルが何らかの形で自己再プログラミングできる必要があります。または、直接的な再プログラミングでなくても、モデルの重み、構成、構造などが使用に応じて進化していく必要があります。
そして私たちはその段階にいません。現在持っているモデルのどれも、もちろんGPT-4も、O-1も、O-3も、自身の構造を変更する能力を持っていません。確かに、文脈の問題については良い対処をしています。
つまり、文脈を広げるにつれて、その文脈が生成の一部となり、さらなる生成に使用されるため、もし無限の文脈を持つことができれば、その結果として拡大していく文脈は、モデルの一種の自己修正のようなものになりますが、これはそのように機能しないことは分かっています。
私たちは文脈の窓を持つモデルを持っています。それがどんなに長くても、100万やそれ以上であっても、かなり、かなり、かなり限定的です。つまり、結局4時間の会話でその文脈に関連する部分は使い果たしてしまいます。
したがって、はい、私たちは急速な進化を達成していますが、本当に爆発的な成長を遂げ、それが本当にAGIになり、ほぼ瞬時にAGIになるためには、モデルが自己修正できる構造を持つ必要があります。
そして私たちはその段階にいません。申し訳ありませんが、もっと楽観的でありたいですし、これらの技術が大好きですが、その段階には全く近づいていません。実際、これまでで最も近いものは、2ヶ月前にMicrosoftがMustafa Suleimanと共に示したもので、言語モデルの構造を変更して記憶部分を追加し、特定の情報がそこに残り、私たち個人用のユニークなモデルになる方法を考案したと述べています。
しかし、それでもコアレベル、つまり核心部分で自己修正する能力を持つモデルにはなりません。したがって、これらのモデルがAGIに近づいているとさえ言うのは、あまり意味がありません。もしかしたら、そこまで遠くないかもしれません。明後日にもこれらの企業のいずれかがこれを実現できる修正された構造を発表し、私たちがそこに到達するかもしれません。
そうかもしれませんが、少なくともこれらのモデルは、現在の形では、AGIの道からはかけ離れています。最も興味深いのは未来にあります。とはいえ、これは彼らが今発表したモデルの価値を軽視するものではありません。今発表されたこのモデルは絶対的な驚異です。
そして、それは複数の理由で絶対的な驚異です。先ほど話した全てのベンチマークを打ち破っているということは、私たち全員が多かれ少なかれ理解していることですが、それは開発者たちにこう警告しています:「モデルの一部分、この場合は訓練にだけ焦点を当てていましたが、注意してください」。
全ての進化が、例えばAntropicがその方向に全力で進んでいるように見えますが、入力データセット、つまり訓練データを改善し、訓練方法を改善し、改善すれば…より良いモデルが得られる、はい、しかしこの種の開発がある種の限界に達しつつあることが分かっています。
ここでOpenAIは少し異なることを行いました。つまり、言語レベルでは素晴らしいが推論レベルでは上手く機能していないモデルがあるとして、訓練部分ではなく推論部分、つまりモデルを実行する時に介入したらどうなるでしょうか?そして、モデルに考えさせ、自身の思考を取り、それらを再利用し、混ぜ合わせ、つまり私たちが頭の中でするようなことをさせると、結果は絶対的に驚くべきものになることに気付きました。
もちろん、これはOpenAIだけでなく、新しい扉を開きました。つまり、今、AntropicやAmazon、Googleの人々は「待って、待って、待って、待って」と言っています。「もしこれだけのことを単にこれをすることで達成したのなら、それがどのようなものかある程度分かっているので、私たちもやってみよう」と。
すると自動的に、他のモデルもその道を進み、また人工知能の全てが野蛮なほどに成長するのを見ることになります。ここ6ヶ月ほど少し停滞しているように感じられましたが、突然ブロックが解除され、これがより機敏に機能し始めます。
実際、私にとって、このデータセットの最初のステップ、この2番目のステップが推論であり、3番目のステップは私たちが話し、そしてMicrosoftが既に話していることだと思います。つまり、少し柔軟性の低いモデルを作ろうとすることです。文脈の窓やラックなどを通じてだけでなく、時間とともに改善できるように、何らかの形で自己修正できるようにする必要があります。
さらに、非常に興味深い利点があります。それは推論部分については、モデルを実行するための特定のチップを設計している企業が多数あり、それらは価格が下がっているだけでなく、現在は途方もなく高価なこれらのモデルの実行コストを大幅に削減することです。
参考までに、Arc AGIの賞金は100万ドルでしたが、問題を解くためのモデルの実行コストは130万ドルと推定されています。つまり、私がモデルを取り、このテストを実行させた場合、実行コストは100万ドル以上かかります。つまり、明らかに得た宣伝効果は絶対的に素晴らしいものでしたが、コストの面では見合っていません。
これで私が説明したかったポイントがほぼ明確になったと思います。つまり、彼らの発表は素晴らしく、示されたものは、いつ私たちの手に届くかは分かりませんが(私は1年半から2年以上かかると思います)、つまり、彼らが何かを非常に先行して、非常に前もって見せてくれた数少ない機会の一つです。他の時のように6ヶ月後や1年後、またはそのくらいではなく、これはもっと時間がかかるでしょう。
しかし、また、先ほど言ったように、彼らが発表したものは変化であり、前後の分岐点であり、特に非常に、非常に興味深い新しい開発の道を開くものです。もしこの動画が気に入ったなら、いつものように、いいねを押し、購読し、コメントを残し、動画をシェアし、Patreonに参加してください。それはもうあなた次第です。
今日も付き合ってくれてありがとうございます。次の動画でお会いしましょう。それでは、さようなら。

コメント

タイトルとURLをコピーしました