
6,312 文字

OpenAIの新しいo3モデルについて話をしなければなりません。これはAIにおける極めて重要な新しい進展です。AIの推論能力を評価する様々なテクニックにおいて、単に記録を更新しただけでなく、圧倒的な成果を上げました。次に来るだろうと考えられていた10%や20%の向上ではなく、想定を遥かに超えて進化を遂げたのです。
実際、現在はその推論能力が非常に優れているため、AIが新しい質問を理解し推論する能力を測定するためのテスト自体を変更する必要が出てきています。これは重要なことです。arcsという組織がこのベンチマークテストを作成しましたが、OpenAIの新モデルの能力によって、彼らは自身の評価方法を変更しているのです。その理由は、モデルが既に記憶している内容を単に繰り返すのではなく、新しいスキルをその場で学習する能力をテストしたいからです。
Arc AGIバージョン1では、最先端のフロンティアモデルが0%から5%に到達するまでに5年かかりました。しかし今日、私は非常に興奮していますが、o3は低計算リソースで新しい最高記録を達成し、それを私たちが検証しました。Arc AIのセミプライベートホールドアウトセットで75.7点を記録したのです。これは私たちのパブリックリーダーボードの計算要件内で達成された結果であり、RKG Pubで新しい1位となりました。おめでとうございます。
能力のデモンストレーションとして、o3により長い思考時間を与え、高計算リソースに引き上げたとき、同じ隠されたホールドアウトセットで85.7%のスコアを達成しました。申し訳ありません、87.5%です。これは特に重要です。なぜなら人間の性能が85%の閾値で比較可能だからです。これを超えることは大きなマイルストーンであり、これまでにこれを達成したシステムやモデルは一つもありませんでした。これはArc AGIの世界で新しい領域です。素晴らしいベンチマークを作成されたことを congratulations。
しかし、この仕事はまだ終わっていません。これはまだAIの初期段階です。Arc AGIのような持続的なベンチマークが進歩を測定し導くために必要であり、私はその進歩を加速することに興奮しています。また来年OpenAIと提携して次のフロンティアベンチマークを開発することを楽しみにしています。
このo3について面白いのは、前のバージョンがo1だったのにo3という名前が付けられたことです。これは英国の通信関連の何らかのグループがo2という名前を使っているため、その名前を避けたいという理由からだそうです。しかし面白いことに、これは理にかなっています。なぜならこれは1から3への大きな飛躍であり、2倍以上、3倍以上の進歩だからです。これは大きな出来事です。
では、これはアカデミアにとって何を意味するのでしょうか?何か意味があるのでしょうか?答えはイエス、意味があります。これはAGI(人工汎用知能)ではありません。推論によってすべての問題を解決できるわけではありません。テストでは、人間である私たちにとって簡単な多くの質問に答えることができませんでした。しかし、多くの新しい質問に答えることができました。
これが重要なのは、事前学習データセットにない質問に答えることができたということです。つまり、単に質問を見て、異なるメカニズムを通じて自分で理解しようとして解決したということです。もちろん、何が本当の推論なのかについては様々な議論があり、それは素晴らしいことです。このような議論があり、このような競争やベンチマーキングがあることは素晴らしいことです。
なぜなら、非常に興味深いことが起きているからです。これはアカデミアでも同じことが起きています。最初、私たちにはチューリングテストがありました。これは、AIが感情的な反応や質問の理解を通じて本物のように見えれば、それは本当の知性を持っているという考えでした。しかしもちろん、私たちはChatGPTでそれを達成しました。それ以前のElizaなどでもほぼ達成していました。多くの人々を納得させましたが、いいえ、ChatGPTでさえ本当に強力なものでしたが、そのチューリングテストは意味をなさなくなりました。以前私たちが考えていたことは何だったのだろうかと。それは知性の本当の定義ではありませんでした。
そして今、同じように、ARSの中で私たちが持っていた以前のテストで、知性とは何か、それを達成できるのかを理解しようとしていたものが、このo3モデルがそれを達成し、それを超えたことで、私たちは「それは本当の知性ではない、今度はこういうものだ」と言って、新しいものを作ろうとしています。これは実は全く悪いことではありません。
私たちはそうすべきだと思います。なぜなら、AIを開発する過程で、私たち自身と知性とは何かについてより多くのことを学んでいるからです。AIの能力がより強力になるにつれて、私たちは「ああ、そうだ、知性はそれだけではない、これとこれとこれが必要だ」と理解し始めています。これは素晴らしいことだと思います。
教育においてAIが私たちに鏡を向けているという話に戻りますが、これは素晴らしいことだと思います。なぜなら、良い教育とは何かを再評価し、再考することを私たちに強いているからです。
エッセイを書くことについて話すと、学生として授業に出席し、講義を受け、そして2週間以内にこの種のエッセイを書いて提出するという課題を与えられるのが非常に一般的でした。そしてそれが私たちのやり方でした。もちろん問題は、それが良い教育ではなかったということです。本がなかった時代には多少意味があったかもしれませんが、今では多くの情報があります。YouTubeがあり、インターネットがあり、そして今では講義を通じて学生があまりよく学んでいないという理解があります。
より多くの関与、より多くのハンズオン学習、より多くの相互作用が必要です。また、2週間かけてエッセイを書くということについても、今ならAIに頼って書いてもらうことができます。しかしAI以前でも、友人に頼んだり、サービスにお金を払ったり、他の誰かに頼んだり、インターネットからコピーしたりすることは簡単でした。
単に学生に課題を与え、2週間待って、それを評価するというのは、良い課題評価技術ではありませんでした。より多くの形成的な課題、より多くの形成的な評価、より多くの授業内での活動が必要です。そうすることで、確実に評価でき、学生に責任を持たせることができます。
そして今、学生がエッセイを書くとき、私たちは追加の要素を探すべきです。単に成果物だけでなく、プロセスを見るべきです。学生は自分がやっていることを理解できているか?自分がやったことについて話すことができるか?エッセイを提出して私が読んで、質問をしたとき、彼らは自分がやったことを知っているか?
このように、AIは私たちに鏡を向けているのです。学生は単にデータを与えられ、その情報を思い出すだけではなく、教育的な経験を通じて完全に理解する必要があるということを、私たちはより良く考え始めています。このように学生の学習により大きな責任を持たせることは素晴らしいと思います。そしてAIがその鏡を私たちに向けてくれたおかげで、教育をそれだけよりよく理解できるようになったと思います。
しかし、ここで何が起きているのかについてもう少し考えてみましょう。推論能力が大幅に向上したことは、アカデミアの私たちにとって理解することが重要だからです。はい、この新しいAI o3の実行には非常にコストがかかります。このコンペティションでこの記録を破るために達成したことには多くのコストがかかりました。これらの質問に答えられるように計算するために30万ドルのコストがかかったという計算があります。それは16時間ほどかかって理解し、質問を理解し、そして推論するのに時間がかかったからです。
実際、o3モデルが行っているのは、起こっていることを理解し、質問を理解し、そして推論するのにより長い時間をかけることです。実際に行っているのは、私が以前AGIに到達するためにより重要だと考えていた複数のシステムを使用することであり、まさにそれが起きているように見えます。
一つのシステムを使って質問を理解し、そして多くの異なる回答を生成し、そして別のシステムを使ってそれらの回答を見て、この解決策に至る推論のステップが論理的かどうかという可能性を検討しています。さらに、可能性を検討するために合成データを作成しています。そのすべてを組み合わせ、複数のシステムを使用して、最良の解決策を導き出しているのです。
これには時間がかかります。単に以前の学習情報を見て解決策を導き出す一つの大規模言語モデルを使用するChatGPTを使用するよりもずっと長い時間がかかります。これは私たちが理解すべき重要なことです。
研究が示しているのは、エッセイを書くようなことには、GPT4のような大規模言語モデルを使用する方が実際に効果的だということです。なぜなら、そこには100%正解というものはなく、異なるタイプのエッセイをさまざまな方法で組み立てるためにはより多くの創造性が必要だからです。
しかし、科学やSTEM分野のような分野について話すとき、多くの異なる可能性のバリエーションを検討し、最良の答えに至る最良の推論は何かを見るo1モデルは理にかかっています。なぜなら、そこには一つの正解、あるいは少なくともより正しい一つの答えが存在するからです。
これが違いです。o1モデルは科学にとって素晴らしく、GPTモデルは文章を書くことやエッセイのようなことに素晴らしいのです。私たちは両方を持っているのです。これはアカデミアに戻ってきます。もしこれらのo1、o3モデルが科学においてそれほど強力になるなら、これは研究に多くの影響を持つということです。これらの科学分野に関連する研究を行うことに。
そして私たちは公平性に関連する問題に直面します。これらにアクセスするにはお金がかかるでしょう。もちろん、モデルの効率性を改善する異なる方法を考え出し、全体的なプロセスを改善するにつれて価格は下がっていくでしょう。それを楽しみにしていますが、より多くのコストがかかるでしょう。
そうすると、これらへのアクセスについて理解する必要があります。学生にこれを使用することを要求するなら、情報にアクセスできること、これをツールとして使用できることを確認する必要があります。それが大きな問題になるでしょう。
o3モデルから学んだこと、この革新的な新しい能力から学んだことの多くは、抽出されてGPTモデルにも適用されるでしょう。したがって、異なるタイプのシステムを使用しますが、GPT4やGPT5の将来の改善を間違いなく期待できます。
しかし今は、AIモデルにここで確実な改善が起きていることを理解することが重要です。数週間前に私が作ったビデオで話したように、AIは減速していません。どんな想像をしても減速していません。いいえ、私たちはデータを使い果たしているわけではなく、o3モデルが良い例であるように、改善の新しいテクニック、新しい可能性、新しい方法があるため、減速していません。
間違いなく前進し、全体的な能力を向上させています。ここで安全性の側面について大きな呼びかけがあります。これほど推論能力が高く、能力が向上し、可能性が広がった新しいモデルで何が起こるのでしょうか?
そのため、このモデルをリリースし、誰もが安全に使用できるようにするため、様々なテストを行う安全性グループの一員となることを呼びかけています。私は登録しようとしましたが、プラスメンバーである必要があります。この安全性グループのメンバーになるには有料サブスクリプションが必要です。これは知っておくべきことです。もしあなたがプラスメンバーであれば、ぜひ参加して解決策の一部となり、アカデミアと世界のために安全な製品を確保するためのお手伝いをしてください。
最後に理解していただきたいのは、AGIに関することです。これはAGIではありません。一般化された知能ではありませんが、間違いなく一歩近づきました。AGIとは何かを理解することに一歩近づき、推論と情報の提示方法を理解し、それに基づいて解決する方法を通じて、予見可能な将来において継続的に改善できるように構造化されているように見えます。
単なる大規模言語モデルを超えて、新しい問題に対する新しい解決策を見出すために、追加の側面、追加のテクニックを使用するようになっています。これは研究にとって非常に重要ですが、AGIに向かって進むためにも非常に重要です。これは私たちが考えるべき大きなことです。そう、これはより現実的になってきています。それを予想よりもずっと早く達成できそうです。
そのため、私たちアカデミアは、これに遅れを取らないようにし、この側面、この考えに本当に焦点を当てる必要があります。それは単なる知識ではない、教室で多くの時間を費やそうとする事実や数字だけの問題ではないのです。それは経験であり、批判的思考であり、それらのアイデアを使用し実装する能力、そのコンテンツを操作し、異なる方法で組み合わせる能力なのです。
創造性、批判的思考、応用、これらはすべて私たちが推進する必要がある大きなことです。そしてそれを本当に実現するには、教室内で経験を作り出す必要があります。これは強調しすぎることはありません。そしてそれこそが、私たち人間が教室内で最大限に活用できることです。
これは他の学生との実際の経験、社会的学習であり、私たちの能力を発揮し、感情を伴う実際の議論、ロールプレイングなど、これらすべてを教育で最大限に活用すべきです。そして本当に、私たちが関連性を保ち続けることを確実にするために。AIは単に情報を提示することができますが、いいえ、私たちはそれ以上のことをしています。なぜなら私たちは人間の要素だからです。
これを心に留めて、それを発展させ続けてください。なぜならそれこそが教育の中で本当に必要なことだからです。
この内容から多くのものを得られたことを願っています。これは大きな出来事であり、AIの改善とAGIへの継続的な前進です。2025年の新年に向けて、多くの新しい可能性があります。AIに関して多くのことが起こるでしょう。ロボットに関しても同様で、これは推論能力の向上の良い例です。
ロボットが何度も遭遇する新しい状況において、この高度な推論能力を使用してより多くのことができるようになります。そう、来年2025年はロボットの年です。それも楽しみにしていてください。
多くのことが起きています。この内容から多くのものを得られた場合は、私たちのチャンネルをさらに発展させることができるよう、いいね、シェアをお願いします。そしてコメントをお願いします。これについてどう思うか本当に知りたいです。これは大きな出来事でしょうか?これはあなたのやり方を変えることになりますか?AIについてどう考えますか?
私たちのコミュニティの探求を継続的に発展させることができるよう、ぜひ共有してください。ありがとうございます。そして覚えておいてください。学びは人生のためにあるのです。
コメント