AGIは目前に迫っているのか?

10,165 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

サム・アルトマンが1月5日に「Reflections」という新しいブログ記事を投稿しました。このブログ記事の大きな見出しは、サム・アルトマンが、OpenAIは長年人々が推測してきた人工汎用知能(AGI)の構築方法を知っていると主張していることです。OpenAIはその目標が視野に入っていることを示唆し続けており、彼はそれが非常に早く実現する可能性があり、すでにAGIを超えてASI(人工超知能)を見据えていると考えています。
ケーシー:年末年始の休暇中に、私たちの好きなトピックの1つであるAIについて、さらなるニュースがありました。
ケビン:年末はニュースサイクルが通常かなり遅くなる時期なのに、AIにとっては大きな2週間でした。普段12月は人々が休暇に向けて準備をし、ニュースも減少していくのですが、今年は違いました。AI研究所が年末までに大きなニュースを出そうと、互いに競い合っていたようです。
それはOpenAIが主導していて、「12 Days of Shipmas」を発表し、12日間毎日大小さまざまな発表をしようとしました。そして最後には本当に重要なことで締めくくられたと思います。
これらすべてが非常に速いペースで動いており、今日はたくさんのキャッチアップすることがあります。新年最初の数ヶ月に何を期待できるのかについても掘り下げたいと思いますが、その前にケーシー、あなたが話したいことがあるようですね。
はい。もちろん、リスナーの皆さんの信頼は私たちにとって最も重要です。そのため、2023年末に私の人生で起こったことについて、正直にお話ししたいと思います。私は素晴らしい特徴を持つ男性に出会いました。その特徴の1つは、私が聞いたことのない会社で働いていたことで、普通に仕事を続けられると思いました。しかし今週、私の素敵な彼氏は、私たちが番組で時々話題にする会社で仕事を始めました。彼はAnthropicのソフトウェアエンジニアです。
多くの人が私にClaudeと恋に落ちたのかと尋ねてきました。確かにClaudeはいくつかの点で有用だと思いますが、いいえ、これは私が現在恋をしている人間の男性です。私は彼に会って、彼が実在することを確認できます。素晴らしい人です。
この新しい「関係」について公表しているのは、これが私とあなたが話し合う会社であり、Platformerでも取り上げる会社だからです。そのため、リスナーの皆さんにこれが現実の世界で、そして私の人生で起きていることを知っていただきたいと思います。
この件について、さらに言いたいことはありますか?
はい。人々にはいくつかの質問があります。例えば、私は彼氏の就職に一切関与していませんし、Anthropicは事前に私たちの関係を知りませんでした。もちろん、その後私たちは彼らにこのことを伝えました。私はAnthropicについて引き続き報道するつもりです。なぜなら非常に重要な会社だと思うからです。ただし、報道する際にはこの関係の存在を皆さんにお伝えします。
他にも伝えておきたいことがあります。私と彼氏には金銭的な関係はなく、現在は同居もしていません。ただし、これらの状況が変わった場合は、その都度更新をお知らせします。基本的に、今まで通りの仕事をしようと思います。すべてに対して同じように懐疑的で批判的な目を向けようと思いますが、この関係があることも忘れずにお伝えします。
質問がある方は、hardfork@nytimes.comまでメールをください。できる限り、礼儀正しい質問にはお答えするようにします。
私からも少し編集して、あなたの開示に付け加えさせてください。これは称賛に値することで、ニュースレターでも行い、ポッドキャストでも行っていることを嬉しく思います。長年のつきあいの中で、テクノロジー業界で働く男性との交際を避けようとしてきたあなたの努力を知っています。
本当にそうですね。10年以上もの間、TinderなどのアプリでGoogle、Meta、Twitterなどの企業で働くかっこいい人を見かけても、常に左にスワイプしていました。そんなドラマは必要ないし、そんな複雑な状況も必要ないと思っていたからです。サンフランシスコでは、それは大変なことです。というのも、誰もがテクノロジー業界で働いているような小さな街だからです。あなたが取材する企業で働いていない適齢期の独身男性の数は、かなり限られていました。
それが、私が過去10年間ほとんど独身だった理由を説明していますね。ようやくそこから抜け出せる何かを見つけたと思っていましたが、時には人生は思いがけない計画を用意しているものです。そういう流れに身を任せるしかありません。
そういうわけで、今私はこういう状況にいます。
まあ、ケーシー、その開示をありがとうございます。透明性は非常に重要だと思います。もちろん、私たちはAnthropicやその他の場所でのAIの発展について引き続き話し続けますが、OpenAIについて話す時と同じように、この開示も行っていきます。ニューヨーク・タイムズ社がOpenAIとMicrosoftを著作権侵害で訴えているという事実についても同様です。
私がニュースレターでこのことを開示した時、ある読者から、あなたが毎週行っている開示に合わせて、私も開示することになるのが可愛らしいと思うとコメントがありました。つまり、私たちは今や対等になったということですね。
では、このセグメントの本題であるAIニュースに進みましょう。本当に多くのことが起こりました。
まずはOpenAIについて話しましょう。すでに開示は済んでいるので、もう一度する必要はありません。これはOpenAIにとって大きな月でした。12月20日、休暇に入る直前に、O3という新しいモデルを発表しました。これはO1の後継で、面白いことにO2という名前は飛ばしました。これは通信会社O2との訴訟の脅威があったためです。
脅威があったかどうかは分かりません。彼らは敬意を表して避けたと言っていますが、おそらく何らかの法的問題があったのでしょう。
そう、O2を飛ばしてO3に進みました。このモデルはまだユーザーには提供されていませんが、一部の研究者にプレビューを提供し、いくつかのベンチマーク評価でどのように性能を発揮したかについても説明しました。ケーシー、O3について教えてください。
O3は、ChatGPTにすでに搭載されているような大規模言語モデルですが、構築方法が異なり、推論モデルとして知られています。推論モデルは少し異なっており、主な違いは学習方法にあります。論理的な操作と構造化データの処理をより良く行えるように訓練されています。
2つ目の大きな違いは、クエリを実行する際、つまり小さなボックスに何をしてほしいかを入力する時、推論モデルはそれを処理するのに時間がかかります。より多くの計算能力を使用し、データを複数回通過させ、本当の意味での推論を行おうとします。
より多くの時間をかけ、より多くのパスを実行し、少し異なる構造を持つことで、非常に複雑なタスクでより良い性能を発揮できます。OpenAIがO3で発見したのは、LLMに対して設計された最も難しいベンチマークのいくつかで、これまでのどのモデルよりもはるかに優れた成績を上げることができたということです。
そうですね。私たちはO1について話し合った時に、このテストタイム推論やテストタイム計算という考え方について少し触れましたが、これは基本的に大規模言語モデルを構築する従来の事前学習ステップとは異なるステップです。これはユーザーがクエリを行う時に発生することで、すぐに答えを返すのではなく、このセカンダリーテストタイムステップを経ます。
これは、O1が登場した時に研究者たちが非常に興奮した点です。事前学習ステップの限界に達しているのであれば、このテストタイムや推論計算に関して新しいスケーリング則が発展している可能性があると考えました。そしておそらく、そのステップにより多くのリソースを投入すれば、モデルは異なる軸に沿って改善するかもしれないと。O3が登場した時に人々が非常に興奮したのは、それが実際に機能したように見えたからです。
はい、このものはまだ一般ユーザーの手には届いていませんが、OpenAIはこのO3モデルを、ARCプライズという非常に興味深い公開コンペティションに参加させました。ケビン、ARCプライズについてご存知ですよね?
基本的な考え方として、ARCプライズではLLMが解くのに非常に困難な問題を考え出そうとします。ちなみに、これらの問題が難しい理由の1つは、オリジナルの問題だということです。つまり、これらの問題はどのモデルのトレーニングデータにも含まれていないことが分かっています。なぜなら、もちろんLLMに対する批判の1つは、本質的に「まあ、すでにそのすべてのデータを保存していますよね?基本的に素早い検索をしただけですよね?」というものだからです。
このプライズは「いいえ、検索はさせません。実際に非常に難しい問題を推論によって解決できることを示さなければなりません」と言っています。この「ARC AGI1パブリックトレーニングセット」は少なくとも2020年から存在しており、その時点でケビン、以前のOpenAIモデルであるGPT-3は0%でした。つまり、4、5年前は0%だったわけです。
2024年には、GPT-4が5%に達しました。O3では、計算能力に1万ドルまでしか使えない評価で75.7%を達成しました。OpenAIが好きなだけお金を使えるようにした2回目のテストでは(実際には100万ドル以上だったと思われます)、O3は87.5%に達しました。
2024年を通じて本質的に不可能だったものが、ほぼ瞬時に87.5%のベンチマークに到達したのです。これが、このモデルの性能についての唯一の公開データですが、これは人々の注目を大いに集めました。
はい、人々の注目を集めました。また、私はO3のCode Forcesというものでの性能にも多くの人が注目しているのを見ました。これはプログラミングコンペティションのベンチマークの一種で、これらのAI企業が自社のモデルのコーディング能力をどのように評価しているかを示す1つの方法です。
OpenAI O3は、Code Forcesで2727というレーティングを受けました。これは、世界で約179番目に優秀な競技プログラマーと同等のレベルです。参考までに、サム・アルトマンはこの結果を発表する際に、OpenAIのプログラマーの中でCode Forcesのレーティングが3000を超えるのは1人だけだと言及しました。
これがなぜ重要なのでしょうか?2024年末に行われていた議論を考えてみると、ケビン、「スケーリングの壁に当たっている」という言葉を耳にするようになりました。これは、以前のLLMを構築するために使用した技術が、いわゆる手の届きやすい成果を使い果たしてしまい、継続的な改善には何らかの概念的なブレークスルーが必要になるだろうという考えでした。
そしてO3が登場し、効果的にそれを実現したのです。これらのベンチマークが重要だと考える理由、そして今日時間をかけて見ていく理由は、これらがどれだけ誇張されているかという正当な疑問や批判が多くあるからです。私たちは、企業が自社の製品を誇張し、その素晴らしさを宣伝するのを知っています。
しかし、ベンチマークは実際にその性能を測定できる客観的なものです。そのベンチマークの1つが、地球上で179人を除くすべての人よりも優れたモデルが存在すると示している場合、私たちは超知能にかなり近づいているのかもしれません。なぜなら、何かにおいて全ての人間よりも優れているシステムが超知能でなくて何でしょうか。
私はそれに少し注意点を加えたいと思います。これらのいわゆる推論モデルは、私たちが知る限り、報酬関数が設計できるような種類のタスク、つまり明確な正解がある種類のタスクに非常に優れているようです。コードは実行されるかされないか、数学には明確な正解と不正解があります。
このように、強化学習モデルに目標を与え、その目標を追求する際の正誤の指標を与えることができる領域では、非常に優れた性能を発揮する傾向にあります。しかし、真の愛の意味は何かと尋ねられても、それについて何も分からないでしょう。そしてそれは美しいことだと思います。
つまり、短期的には、例えば今後1、2年は、明確な正解と不正解のある種類のタスクにおいて非常に優れ、場合によっては人間を超える能力を持つ初期の推論モデルを持つことになるでしょう。しかし、小説を書くことや人生相談、あるいは1つの正解や不正解が必ずしもないような曖昧なタスクについては、今日見られるレベルから大きく進歩しないかもしれません。
そうですね。一部の人々はそれを「だからこれはそれほど重要ではない」という言い訳として使うでしょう。ただ、人生のある時点で外科医の診察を受けることになると思いますが、その外科医が絵を描くのが得意でなくても、あなたが受けた手術の価値が変わることはないと指摘したいと思います。ですから、これらが何をできないかではなく、その瞬間に何ができるかという観点で考えることが重要だと思います。
OpenAIからのもう1つの重要な話題は、サム・アルトマンが1月5日に「Reflections」という新しいブログ記事を書いたことです。基本的にChatGPTがリリースされてから2年間の彼の考えについて語っています。このブログ記事の大きな見出しは、サム・アルトマンが現在、OpenAIはAGIの構築方法を知っていると主張していることです。
長年人々が推測してきた人工汎用知能について、OpenAIはその目標が視野に入っていることを示唆し続けており、彼はそれが非常に早く実現する可能性があり、すでにAGIを超えてASI(人工超知能)を見据えていると考えています。ケーシー、このブログ記事についてどう思いますか?
そうですね、サムがAGIを構築する方法を知っていると言う時、彼が正確に何を意味しているのかを理解しようと、基本的に1日かけて考えました。そして今週もう1つ起こったことは、サムがBloombergのジョシュ・ロンゲルとインタビューを行ったことです。
その中で彼はジョシュに次のように語っています。引用すると「まだ深い正確な答えはありませんが、もしAIをリモートの従業員として雇用でき、優れたソフトウェアエンジニアになれるとしたら、多くの人がそれはAIっぽいと言うでしょう」。
今週の会話に基づく私の解釈では、これが実際に2025年に向けて全員が考えている目的地です。これがレースの行き先です。大手AI研究所が皆、仮想AIの同僚をリリースしようと競争するのを目にすることになるでしょう。そしてもし彼らがそれを実現し、その同僚がかなり優秀であれば、これが実際にAGIだと彼らは言うでしょう。なぜなら、ある時点で仮想のエンティティを雇用して、もはや人間を必要としない会社のタスクや一連のタスクを実行できるようになれば、これがこの全ての流れが向かっている先なのです。
そうですね、そして私は、これを無批判に受け入れる必要はないと思います。サム・アルトマンは自分の目標と動機を持った人物であり、OpenAIと報酬関数… そう、報酬関数を持っています。AIに関する彼の予測については、多少割り引いて考える必要があるかもしれません。なぜなら、彼は結果に対して既得権を持っているからです。
しかし、これをサンフランシスコのAIシーンでどのような会話が行われているのかを知る、いわば風見鶏として使うべきだと思います。ここの人々は、私は強調しすぎることはできないのですが、AGIまたはそれに類似したものを非常に近い将来、おそらく今年中に手に入れることができると考えていることについて、非常に誠実で真摯なのです。
そして12月だけでもこれらのモデルの改善を見ると、彼らの意見を真剣に受け止める必要があると思います。
はい、それではOpenAIから話を移して、12月に起こったもう1つのことは、GoogleがフラッグシップAIモデルの新バージョン、Gemini 2.0をリリースしたことです。ケーシー、すでに試してみましたか?どう思いますか?
実は、まだ試していません。というのも、私が料金を支払っているGeminiのコンシューマーブランドにはまだ搭載されていないからです。ただし、Deep Researchと呼ばれる新機能があり、Geminiにウェブを読み込ませて、何かについて小さなレポートを作成させることができます。1回だけ使ってみましたが、まあまあという印象でした。
正直に言うと、2.0については、OpenAIのものほど衝撃的でも印象的でもなかったので、あまり詳しく追っていません。あなたはどうですか?
私はGemini 2.0を少し試してみました。主にGoogleで見たデモシリーズでですが。その中のいくつかは他のモデルに追いつくようなものでした。GoogleはまたGemini 2.0フラッシュシンキングモードもリリースしました。これは、OpenAIのO1やO3に似た推論時計算モデルの初めての試みでした。
Geminiのディープリサーチモードはまだ試していませんが、どれだけクールなのかという話を聞いています。そのため試すのが楽しみです。しかし、この分野で信頼できる人々、その判断を信頼している人々は、これは基本的にGoogleが同じ軌道上にいることを発表したものだと言っています。OpenAIや他のライバル企業と同じペースで、2025年には急速にスケールアップし、さらなる進展が期待できるということです。
はい、ただし今週Xで話題になった投稿があり、誰かがGoogleに「トウモロコシは消化されるのか」と尋ねたところ、すべての画像結果がAIの生成した意味不明なトウモロコシの図表だったという非常に面白いものがありました。このエピソードが配信される頃には修正されているかもしれませんが、もしそうでなければ、「トウモロコシは消化されるのか」で画像検索をすれば、Googleの AI検索スキルがどの程度かが分かるでしょう。
そうですね。結論として、GoogleはAI分野で着実に進展していますが、まだ多くが消費者の手に届いていません。そのため、2025年の問題は、これらが本当にGoogleが言うほど優れているのかということになるでしょう。
はい、年末年始の休暇中に追いかける最後の3番目の話題は、Deep Seekという中国の企業からのものです。Deep Seekは中国のヘッジファンドであるHigh Flyerが運営する中国のAI企業です。クリスマス頃、私の家が盗難に遭っている時に、彼らはDeep Seek V3という新しいモデルをリリースしました。これは世界をリードするチャットボットと同等のランクにあり、多くの人々の注目を集めました。
私はまだこれを使用していませんが、これについて知っておくべきことがいくつかあります。1つは、非常に大規模だということです。6800億以上のパラメーターを持っており、これはMetaのLlamaシリーズの最大モデル(これまでオープンモデルのゴールドスタンダードとされてきた)の4050億パラメーターをはるかに上回ります。
しかしDeep Seekについて本当に重要なことは、それが550万ドルのコストで訓練されたとされることです。つまり、LlamaやGPTのような最先端のモデルと同等の性能を持つLLMが、その訓練コストのごくわずかな金額で作られたということです。
素晴らしいブロガーのサイモン・ウィリソンによると、米国が半導体に対して課している輸出規制が実際には、これらの中国の開発者たちの最適化能力を向上させる刺激になっているという推測を見ました。実際、今では550万ドルで最先端のモデルを手に入れることができます。これはLLMの普及に向けた大きな一歩です。
少し立ち止まって、あなたが今説明したことをもう少しゆっくりと見ていきましょう。とても重要だと思うからです。私はゆっくり説明しようとしていたのですが…
もっとゆっくりが必要ですね。ここではディープリサーチモードが必要かもしれません。
過去5年ほどの大きな疑問の1つは、中国のAI産業と、米国の最先端AI研究所との相対的な位置関係、そして彼らを遅らせるためにもっと多くのことをする必要があるのか、そもそも遅らせることができるのか、あるいはこれが単なる共通知識で、誰かが新しいAIの方法を発明するとすぐに世界中に広がり、それを止めることはほとんどできないのではないかということでした。
米国で行ったことの1つは、CHIPS法と呼ばれるものを可決し、一連の規制とともに、基本的にどのAIチップを中国に輸出できるかを制限しました。私たちは、これらの制限が効果的に中国のAI産業を制約できる能力に多くの信頼を置いていました。もし彼らがNVIDIAなどの企業から最新のチップを入手できなければ、米国の最先端モデルと競合するモデルを構築することができず、それが私たちの国家的優位性を維持する1つの方法になるだろうと考えていました。
Deep Seekが示した、あるいは少なくとも示唆したのは、中国が実はそれほど遅れていない可能性があるということです。このモデルについて、私自身は試していませんが、ベンチマークによると、多くの点でOpenAI、Google、Anthropicなどの企業の最新最高のモデルと同等のレベルにあります。
一部の指標によると、これは私たちが持つオープンソースまたはオープンウェイトモデルの中で最高ランクにあり、訓練には最新の最高性能のハードウェアを必要としなかったように見えます。
Deep Seekの報告によると、この新しいモデルV3は、推定コスト約550万ドルで訓練され、すべての大手AI研究所が使用している最先端のNVIDIA H100やA100チップではなく、NVIDIAのチップの異なるバージョンであるH800(基本的にNVIDIAの最先端チップの性能を落としたバージョン)で訓練されました。
これらすべてが示唆するのは、ハードウェアへのアクセスを制限することでAIを規制することは、私たちが考えていたよりもはるかに複雑になるだろうという結論です。1つの解釈は、実際には中国が最先端の基盤モデルを構築することを止めることはできず、米国を中国の前に維持しようとする私たちの規制体制は十分ではないということです。これについてどう思いますか?
まず最初に言いたいのは、人々がこの議論をこのように枠組みすることに少し神経質になります。なぜなら、AI物語を米国と中国の競争として枠付けしようとする多くの人々は、とても強硬で、私たちを避けたい潜在的な紛争に導こうとしていると思うからです。
また、それは米国の企業がすべて可能な限り速く走らなければならず、たとえ安全性で妥協することになったとしても、できるだけ早くAGIを構築しなければならないという前提を置いています。さもなければ、この中国という迫り来る亡霊とそれが引き起こしうるすべての事態という理由で。私はただ、私たちは必ずしもそうする必要はなく、依然として慎重に、用心深く進むことを選択できると言いたいと思います。しかし、これが中国が非常に高性能なモデルを開発することを防ぐのは困難になり、規制がより複雑になることを示していると思いますか?はい、間違いなくそうですね。
ケーシー、これが私たちが留守にしている間に起こったAIの出来事のほんの一部ですが、おそらく最も重要なことはほとんど網羅したと思います。2025年に1つ確実なことがあるとすれば、それは私たちがさらなるAIの変化と進歩について話し合うのに非常に忙しくなるだろうということです。
誰かが私に、2023年は「ああ、AIはとても速く進んでいる」と皆が言った年で、2024年は非常に事務的な年だと感じられ、2025年は再び「ああ、AIはとても速く進んでいる」に戻る年になる可能性があり、その後はずっとそのように感じ続けるかもしれないと言っていました。それは楽しい考えですね。
はい、それでは良いお年をお迎えください。AI眩暈は永遠に続くのです。
hey、これでこのクリップは終わりです。気に入っていただけたら、私たちのページに行ってサブスクライブしてください。ほぼ毎週、テクノロジーと未来に関するこのようなショーを配信しています。今すぐそちらに行ってサブスクライブしてください。

コメント

タイトルとURLをコピーしました