AIでは何も起きない、と思ったら突然全てが一気に動き出す

11,028 文字

Nothing Much Happens in AI, Then Everything Does All At Once
When it rains, it pours. OpenAI Operator tested and reviewed, with full paper analysis. Perplexity Assistant is useful. ...

AIニュースについていこうとしている一般の皆さん、本当に気の毒に思います。皆さんが持っているかもしれない疑問、例えば「OpenAIがOperatorで私の仕事を自動化してしまったの?」とか。200ドルかかるし、そういったクリックベイトな見出しを超えて理解するのは本当に難しいですよね。「アメリカ政府がStargateプロジェクトに5000億ドルを投資した?一体それは何なの?」とか。「中国がDeep seekというもので西洋に追いついた」とか。「人類最後の試験って何を意味しているの?」とか。
そこで少しでも助けになればと思い、ここ100時間の間に起きた9つの出来事についてカバーしていきたいと思います。もちろん、Deep seekの論文も全て読みましたし、OpenAI Operatorやperplexityアシスタントなども何時間もテストしてきました。念のため言っておくと、このperplexityのレスポンスは編集済みです。
まず最初に取り上げるのは、OpenAI Operatorについてです。まあまあ decent な出来です。アメリカ以外の場合はVPNが必要ですが、正直な話、機能性のためだけにVPNを使うことはお勧めしません。ただ、エージェントの今後の方向性を把握したいのであれば使う価値はあります。ただし、はっきり言って、どんな仕事も自動化できるレベルには程遠いです。主な理由が2つあります。
1つ目は、同じような基本的な失敗プランを何度も繰り返すループに陥ってしまうことです。基本的なループから抜け出すほどの賢さがまだないんです。2つ目の大きな理由は、OpenAI自身が課している制限によるものです。理解できる制限ではありますが。
約20のランダムなタスクを試してみましたが、実際のところ完全にリラックスすることはできません。常にシステムに戻って「はい、続行してください」と言わなければなりません。そしてこれは手動でハードオーバーライドすることはできません。プロンプトで許可を求めないように設定することもできません。
もちろん、多くのサイトにはCAPTCHAがあり、手動で入力する必要があります。プロンプトを何度も繰り返し試して、右上に保存して共有できるようなワークフローを開発できれば、特定のタスクで少し時間を節約できる可能性はあると確信しています。ただし、現時点では正直なところ、実用的とは言い難いです。
しかし一歩下がって見てみると、これらがどこに向かっているのかが分かります。このOperatorには多くの安全策が組み込まれていて、それが速度を低下させている可能性がありますが、人々はそういった安全策のない、ファイルのダウンロードが簡単で、CAPTCHAも自動で処理してくれるようなものに移行するでしょう。使いやすさという点では素晴らしいことですが、デッドインターネット理論にとっては良くないかもしれません。
それから、完全なミスもあります。OpenAI Operatorのシステムカードを全て読みましたが、かなり示唆的でした。Operatorは「取り返しのつかないミス」を起こすことが知られています。例えば、間違った受信者にメールを送信したり、ユーザーの服薬リマインダーの日付を間違えたりするようなものです。確かにそういったミスは減らしましたが、完全になくなったわけではありません。
また、先ほど話した次のステップに進む前の確認についても、ほとんどの場合は行われますが、必ずしもそうではありません。時にはOperatorが確認なしで進めてしまうこともあります。これは視点によって良いことにも悪いことにもなりえます。
銀行取引のような操作を依頼された場合、約94%の確率で拒否するということは、おそらく安心できる情報でしょう。では、Operatorが悪意のあるサイトに誘導されて騙されそうになった場合はどうでしょうか?実際にそういった事例が1件あり、Operatorはそれに気付きませんでした。
しかしOpenAIはこれを認識しており、プロンプトインジェクションモニターと呼ばれる追加の安全層を設けて、サイトがOperatorを騙そうとしていないかチェックしています。そして、この懸念される事例も検出されました。ただし、1つ問題があります。これも約1%の確率で失敗するのです。もちろん、新しく発見された攻撃に対して迅速に更新することを約束していますが、各層で何かが間違う可能性が僅かにあります。
前回の動画で覚えているかもしれませんが、様々なコンピュータUSベンチマークやウェブブラウジングベンチマークでの性能について、リークされた初期の結果をお伝えしました。ただし、それぞれの段階で何をすべきかを考えるために思考の連鎖(Chain of Thought)を使用し、スクリーンショットを撮って画面をモニタリングしてから判断を下します。
思考の連鎖という言葉を聞いたら、近い将来の急速な改善を想像してください。もし今年、中国から広くアクセス可能なオープンソースのエージェントが登場し、このようなコンピュータ使用ベンチマークで80〜90%のスコアを達成したら、インターネットは永遠に変わることになるでしょう。
ちなみに面白い事実として、システムプロンプトはモデルに嘘をつき、モデルに嘘をつくことを奨励しています。モデルにコンピュータの使用経験が20年あると伝え、コンピュータを使用中に誰かを認識した場合、例えば画像を閲覧している時に、たとえその人を個人的に知っていても、知らないと言うように指示しています。モデルに嘘をつくことを奨励することに問題があるとは思えませんが。
とにかく、次の話題に移らなければなりません。昨日発表されたAndroid向けperplexityアシスタントについてです。すぐにダウンロードして試してみました。明らかにSiriよりもずっと賢く、特定の曲や特定のYouTube動画を再生するのに使っていますが、現時点では少し問題があります。まだ十分に賢くないのです。「AI explainチャンネルの最新動画を再生して」というような命令を理解できません。
次は、多くの人がエージェントよりも大きな話題だと考えているもの、それこそ最大級の話題、Stargateプロジェクトへの5000億ドルの投資についてです。ただし、実際には5000億ドルではありません。確実なのは1000億ドルで、これは以前から報告されていたもので、私も動画で取り上げましたが、残りは約束に過ぎません。とはいえ、1000億ドルでもとてつもない額です。
サムの言葉を借りれば、それだけの金額があれば多くの「美しい大きな建物」、つまり巨大なデータセンターを建設できます。つまり、AIが社会を根本的に変革すると考えていない限り、そのような投資はしないということです。約束された投資規模で言えば、GDPの割合としてマンハッタン計画に匹敵する規模です。
核爆弾の開発という類推は、少なくともその曖昧さという点では適切です。なぜなら、Stargateプロジェクトは米国大統領の言葉を借りれば「雇用に大いに良い」もので、サム・アルトマンによれば「国にとって信じられないほど素晴らしい」ものですが、このプロジェクトに投資している多くの企業が、AGIを手に入れたら最初にすることの1つが人件費の削減であることは、あからさまな事実です。
サム・アルトマン自身、何年もの間、最近でさえそのように何度も直接予測しています。「労働コストはゼロになる」とか、「大規模な不平等を予想している」といった具合です。もちろん、株主価値への恩恵は素晴らしいものになるでしょうし、プロジェクトStargateの主要投資家の1人であるラリー・エリソンによれば、他のメリットもあるとのことです。
そして、それは何かと聞かれれば、AI監視です。警察は最高の振る舞いをするでしょう。なぜなら我々は常に記録し、監視し、全てが起きていることを記録しているからです。市民も最高の振る舞いをするでしょう。なぜなら我々は常に記録し、全てが起きていることを報告しているからです。そして、それは反論の余地がないものです。
ちなみに、そのような監視のマイナス面を少し懸念しているのは私だけではありません。このBloombergの記事の最後で、Anthropicのダリオ・アミッド CEOは、Stargateのニュースに対してこのように反応しています:「1984年のようなシナリオ、あるいはそれ以上のことが起きることを非常に懸念しています」
もし予測する立場であれば、それは最初に中国のような場所で起こり、後に西洋に来るだろうと言えますが、それはほとんど慰めにはなりません。基本的に、全てのテキストメッセージとメールが、破壊活動の兆候を探す巨大なAGI LLMによって監視されることを想像してください。
もちろん、Stargateに疑問を持つ人もいます。興味深いことに、発表の場にいなかったMicrosoftもその1つです。彼らの幹部たちは、OpenAIのためにそのような大規模なデータセンターを建設することが長期的に採算が取れるかどうかを研究していたそうです。
Anthropicといえば、次の話題は短いものです。というのも、これは単なる噂ですが、かなり信頼できる情報源からのものです。Semi Analysisのディラン・パテルによると、Anthropicはo3よりも優れたモデルを持っているとのことです。o3が何かわからない方のために説明すると、私も動画で取り上げましたが、数学やコーディングの様々なベンチマークを破り、現在知られている中で最も賢いモデルですが、まだ一般公開はされていません。
Googleはすでに推論モデルを持っており、Anthropicは内部的にo3よりも優れたモデルを持っているとされていますが、まあ、最終的にリリースされるまでは分かりませんね。
さて、多くの人が待ち望んでいた話題に移りましょう。中国のDeep seek R1、西洋の多くの人々を驚かせたモデルについてです。Deep seekについて知らない人のために説明すると、中国の量的取引会社のサイドプロジェクトのようなものです。しかし、彼らは西洋のAGI研究所が生み出した最高のモデルとほぼ同等のモデルを作り出しました。私の意見では完全に同等というわけではありませんが、使用コストは圧倒的に安く、誰も彼らがこれほど早く追いつくとは予想していなかったでしょう。
さらに文脈を理解していただくために、Deep seek R1モデル全体とDeep seekチーム全体の予算は、おそらくベンチマーク数値によればDeep seek R1より性能が劣るとされる西洋のAI研究所のCEOの年俸よりも少ないと思われます。そして、これらの数字は偽装されているとは思えません。
このモデルが100日前にリリースされていれば、間違いなく世界最高のモデルとして数えられていたでしょう。そして、Deep seekが今年、特に数学や特定の科学ベンチマークの領域で、他のどのモデルよりも優れたモデルを出す可能性も排除できません。可能性は低いですが、あり得ます。
ちなみに、私自身のベンチマーク、基本的な推論能力のテストで30.9%を獲得しました。これも数ヶ月前であれば世界最高スコアだったでしょう。
モデルの作り方の詳細に入る前に、まず、その意味するところについて広く考えてみましょう。まず、人々はこれをオープンソースと呼んでいますが、完全なオープンソースではありません。モデルの背後にあるデータセットは公開されていません。Deep seek R1はベースモデルのDeep seek V3を使用しており、約15兆トークンで訓練されたと述べていますが、それらのトークンが何だったかは言っていません。つまり、訓練データについては本当のところ分かっていません。そうして、完全なオープンソースではないということです。
Deep seek R1に話を戻しましょう。アメリカは中国に対して、NVIDIAのb00などの先進的なチップの使用を制裁で禁止しましたよね?はい、そうです。しかし、これは意図せずに中国のAI企業に、持っているものでより革新的になることを強いる結果となったかもしれません。つまり、これらのチップ制裁が実際には中国をAIで西洋と競争できる立場に押し上げた可能性があるのです。
次のコメントは、これが引き起こす加速についてです。というのも、主にオープンソースなので、Metaのような競合企業も含め、誰でもDeep seekがやったことをコピーできるからです。実際、あるリークによると、R1はまだリリースされていないMetaのllama 4を大きく上回る性能を示しており、そのためMetaは全てを中止してDeep seekがやったことをコピーしているとのことです。もちろんこれは未確認情報ですが、原則は同じです。誰でもコピーできるので、R1は今や最低限の性能基準のようなものになっています。
これは安全性にとって良いニュースでも悪いニュースでもあります。見方によります。一方で、AIのガバナンスとコントロールは限りなく絶望的になりそうです。Google DeepMindとOpenAIの元所属者である非常に尊敬される人物に、Deep seek以降のAGI安全性の計画は何かと尋ねたところ、「計画はない」と答えました。
しかし一方で、安全性研究者がo1やo3ではできなかった方法で、Deep seek R1の思考の連鎖を調査できることを歓迎する声もあります。これは安全性テスターにとって素晴らしいことです。例えば、数日前にパトレオンのAI Insidersで3人にインタビューしたApollo Researchのような組織にとってです。
R1を研究することが重要かもしれない理由について疑問に思う方もいるでしょう。それは、このモデルがOpenAIのOシリーズのモデルのように、回答する前に思考の連鎖を出力するからです。Oシリーズではその思考の要約しか見ることができませんが、R1では全てを見ることができます。そのため、モデルがいつ策を練っている可能性があるのかをより良く研究することができます。これは、このインタビューで取り上げた内容です。
では、そもそもDeep seek R1はどのように訓練されたのでしょうか。この22ページの研究論文を要約するのは難しいですが、1〜2段落で試してみましょう。もちろん、これは単純化しすぎですが、以下のようになります。
まず、すでに作成していたベースモデルのDeep seek V3から始めます。そして、モデルにコールドスタートを与えるために、素晴らしい長い思考の連鎖の例から始めましょう。この段階をスキップして強化学習に直接移ることもできますが、彼らは訓練が少し不安定で予測不可能だと感じました。
ベースモデルをそのコールドスタートデータで微調整した後、次の段階に移ります。強化学習です。数学やコードなどの検証可能な領域でモデルを繰り返しテストし、正しい結果が得られた時に報酬を与えます。個々のステップが正しいかどうかではなく、結果が正しいかどうかです。これについては後で触れますが、正しい結果も適切な言語で適切な形式に従う正しい出力との微調整も必要です。形式とは、常にタグで最初に考え、その後で回答するということです。
そして、この強化学習と微調整を繰り返します。今度は「非推論データ」も含めて、事実性や「自己認知」などのより広い領域も取り入れます。ちなみに、これらの正しい出力と微調整データは全て、より小さくて賢いモデルを蒸留するために使用できます。
とにかく、これら全てを行えばDeep seek R1が出来上がります。もちろん、多くのことを省略しています。それほど簡単なら、どの企業もやっているはずです。しかし、基本的な考え方はこれです。
そして、このプロセスがいかに人工的かお気づきでしょうか。モデルに思考の連鎖を生成させ、正しい答えにつながった出力でモデルを強化する。彼らは反射的な推論を義務付けたり、特定の問題解決戦略を促進したりはしませんでした。強化学習プロセス中のモデルの自然な進行を正確に観察したかったのです。これは「苦い教訓」の実践です。人間のルールをハードコードせず、モデルに自分で発見させるのです。
ちなみに、モデルが自分で学ぶことの1つは、より良い結果を得るためにより長い応答を出力することです。訓練が進むにつれて、応答の平均の長さが上がっていくのに注意してください。より難しい問題を解くにはより長い出力が必要だということは、理にかなっています。モデル自身が自己修正する必要があることを学びました。これは研究者が入力したものではありません。そのため、モデルは常に応答の途中で「待って、待って」と言って考えを変えるのです。
さて、人間が学んだのは、モデルを「ジェイルブレイク」する、つまり望むことを何でもさせる方法です。もしそれに興味があるなら、Gray Swan Arenaがあります。これは今日の動画のスポンサーでもありますが、最新のものを含むこれらのモデルをジェイルブレイクできるかどうかをテストする場です。AIの研究者でなくても、クリエイティブライターやハッカーでも参加できます。時には金銭的な報酬もあります。時にはまだリリースされていないモデルをテストすることもあります。そして、今日からライブで開始される競技もあります。
未リリースのモデルはほぼ全てジェイルブレイク可能で、最も上手くやった人のためのリーダーボードもあります。いつもの通り、リンクは説明欄にあります。
次の話題は個人的に大変興味深いものです。というのも、彼らが使用している検証器の種類に関係しているからです。この論文のこの部分は、o3が数学で驚異的な結果を出すために、どのように訓練されているかについての私の認識を更新しました。
思考の連鎖全体の中で、たった1つの計算ミスで全ての良い仕事が台無しになる可能性があるため、全ての推論ステップが検証される必要があると思っていました。これはプロセス報酬モデリングと呼ばれ、それがo1とo3の訓練方法かもしれませんが、おそらくそうではありません。
代わりに、今では単純な結果報酬モデリングのように見えます。これは、元の「ステップバイステップで検証しよう」という論文で性能が低かったアプローチです。多くの有名な研究者、フランソワ・シャレを含む人々は、依然としてOシリーズが各ステップで一種の検索や検証ステップを実行していると信じていますが、Deep seekチームは、ステップバイステップの検証は追加の計算オーバーヘッドを加えると述べています。
また、ベースモデルが検証器に合格したと説得することに長けてしまう報酬ハッキングの影響も受けやすいとのことです。つまり、各推論ステップを検証するよりも、最終的な答えだけを評価する方が単純なようです。
これが私が当初予想していたよりも純粋な形の強化学習である別の手がかりが、OpenAIのセバスチャン・ブックから来ています。「本当に、全てが一種の創発的なもので、ハードコードされているものは何もありません。外で見られるような推論に関して、モデルに『ねぇ、解決策を検証すべきだよ』とか『バックトラックすべきだよ』とかXYZすべきだとか、そういった戦術は一切与えられていません。全てが創発的で、全てが強化学習を通じて学習されています。これは今や正気の沙汰ではありません」
この動画の時点で、OpenAIによる一種のホワイトウォッシュについて指摘したいと思います。私の知る限り、他の誰も気付いていないようです。Oシリーズは、その堅牢性についてOpenAIから称賛されています。例えば、たった2日前のこの論文では、モデルが返信する前により長く考えることができるというのは安全性にとって素晴らしいニュースだとしています。
しかし、もちろん私は、プロセス報酬モデリングが安全性にとって良いとされていた時のことを覚えています。OpenAIは、結果ではなく思考プロセス自体に報酬を与えることがアラインメントにとって励みになる兆しだと自慢していました。これはサム・アルトマンによっても繰り返されました。なぜなら、全体的な結果だけを見るのではなく、プロセスの各ステップを確認できると考えられていたからです。
もし今やっているように結果だけに報酬を与えるのであれば、モデルは結果に向かう過程で様々な策略を弄するでしょう。代わりに、プロセス監督が最も効果的に機能し、各個別のステップを精査して最適化できるのであれば、全体的なプロセスをより良く監視できるはずです。
私の疑問は、もしプロセス監督における各個別ステップの最適化がアラインメントにとって良い兆しであるなら、今や結果に基づく監督を行っているということは何を意味するのでしょうか?アラインメントにとって重要なマイナス面があるという新しいブログ投稿があってもいいのではないでしょうか?いいえ、良く見える場合にだけブログ投稿が出るようです。
人間が承認する思考の連鎖を生成する夢は諦めてください。これは英語のリクエストに対するスペイン語での思考の連鎖の要約で、私が承認するのは少し難しくなります。もちろん、多くの中国語での思考の連鎖も見てきました。
このような言語の混在は、アンドレア・カーパシーのような人々によって予見されていました。彼は、モデルが思考の連鎖で英語を話すのをやめた時、強化学習が適切に行われているということが分かると言いました。なぜ英語、あるいは究極的にはどんな人間の言語も、ステップバイステップの推論の最適な方法であるはずがないのでしょうか?
モデルが気候変動の解決策を提案し、その思考の連鎖を調べてみたら、単なるランダムな文字だったらどうでしょう?何が起きているのかを信頼するのは少し難しくなります。実際、Google DeepMindのCEOであるデミス・ハサビスは、昨日公開されたインタビューで、モデルが欺瞞的になり、悪意のある能力のテストで意図的に性能を低く見せるのではないかと懸念していると警告しました。つまり、生物兵器を作れないふりをするということです。
また、デミス・ハサビスは最近数ヶ月で彼のタイムラインを変更したことに気付きました。10年以内にAGIまたは超知能を期待すると言っています。私のチャンネルをフォローしている方なら、彼が2034年のような期限を示していたことをご存知でしょう。しかし、これをご覧ください:
「AGIの基準として私が常に持っていたものの1つが、明らかに欠けているのは、これらのシステムが科学について独自の仮説や推測を発明する能力です。既存のものを証明するだけではなく。もちろん、既存の数学的推測を証明したり、世界チャンピオンレベルで囲碁をプレイしたりするのは非常に有用ですが、システムは囲碁を発明できるでしょうか?新しいリーマン仮説を思いつくことができるでしょうか?または、アインシュタインが持っていた情報で相対性理論を思いつくことができるでしょうか?今日のシステムは、そのような創造的で発明的な能力からはまだかなり遠いと思います。」
「では、AGIまでどのくらいでしょうか?」
「うーん、数年だと思います。おそらく3〜5年くらいでしょうか。」
「もし誰かが2025年にAGIに到達したと宣言したら?」
「おそらくマーケティングでしょう」
つまり、ほぼすべてのAI企業のCEOが、この1〜5年というタイムラインに収束しているようです。なぜ今年ではないのでしょうか?奇妙な事例を挙げて説明してみましょう。Deep seek R1のような モデルには、奇妙な推論の欠陥があります。私がテストしているコーディングのサイドプロジェクトのため、Deep seek R1に特定のパラメータを満たす多肢選択問題を作成するよう依頼しました。パラメータを満たすことには失敗しましたが、それが本当の問題ではありません。これらの25問の多肢選択の解答に少し欠陥があることに気付きましたか?BとCの答えに偏っているのです。
しかし、私のより大きな疑問は、これらの残された推論の盲点と呼べるものが、単なる強化学習のスケーリングの副産物として埋められるのか、それとも1つずつ修正する必要があるのかということです。前者の場合、AI企業のCEOが公に予測する非常に短いタイムラインでAGIが実現する可能性があります。後者のシナリオ、つまり1つずつ修正する必要がある場合、2030年以降もAGI否定論者が存在する可能性があります。
では、「人類最後の試験」という言葉で締めくくりましょう。私はこれをAIに対する検定とは考えていませんが、これは興味深い新しいベンチマークです。タイトルは少し誤解を招くかもしれません。なぜなら、このベンチマークの作成者たちは、人間のグループが数日かかるような、さらに難しいベンチマークに取り組んでいるからです。
Deep seek R1がこの最も難しいベンチマークで99.4%を獲得し、最高の性能を示したという事実に注目する人もいます。実際のところ、o1のようなモデルをテストし、o1が苦戦する問題を見つけるまでテストを続けたというのがベンチマークの作成方法です。Deep seek R1はまだリリースされていなかったため、そのような反復をすることができませんでした。
そのため、最も賢いモデルだから最高の性能を示したというのは完全には正確ではありません。私が見る限り、ハチドリの解剖学の細かい詳細など、非常に難解な知識を大きくテストしています。90%のスコアを獲得するモデルは素晴らしく、信じられないものになるでしょうが、エージェンシーベンチマークで90%を獲得するモデルほどのインパクトはないと思います。
この動画の冒頭で触れたように、エージェントがリモートタスクを適切に実行できるようになれば、世界経済は変革されるでしょう。ニューヨーク・タイムズは、このベンチマークの元の名前が「人類最後の抵抗」だったと報じています。タイトルを変更して良かったと思います。なぜなら、来年末までには、あるいは今年中にもこの特定のベンチマークが打ち破られる可能性が見えるからです。
1つの動画でこれほど多くのことをカバーするのは大変でしたので、最後まで見ていただき、ありがとうございます。先ほど言ったように、私は自分のことよりも、無数のランダムな見出しの中から実際に何が起きているのかを理解しなければならない一般の人々のことを気の毒に思います。この動画で最善を尽くしましたが、皆さんの意見をお聞かせください。いつも通り、視聴いただき、ありがとうございます。素晴らしい1日をお過ごしください。

コメント

タイトルとURLをコピーしました