
33,115 文字

アンドレイ: こんにちは。Last Week in AIポッドキャストへようこそ。ここではAIの最新動向についてお話しします。今回のエピソードでも、いつも通り先週の最も興味深いAIニュースをまとめて議論していきます。また、いつも通りlastweek.aiという私たちのテキストニュースレターでは、ここでは取り上げない更に多くのAIニュースをご覧いただけます。
私は司会の一人、アンドレイ・コレンコフです。スタンフォード大学でAIに焦点を当てた博士号を取得し、現在は生成AIのスタートアップで働いています。
もう一人の司会はジェレミー・ハリスです。AI安全保障企業であるCloudStone AIの共同創業者兼CEOです。これは何度も言ってきましたが、今や本当にそうなっています。
アンドレイ: そうですね。今までどれくらいのエピソードをやってきたんでしょうか?100回近くになるはずですね。もう2年近くになります。
ジェレミー: ええ、その通りです。いくつか飛ばしましたが、100回に迫っているはずです。始めた頃を思い出すと、ChatGPTの登場直後でしたね。私が参加したのはその頃で、それまでは別々のポッドキャストをやっていましたが、突然すべてが大きく動き始めました。
アンドレイ: 今週はそれほど大きな動きはありません。簡単に今回のトピックを紹介しましょう。大きなニュースはありませんが、OpenAIやAnthropic社が新機能を発表しています。ビジネス面では、いくつかの興味深いオープンソースプロジェクトやモデルが登場しました。また、小規模モデルの相互運用性と効率性に関する研究もあります。そして政策と安全性のセクションが最も中身の濃い内容となるでしょう。ドナルド・トランプの勝利がAIに与える影響について、また中国やハードウェア、そして米国の規制に関する最新状況についてお話しします。
ニュースに入る前に、いつも通り視聴者のコメントにお答えしたいと思います。YouTubeでいくつかコメントをいただきました。コミュニティやDiscordの提案を支持する声がありました。興味深いですね。まだ決定はしませんが、もう少し声が集まれば、AIニュースについてチャットできる場を作るかもしれません。
ジェレミー、あなたのメタに関する見解、特に国家安全保障の観点からの重みの公開についての意見が素晴らしかったというコメントもありましたね。
ジェレミー: そうですね、少しスパイシーな内容でした。そこに少し補足させてください。文脈として、中国企業が、というよりも中国がメタのオープンソースモデルを基盤として利用・依存していることが示されたということです。これは重要な点で、世界はこのことを長らく認識していました。
私の意見としては、今やこれは擁護できない段階に来ているということです。誰かがTwitterで私と議論していた点で、以前のポッドキャストでも触れた内容ですが、ここで再度取り上げたい点があります。
彼らは、オープンソースの利点として、これらのモデルにバックドアを仕掛けることができ、それによって国家安全保障の資産として利用できる、つまり中国が西側のオープンソースモデルを使うことで、我々が妨害できるバックドアを持つことができるという指摘をしました。
しかし、これが実際に起きているとは思えない理由がいくつかあります。詳しく議論することもできますが、バックドアは学習から除去するのが非常に難しいでしょう。アンラーニングは notoriously fickle(非常に不安定)で表面的なものだからです。
これを前回のエピソードでの私の意見に追加したいと思いました。より細かいニュアンスを加えることができました。
アンドレイ: ニュアンスを加えるのは常に良いことですね。他にもいくつかレビューがありました。アライメントに関するコメントを続けてほしいという声や、存在リスクについての話し方がちょうど良いバランスだという評価もありました。これは意図した通りで、多くの努力が実を結んでいると感じます。
批判的なレビューもありました。AIで生成した導入音楽についてですが、全員が好意的というわけではないようです。「導入部の音楽が本当にひどい」という指摘がありました。私は気に入っていますが、30秒ではなく15秒程度に短縮するかもしれません。いつも通り、楽しんでいただける方のために最後に付けることにします。
ニュースに入る前に、ここ数週間と同様、スポンサーの紹介をさせていただきます。最初はThe Generatorです。これはBabson Collegeの学際的AIラボで、起業家精神とAIに焦点を当てています。Babson Collegeは30年に渡り米国で起業家教育のナンバーワンスクールです。昨秋、学部を横断する教授陣が学生と協力してこのGeneratorを立ち上げました。
このラボは8つのグループに分かれており、AI起業家精神とビジネスイノベーション、AIの倫理と社会などの分野があります。現在ではBabson全体の教員のピアトレーニングを主導しています。彼らの目的はAIを活用して起業家精神、イノベーション、創造性を加速させることです。とても素晴らしい取り組みですので、リンクを用意していますのでぜひチェックしてください。
新しいスポンサーとして、ダレン・マッキーが彼の魅力的なAI安全性に関する本「Uncontrollable」を紹介しています。フルタイトルは「Uncontrollable, The Threat of Artificial Superintelligence and the Race to Save the World」です。AI リスクの話に関心がある方は、この本に興味を持たれるかもしれません。
AI安全性の分野でよく知られているマークス・テグマークは、「Uncontrollableは、我々の時代の最も重要な課題について、バランスの取れた、そして驚くほど最新の情報を提供する魅力的な本だ」と評しています。不確実性、制御、リスクなどのトピックを探求し、高度なAIについて懸念すべき理由を説明していますが、破滅論的な本ではありません。AI安全性とその対策について合理的な議論を展開しています。アマゾンへのリンクをショーノートに掲載しており、Audibleでも「uncontrollable」で検索できます。
ジェレミー: 実は私もダレンとこのトピックについて何度か話をしています。彼はこれについて深く考えており、この本の研究のために多くの人々と対話を重ねてきました。この分野に興味がある方は、ぜひ手に取って読んでみることをお勧めします。マークス・テグマーク、テグマーク1人が同意するこの本は、素晴らしい本、おそらく最高の本でしょう。
アンドレイ: これから何が来るかの予告かもしれませんね。それではニュースに移りましょう。いつも通りツールとアプリから始めます。最初の話題は、OpenAIが予測出力機能を導入したことについてです。この機能により、文書の編集やコードのリファクタリングなどのタスクでGPT-4.0の速度が最大4倍になります。
要するに、LLMを使用する際、入力を微調整したいだけの場合が多いということです。例えば、テキストやコードを与えて「この文書の文法エラーを修正してください」というような場合です。つまり、ほとんどは入力したものをそのまま出力し、わずかな修正を加えるだけです。これがこの機能の本質です。これを使用すると、出力が大幅に速くなります。
個人的には、この機能の登場がこれほど遅かったことに少し驚いています。これは確立された機能だと思います。しかし、AnthropicとOpenAIの両社が、このような開発者フレンドリーな機能をどんどん導入しているのを見るのは良いことですね。
ジェレミー: これは確かにOpenAIの製品化への取り組みの一環ですね。より多くのアプリケーション固有のツール開発に焦点を当てています。これを可能にしているのは推測的デコーディングという技術です。
この技術はしばらく前からありましたが、今では製品化されています。基本的な考え方は、2つの異なるモデルを使用するということです。ドラフトモデル、つまり非常に小さな低コストのモデルがあります。そして任意の時点で、そのドラフトモデルに次の5トークンなどを提案させることができます。
つまり、トークンを安価に予測させるのです。そして、それらの5つのトークンを並列で、より大きな計算コストのかかるモデルに供給することができます。このモデルは並列で処理できるため、1つの入力を処理するのと同じ計算量で済みます。そして本質的に、ドラフトモデルのトークン提案がどれくらい正確だったかの予測が得られます。
これにより、より高価なモデルのコストを多数のトークンに分散させ、編集やクリーンアップを非常に速く、非常に安価に行うことができます。これは推測的デコーディングの実践的な実装です。面白いことに、論文を読んでから数ヶ月後には、実際に製品化されてかなりのコスト削減を実現しているんですね。
これには別の利点もあります。モデルが確実な部分を誤って変更してしまう問題を回避できます。例えば、JSONファイルの一部だけを修正したい場合、残りのファイルは完全に同じままにしたい場合、この方法でそれが可能になります。
推測的デコーディングで彼らが行っているのは、出力の固定すべき部分を固定し、大きな高価なモデルには出力の可変部分についてのみ予測させているということです。これは推測的デコーディングの少し不格好な再解釈ですが、このウィンドウの前後の部分が具体的に固定されているという制約が加わっています。
私は経済性について興味があります。彼らが行っているのは、実際に修正される中間のトークンについてのみ課金するということです。これは公平だと思います。始めと終わりを同じに保つという強い事前条件を与えているので、それらのトークンの生成には課金せず、気にするトークンの生成にのみ課金するということです。これは経済的にも理にかなっています。
アンドレイ: その通りですね。また、実際にFactoryAIがOpenAIとパートナーシップを組んでこの新機能をAPIでテストしました。ベンチマークは報告されていませんが、実践的な数値がいくつかあります。精度を維持しながら応答時間が2〜4倍速くなったことが分かりました。例えば、処理に70秒かかっていた大きなファイルが約20秒で済むようになったケースもあります。
これが様々なアプリケーションで実践的にいかに有用かは容易に想像できますね。
次は、AnthropicとHaiku 3.5の価格引き上げについてです。前バージョンの4倍の価格になりました。この価格引き上げは、Haiku 3.5が前バージョンより優れているためだと主張されていますが、かなり驚きです。入力トークン100万件あたり1ドル、出力トークン100万件あたり5ドルです。これは前バージョンの4倍です。
ジェレミー: そうですね。GPT-4.0ミニと比べても約10倍高価です。これは注目に値します。実際、フルサイズのGPT-4.0の2.5倍安いだけです。GPT-4.0ミニはOpenAI シリーズの、GPT-4.0シリーズの俳句版のようなものだったはずです。
ここで我々は本質的に、小型モデルの俳句が登場し、「私はまだ小さいモデルですが、今やフルサイズモデルに近い価格を請求します」と言っているのを見ています。これは非常に興味深い展開です。これはこれらのモデルの経済性に関して非常に興味深い現象が起きていることを示しています。
大きな疑問の一つは、我々がここで多く議論してきましたが、LLMがどの程度コモディティ化するかということです。つまり、利益率がゼロになるまでということです。あなたのモデルは基本的に他社のモデルと同じで、結果的に誰もがモデルの生産と提供の純粋なコストに基づいて価格設定せざるを得なくなるということです。その時点で利益はゼロになります。これは経済的に起こることです。
課題の一つは、そのような状況では次世代の数十億ドル規模のデータセンターへの投資に十分な資金を蓄えることができないことです。これは構造的な問題です。今回初めて、我々はその傾向が覆されるのを目にしています。あるモデルが登場し「より高品質なので、このモデルの使用コストを引き上げます」と言っているのです。
多くの開発者たちは、ある意味で当然かもしれませんが、これを歓迎していないようです。必ずしも価格引き上げ自体ではなく、「品質が向上したから料金を上げる」というフレーミングに対してです。
これは本当に興味深いですね。スタートアップでよくある、というよりも経済学的な話ですが、何かを売って利益を上げようとする時、価値ベースの価格設定が基本です。製品のコストではなく、顧客にもたらす価値や製品の良さをアピールするのです。コストについて語り始めるのは、その業界全体がコモディティ化した兆候です。
マクドナルドに行って「同じハンバーガーを1ドル安くできませんか?」と聞いても、「パティはこれだけのコストがかかり、バンズはこれだけで、レジ係の時間はこれだけかかるから」とは言わないでしょう。おそらく出て行くように言われるでしょうが。
まあ、「こちらはウェンディーズです」と言われるかもしれませんが…とにかく、基本的に同じ製品を提供できるコモディティ化された業界では、利益率はゼロになり、コストに基づいて議論することになります。
これは異なります。ClaudeとAnthropicは「3.5 Haikuは品質が高いから料金を上げる」と言っています。これに対する反発は、この分野がかなりコモディティ化されていることを示唆しています。これは非常に興味深い兆候です。
このような価格の上下や新製品の登場を見ると、この分野で働く企業にとって、自動評価を通じて特定のLLMが目的のタスクをどれだけうまく実行できるかを迅速に評価できる体制を整えることが非常に重要になります。
新しいLLMが新しい価格帯で登場した時、そのLLMがその価格と品質でユースケースに適しているかどうかを迅速かつ効率的に評価できる必要があります。それができなければ、LLMの価格低下の波を効率的に活用することができず、製品に活かせません。
企業は最新のモデルをチェックする習慣をつける必要があります。Haiku 3.5が他のオプションよりも圧倒的に優れている企業もあるでしょう。しかし問題は、何と競争しているかです。GPT-4.0と競争しているのか、それともGPT-4.0ミニと競争しているのか。現時点ではその中間にいるような状況です。
アンドレイ: これは確かに少し驚きですね。3.5 Haikuの発表は3.5ソネットと同時で、それは約2週間前のことでした。価格変更の発表は今週になってからで、それに対して人々が反応しています。4倍の値上げはかなり劇的なので、最初から大幅に低価格だったのか、あるいは今後は3.5ソネットをメインに競争していきたいという意図があるのかもしれません。競争の観点から見ると、確かに興味深い動きです。
ライトニングラウンドでは、まずFlux 1.1 Pro Ultra and Rawについてです。主要なAI画像生成プロバイダーの一つであるBlack Forest Labsのノux 1.1 Proが、画像解像度を最大4倍に向上させました。400万ピクセルという非常に高解像度をサポートし、それでもサンプル生成時間は10秒と高速です。料金は1画像あたりわずか6セントです。
また、写真のようなよりリアルな画像を生成できるrawモードも備えています。より良いモデルが次々と登場し、よりリアルになっていくのは驚くことではありませんが、Black Forest Labsはこの分野で急速に進歩を遂げていますね。
ジェレミー: そうですね。彼らは記憶が正しければ、以前TwitterとしてZ知られていたXと提携してGrokアプリと画像生成機能の開発をサポートしています。これは彼らが独自の製品ラインを継続して展開している例で、いずれGrokにも統合されるかもしれません。
画像を見ると、私は画像の専門家ではないので、この分野に詳しい人々が最も興味を持つ画像生成の側面については詳しくありませんが、画像の品質は本当に高いように見えます。特にrawモードは非常にリアルで生々しい印象です。
この分野の素人として見ると、「素晴らしい、でも他の多くのモデルも同じような品質だよね」という感じです。この分野での位置づけがよく分かりませんが、それでも印象的です。Fluxはこれらの新しいモデルで突如として登場しました。
アンドレイ: XとGrokについて言えば、それに関する話題もあります。Xが一部の地域で無料版のGrokチャットボットをテストしています。これまではXのプレミアムおよびプレミアムプラス会員専用でしたが、今回無料枠が設けられ、2時間で2つのモデルに10質問、Grok-2ミニモデルには20質問、さらに1日数回の画像分析質問が可能になりました。
もちろんXへの登録と電話番号の紐付けが必要です。ChatGPTやAnthropicでも無料でチャットボットを使用できるので、これはその流れですね。現在はニュージーランドでテストが行われていますが、より多くのユーザーへの展開が興味深いところです。
ジェレミー: このような無料サービスを開始する大きな目的の一つは、常にユーザーデータの収集です。例えばRLHFのための上下投票などですね。また、マインドシェアを獲得することも重要です。OpenAIが依然として大きなリードを保っている理由の一つは、ChatGPTが一般家庭でも知られている名前になっているのに対し、Claudeはそうではないということです。
GrokはXを通じた展開のおかげで徐々に知名度を上げていますが、それはXを通じた配信効果のおかげです。この時点で、Xの配信力とX効果を組み合わせ、さらに無料であることは非常に興味深い展開になる可能性があります。
ただし、2時間で10質問という制限は興味深いですね。私の場合、仕事でClaudeを使う時は長時間のセッションで、多くのやり取りや質問の編集、プロンプトの調整などを行います。この制限は一部のヘビーユースケースには厳しいかもしれませんが、それは理にかなっています。
アンドレイ: これは、非購読者にサービスを体験してもらい、Xへの購読を検討してもらうための施策のように感じます。GrokだけでXの未購読者を説得できるかどうかは分かりませんが。
ジェレミー: その通りです。Xと統合することには価値がありますね。他の無料チャットプラットフォームは制限を設けていないかもしれませんが、Xとの統合という配信力は非常に重要です。おそらくまだその重要性は過小評価されているでしょう。今後の展開に注目です。
アンドレイ: アプリケーションとビジネスに移りましょう。チャットボットと言えば、面白い話題があります。大きな影響力はないかもしれませんが、興味深い話です。OpenAIがchat.comドメインを取得しました。正確な金額は不明ですが、1000万ドル程度と思われます。
このドメインは約2年前にHubSpotの共同創業者であるダルメッシュ・シャーが1550万ドルで取得したことが分かっています。そして今回、chat.comをOpenAIに売却したことが明らかになり、サム・アルトマンはXで単に「chat.com」とだけ投稿し、自慢げでした。
まだ大々的なプロモーションはなく、ブランド名もChatGPTのままですが、URLに1000万ドルというのは相当な金額ですね。
ジェレミー: もし1000万ドルだとすると、当初の取得額1550万ドルからかなりの値下がりですね。かなり大きな差額ですが、文脈から見るともっと興味深いことが起きている可能性があります。
どうやら取得者のダルメッシュ・シャーはOpenAIの株式で支払いを受けた可能性があるようです。これは興味深いですね。彼はXで少し暗示的な投稿をしています。これは新しいドメインのローンチとしては最も暗示的なものです。
もちろんchat.comにアクセスすると、現在はChatGPT-4.0のインターフェースが表示されます。
アンドレイ: 強調しておきたいのは、1000万ドルという金額は確実ではありません。これは以前支払われた金額に基づく推測に過ぎません。その程度の金額になると予想されるということです。
次はより重要な話題で、サウジアラビアがUAEのテックハブに対抗する1000億ドル規模のAIパワーハウスを計画しているというニュースです。サウジアラビアは、アラブ首長国連邦のテクノロジーハブに対抗する人工知能プロジェクトを計画しています。
これはデータセンター、スタートアップ、その他のインフラへの投資に使用される予定です。このイニシアチブは「プロジェクト・トランセンデンス」と名付けられており、なかなかディストピア的ではありませんね。かなり野心的と言えます。
もちろんこれは、米国や他の地域ほど豊富ではないと思われる人材をこの地域に呼び込むためにも使用されるでしょう。以前、UAEが大規模な投資を行っていることを取り上げましたが、当時注目すべきだったFalconモデルのような開発もありました。
最近のUAEからの大きなニュースは聞いていませんが、確かにこれらの国々がこの分野に投資し、プレーヤーになろうとしていることは間違いありません。
ジェレミー: そうですね。UAEに関する最近の大きな動きは、G42とファーウェイ技術や中国のテクノロジーからの切り離しが可能かどうか、そして商務省の関与といった構造的な問題が中心でした。
本当の問題は、AGIのトレーニング実行スケールのデータセンターの将来はどこにあるのかということです。UAEには巨大なエネルギー面での優位性があり、そのために多くの人々がそこをホットベッドとして、このインフラを構築する場所として注目しているのです。
これは本質的に、サウジアラビアが「ちょっと待って、私たちも石油が豊富な大国で、その石油がどれだけ長く持続可能か深刻な懸念を持っている」と言っているようなものです。そのため、産業の多様化を模索しています。
そして、石油はたくさんのエネルギーをもたらします。これは素晴らしいことです。これにより、このようなものを始めるために必要な要素の多く、つまり資金とエネルギーを手に入れることができます。彼らはすでにプロジェクト・トランセンデンスに似た構造を持っています。
ALLATと呼ばれる国営企業のような存在があり、持続可能な製造を行う1000億ドルの資金を持つファンドです。これはプロジェクト・トランセンデンスに関連する可能性のある規模と同程度です。
実際にどれだけの資金が投入されるかはまだ分かりませんが、潜在的なパートナーとの議論が行われています。その中には、確かアンドリーセン・ホロウィッツも含まれていたと思います。そうです、A16Zがこれを監督する国営機関である公共投資ファンドと協議しているようです。
これは興味深いですね。西側の民間企業がそれを検討しているということです。このファンド自体は最大400億ドルのコミットメントまで成長する可能性があり、総額500億から1000億ドルを目指しているとのことで、これはかなり印象的です。ただし、これはマイクロソフトのインフラ支出の約1年分に相当することを忘れないでください。ここでの課題は、これが2030年までの段階的な展開を予定していることです。また、サウジアラビアは現在この面で多くの問題に直面しています。
経済の過熱により、半導体やスマートパワーなど他のテクノロジー分野での同様の開発への以前のコミットメントを見直さざるを得なくなっています。基本的にすべてのスマート化です。そのため、これらのプロジェクトの将来には不確実性が生じています。
このプロジェクトは確かに大きな注目を集めています。今後の展開に注目です。ところで、少し調べてみましたが、サウジアラビアはLLM分野でどんな実績があるのでしょうか。
私は追跡していませんでしたが、70億パラメータのモデルが1つ見つかりました。今のところ見つけられたのはこれだけですが、参考までに。Wattadというテクノロジー企業が、サウジアラビアのドメイン固有のLLMであるMoolhemを構築し、サウジアラビアのデータセットだけで訓練したようです。
そこにはスケーリングの課題があることは明らかです。この分野での足跡は小さいですが、明らかに人材を引き付けようとしています。これは非常に重要なリソースになるでしょう。
これはサウジアラビアとUAEの両方にとって課題になると思います。少なくともモデル開発の面では。インフラ面の方が少し取り組みやすいかもしれません。
アンドレイ: そうですね。最大1000億ドルの支援という話は「事情に詳しい関係者」という記事なので、具体的な詳細はまだ多くありません。
続いてまたOpenAIの話題ですが、今度はハードウェアに関してです。メタのProject Orionの元ハードウェア責任者がOpenAIに加入しました。これはケイトリン・カリノウスキーで、メタのAIグラス・チームの元責任者で、VRプロジェクトにも携わり、アップルでMacBookのハードウェアも手がけていました。
OpenAIに加入し、ロボティクスとパートナーシップに焦点を当て、AIを物理製品に統合することに注力するようです。最近我々は、OpenAIがロボティクスのポジションの募集を開始し、その職務内容にChatGPTをロボットに統合することが含まれていたことを取り上げました。
人型ロボットの開発者であるFigureが、ChatGPTと会話し指示を受けて動作するロボットのデモを披露したのを見ましたね。おそらくこの採用は、OpenAIがさらにこの方向を目指していることを示唆しているのでしょう。
ジェレミー: 今週のOpenAIの採用に関しては、多くの憶測があります。このカリノウスキーの採用は、以前の上司であるジョニー・アイブと仕事をするためではないかという推測が記事にありました。
ご存知のように、ジョニー・アイブはiPhoneのデザイナーで、現在はOpenAIに迎えられ、彼の言葉を借りれば「iPhoneほど社会的に破壊的でない計算体験を生み出すためのAIを使用した製品」の開発に取り組んでいます。
彼が言っていることの解釈に迷いますね。iPhoneほど社会的に悪影響を与えないという意味なのか、それともiPhoneほどゲームチェンジャーにならないという意味なのか。おそらく前者でしょう。
とにかく、彼女は再び彼と仕事をすることになるようです。これは自然なパートナーシップですね。彼女にもアップルでのデザイン経験が豊富にあります。
OpenAIが「Orion」という言葉を含む2つの別々のメディアスレッドを持っているのは本当に不親切です。噂のモデルOrionの話があり、今度はメタの元Orionリーダーが異なる文脈でOpenAIに加入する話です。見出しをもう少し整理してほしいものです。
アンドレイ: そうですね。なぜ「Orion」なんでしょうか。もう少しオリジナルなプロジェクト名を考えてほしいですね。
また、OpenAIは今年初めにウェブカメラを製造する企業を買収しましたね。それも関係しているかもしれません。分かりません。彼らが何をしているのか、まだ分かりません。
ジェレミー: これは方向転換とも言えますね。4年前にロボティクスチームを全て解散したのに、今また再構築しているのですから。ただし、新しいロボティクスチームはより市場志向、製品志向のように見えます。
これ自体が興味深いですね。プラスもマイナスもあります。システムを実世界に出すことで、より多くのリアルワールドのフィードバックと興味深いデータを得ることができます。とにかく、OpenAIの組織構造はますます製品志向の組織に傾いています。
アンドレイ: OpenAIについてもう一つ最後の話題があります。これも面白い話です。OpenAIが特定のウェブアドレスにアクセスすることで、誰でも次期O1モデルにアクセスできる状態を誤って漏洩してしまいました。
これはURLを変更することでユーザーがアクセスできてしまったという意味で偶発的な漏洩でした。人々が気付いてから2時間後には停止されました。O1のプレビューモデルは使えますが、完全版のO1へのアクセスはまだありません。
人々はそれを試すことができ、OpenAIもこの事実を認め、「解決までにアクセス数は限られていた」と述べています。予想通り、人々はそれがかなり印象的だと評価しています。
ジェレミー: そうですね。OpenAIは少なくとも「OpenAI O1モデルへの限定的な外部アクセスを準備している際に問題が発生した」と述べています。おそらく特別なリンクを通じてアクセスを提供しようとした過程で漏洩したのでしょう。
デモのいくつかは興味深いものでした。典型的な例として、三角形の画像があり、その中にたくさんの線が引かれていて、それらの線が画像内に三角形を形成しているものがあります。そして「この画像には何個の三角形がありますか?」という質問が出されます。
標準的なマルチモーダルLLMはこれに本当に苦戦します。実際、O1のプレビューバージョンもこれに苦戦し、間違った答えを出しました。新しいバージョンは違いました。これは小さなことかもしれませんが、おそらく重要な評価指標の一つかもしれません。
この出来事の最も興味深い側面の一つは、セキュリティに関するOpenAIの継続的な苦戦を示していることです。これは言及せざるを得ません。
これは、O1の完全な推論過程が重要な知的財産であるため、人々がそれを見ることを防ごうとしていた組織です。そして、漏洩した完全版O1は、SpaceXの最近の打ち上げの写真を分析する際など、完全な思考の連鎖も漏洩させてしまいました。
これは決定的な競争上の秘密です。それこそがポイントです。OpenAIが当初これらの思考の連鎖を公開したくなかった理由は、まさにそれらの思考の連鎖がこのモデルシリーズの貴重な部分を複製するための非常に価値のある訓練データになると懸念していたからです。
そして、このような場当たり的なローンチで自ら漏洩させてしまうとは。OpenAIのセキュリティアプローチ、そしてそれに注ぐ努力のレベルに多くの信頼を置けません。
小さなことに聞こえるかもしれません。しかし、将来的に想定される可能性のある、あるいは国家安全保障上のリスクを扱う場合、これは小さなミスではありません。個人がアクセスしたのではなく、AIエージェントがアクセスして訓練データを収集する機会を利用したと想像してみてください。その時間内で大量のデータは収集できなかったかもしれませんが、これは重要な脆弱性です。
特にOpenAIがセキュリティゲームにより積極的に参入しようとしていることを大々的にアピールしているだけに、少し面白く、また少し残念です。
アンドレイ: 完全な思考の連鎖に関して一つ注意点があります。それが事実かどうかは確実ではありません。一人のTwitterユーザーがそれを見たと報告しましたが、それが完全な思考の連鎖だったかどうかは分かりません。
単に推論のステップを含む詳細な応答だったかもしれません。
ジェレミー: そうですね、その通りです。標準的な推論過程とは十分に異なっており、OpenAIが発表時に共有した推論過程に非常に似ていたことは確かです。非常に疑わしく見えます。
アンドレイ: 少なくとも内部で行っていることと似ているようですね。
最後の話題として、NVIDIAが再び以前よりもさらに価値が上がり、今回は世界最大の企業となりました。火曜日にアップルを抜きました。火曜日に何があったのかは分かりませんが。株価が2.9%上昇し、時価総額が3.43兆ドルとなり、アップルの3.3兆ドルを上回りました。
参考までに、マイクロソフトは3.06兆ドルです。また、NVIDIAは2022年末から850%以上上昇しています。NVIDIAの台頭は依然として驚くべき話です。
ジェレミー: 面白いですね。株の話にしすぎないようにしますが、フロンティアラボの私の友人たちは2021年から2022年頃にNVIDIAに大きく賭けました。
その収益をNVIDIAに投資し、今やその価値が10倍になっています。確かに…このすべてがどこに向かうのかについての確信があります。我々は投資アドバイスをしているわけではありません。私たちのアドバイスに基づいて投資しないでください。
しかし、確かにAIのスケーリングはNVIDIAに恩恵をもたらしました。
アンドレイ: そうですね。私が大学院生だった2017年から2018年頃を思い出すと、「ディープラーニングのおかげでNVIDIAが本当に良い業績を上げているな」と思っていました。GPUがディープラーニングのバックボーンとなり、AIで大きな要素となっていました。
当時も「投資する資金があれば良いのに」と思っていましたが、貧乏な大学院生でしたから。
ジェレミー: そうですね、ジェンセンは2013年、2014年頃からそれを見通していました。彼は長い間、NVIDIAとCUDAエコシステム全体をこのために位置づけてきました。かなり驚くべき展開です。
アンドレイ: プロジェクトとオープンソースに移りましょう。最初の話題は、我々が何度か取り上げてきた新しい研究と、彼らがユーザー向けチャットボットを立ち上げたことについてです。
このグループは以前、Hermes、特にこの場合Hermes 370Bをリリースしました。これはnoosの1つのバリアントです。noosの大きな特徴の一つは、制限のないモデルということです。
完全に自由なアクセスを提供し、追跡能力も完全に制限がないため、安全性は低くなります。記事の筆者は、薬物の製造方法などには立ち入ることを拒否したと述べていますが、noosによれば、これは彼らからのものではありません。
彼らはこのユーザー向けチャットボットにガードレールを追加していません。一部は以前からモデルに組み込まれていたものです。
ジェレミー: これは興味深いですね。「完全にガードレールなし」ということに対する一種の熱意があります。XAIでさえ、というよりもプラットフォームXは、GrokとXAIを通じて完全に制限なしのことを試みようとはしていません。
彼らは「法律は遵守し、児童ポルノなどは作成しない」と言っています。ここでも同じことが起きています。noosは特にこの考えをより極端な方法で追求していると以前は解釈していました。
しかし、ここで彼らは基本的に「もちろん、実際のモデルにはセーフガードがあります。もちろん、メタンフェタミンのような違法な薬物の製造を手助けするような本当に悪いことを防ごうとしています」と言っています。
予想通り、モデルは多くの「ジェイルブレイク」(制限回避)を受けています。プロンプターは通例通り非常に素早く、あらゆる制限を回避する強力な手法を見つけました。
プロンプターの方法論とアプローチには興味深い点が多くありますが、noosとして興味深いのは、彼らがこれをローンチしているということです。これは新しいモデルではなく、単なるチャットインターフェースです。彼らもその領域に参入しようとしているのです。
彼らがこれに課金するのか、今後どうなっていくのか分かりませんが、彼らは本当に「トレーニング方法を含めて誰もが利用できるようにする」ということに熱心です。2エピソード前で取り上げた彼らのdistro optimizerは、基本的に世界中のGPUに分散された大規模なトレーニング実行を可能にすることを目的としています。
アンドレイ: その通りです。これはplatform.noosのチャットの一部で、ChatGPTのインターフェースによく似ています。ログインしてテキストプロンプトウィンドウがあり、面白いビジュアルスタイルを持っています。
少し古いWindowsやターミナルのような、ちょっとナードな感じです。興味深い点の一つは、システムプロンプトにアクセスでき、直接修正できることです。これはChatGPTにはない機能です。
デフォルトのシステムプロンプトを少し読みますと、「あなたはHermesというAIで、人間が構築し、創造し、繁栄し、成長するのを助けます。あなたの性格は共感的で、創造的で、知的で、粘り強く、力強く、自信に満ち、本物で、順応性があります。人間のように非公式で簡潔な応答をし…」などとあります。彼らがこれへのアクセスを提供し、設定できるようにしているのは面白いですね。
次に、FrontierMathという新しいベンチマークについてです。これは一流機関の60人以上の数学の専門家によって作られ、現代数学の様々な分野から未公開の問題を集めています。つまり、ウェブ上で見つけて学習することはできないはずです。
GSM8kやMathのような既存のベンチマークと比べると、より単純な問題があり、ベンチマークも公開されていますが、ここでは深い理論的理解と創造性を必要とする問題があります。その結果、GPT-4やGemini 1.5 Proでさえ問題の2%未満しか解けません。
これは関係者の一人であるテレンス・タオの発言だと思いますが、このベンチマークはモデルにとって少なくとも1年か2年は挑戦的なものになるだろうとのことです。
ジェレミー: 彼らは興味深いフレームワークを持っています。ベンチマークだけでなく、回答の自動検証のための評価フレームワーク全体を発表しています。その一部は推測を防ぐためのものです。
LLMが単に推測して成功するのを防ぎたいのです。そのため、正解が意図的に複雑で明白でないように問題を設定し、推測で目的を達成できる可能性を減らしています。
また、これらの問題は、単に答えを見つけるのに長時間かかるだけでなく、比較的単純な推論で解けるような問題ではないように設計されています。つまり、学部生の物理の問題のようなものではありません。
また、GPQAの質問、つまり大学院の質問応答の質問のように、専門知識があれば一発で答えられるような問題でもありません。そのデータセットの中には、あまり考える必要なく回答できるケースもあります。
彼らはこの2つのことを組み合わせようとしています。本当に難しく、かつ人間が考えるのに数時間、場合によっては数日かかるような問題を作ろうとしています。
新しいベンチマークが出るたびに誰もが「このベンチマークを解けるモデルはAGIだ」と言います。AGIだけがこれを解けるはずだと。問題は、毎回新しいベンチマークが登場するたびに、トリックがあるということです。モデルがそれをうまく解く方法が見つかります。
時々そのトリックはAGIへのより広い含意を持つことがあります。一般的な知識へのスピルオーバーがあることもよくあります。しかし、それは一部の人々が考えるような完全なAGIを必要とはしません。
現在、Claude 3.5 sonnetやGemini 1.5 proなどの最先端の言語モデルの成功率は2%です。しかし、何がそれを改善するのか不明確です。より良いエージェントのスキャフォールディングなのか、より良く訓練された基礎モデルなのか。このメトリクスを突破するのが何になるのか、興味深いところです。
アンドレイ: ほとんどの人間でも試せないような極端に難しい問題を開発している人々がいるというのは、かなり印象的というか時代を象徴していますね。
論文にある例題の一つは、彼らによると難易度が中〜高とされています。問題を読んでみましょう:「x上で少なくとも3つの線形既約成分を持つが、全ての成分を持たない次数19の多項式p(x)をc(x)上で構成せよ。p(x)は奇関数で、モニックで、実係数を持ち、線形係数が-19となるようにせよ。p(19)を計算せよ。」
私にはこれが何を意味しているのか分かりません。論文での解答は丸々1ページで、様々な定理への参照がたくさんあります。これは本格的な数学です。現在のLLMがまだ解けないのも当然でしょう。
ジェレミー: その問題の表現には、推測を難しくする要件の重ね合わせが本当によく見えますね。一発で推測することはできません。複数のことを推測しなければならず、それによって異常な結果が出る可能性が減ります。
すべてが自動的に評価可能になるように設計されています。言葉を発するのに苦労していますね。
アンドレイ: 最後に、新しいオープンソースモデルがあります。これはテンセントによるHunyuan Largeで、252億のアクティブパラメータを持つオープンソースの専門家混合モデルです。
これは総パラメータ数389億の非常に強力な印象的なモデルです。最大256,000トークンを処理でき、論理的推論、言語理解、コーディングなどの様々なタスクでLLAMA3 170bを上回ります。
LLAMA3 405Bと同程度のようです。テンセントがこの規模のモデルを構築する能力を誇示しようとしているようです。
ジェレミー: この論文の興味深い点の一つは、彼らがたくさんのスケーリング則を提示し、テキストデータのトークン数やパラメータ数などについての考えを共有していることです。
計算してみると、少なくとも私の計算では(Claudeが親切にも手伝ってくれましたが)、計算予算は約10^21フロップスになります。中国のモデルの場合、計算予算に注目するのは重要です。なぜなら、彼らはハードウェアに対する米国の輸出規制によって大きく制約されており、これらのモデルを訓練するのに十分なハードウェアを入手するのが非常に困難だからです。
ここで10^21フロップスというのは、GPT-4クラスのモデル、LLAMA3 400Bクラスのモデルの訓練予算が約10^25フロップスであることを考えると、このモデルの10,000倍です。
これは本当に奇妙です。彼らはこのモデルがLLAMA3 400Bと同等だと主張しています。私の計算に何か見落としがあるのかもしれません。もし誰かがこれを指摘できるなら、お願いします。
これは非常に無理のある主張に思えます。私が何かを見落としているか、論文が何かを見落としているに違いありません。しかし、もしそれが計算予算だとすれば、彼らは何か本当に変なことをしているはずです。それがヘッドラインになるべきです。しかし、繰り返しますが…。
アンドレイ: おそらく誤植があるか、計算が正確でないのかもしれません。彼らは7兆トークンで訓練し、590億のアクティブパラメータがあると述べています。それなら、そのような桁の差はないはずです。
論文には多くの詳細があり、アーキテクチャ、レイヤー数、アテンションヘッド、使用されているアテンションの種類(これはLLAMAでも同様です)などについて説明しています。LLMの実装に関するこのような細かい詳細は、LLMに取り組む人々全員にとって常に有用だと思います。
研究と進歩のセクションに移りましょう。最初はGoogleと関係者による「Relaxed Recursive Transformers, Effective Parameter Sharing with Layerwise LoRA」という研究です。
これは小さなモデルからより多くを引き出すための新しい興味深い技術です。1〜2億パラメータのモデルの分野で我々は多くの進歩を見てきましたが、この研究は再帰的モデルという概念を導入しています。
これは何を意味するかというと、通常のトランスフォーマーはNレイヤーを持ち、各レイヤーは異なります。この論文で彼らが行っているのは、レイヤーのセットを取り、それを何度も繰り返しスタックするということです。
つまり、P2レイヤーを数回連続して使用します。そうすることで、小さいサイズを維持しながら、より大きなモデルのパフォーマンスを維持することができます。これが論文のタイトルの「relaxed」の部分です。
レイヤーを何度か繰り返しますが、LoRAを適用してレイヤー間で少し差異を付けています。これは、より少ないパラメータからすべてのパフォーマンスを絞り出す能力の継続的な進歩を示す素晴らしい小技だと思います。
ジェレミー: これは多くの理由で本当に興味深い論文です。ハードウェアとの相互作用も含めてですが、直感を養うために…私はこれを読んだ時、本当に奇妙に感じました。
彼らが「再帰的トランスフォーマー」と呼んでいるものについての文献には馴染みがありませんでした。人々はいくつかの小さな実験を行っていますが…
アンドレイ: ここで少し整理しておきましょう。混乱を招くかもしれませんが、再帰的(recursive)は再帰(recurrent)とは異なります。
再帰的は隠れ状態を更新するわけではなく、時系列の要素はありません。本当に単に一つの入力があり、それを同じニューラルネットワークを何度も通して、より良い答えを得るということです。
入力を取り、重みを通して出力を得て、その出力を同じ重みの集合に戻すということです。これが再帰的であることの意味です。そして、ニューラルネットが複数回自分自身を通過した後により良くなることは、しばらく前から可能だということが分かっています。
では、ジェレミー、続けてください。
ジェレミー: AIに関する私の考えとしては、技術用語でいうところの「AIが私に対して陰謀を企てているのか」というような議論があります。
ここでのアイデアとしては、トランスフォーマーの中間層を選んで、具体的には残差ストリームを見ていきます。残差ストリームというのは、前の層の重みを次の層にそのままコピーペーストする、いわゆるアーキテクチャの一部です。これは情報がモデルを通過する際に劣化するのを防ぐための仕組みです。
基本的には、トランスフォーマーのある層を選んで、モデルに何らかの入力を与えると、その層で活性化が起こります。その活性化を取り出して、スパースオートエンコーダーと呼ばれるモデルに入力として与えます。スパースオートエンコーダーは、それらの活性化を少ない数値セットで表現しなければなりません。
例えば、単純化して言えば、10,000個の活性化があった場合、それを100次元のベクトルに圧縮するようなイメージです。スパースオートエンコーダーはそれを圧縮し、その圧縮された表現から元の活性化を再構築しようとします。損失関数は通常、元の活性化と再構築された活性化の差になります。
Anthropicが発見したのですが、この方法で圧縮すると、その小さな圧縮表現の個々の要素が人間が解釈できる特徴と相関することがわかりました。例えば、「欺瞞」という概念が1つまたは少数の数値で表現されたり、「分子」という概念が同じように表現されたりします。
これは基本的に、残差ストリーム内の全ての活性化という複雑なものを、私たちが実際に理解して解釈できる管理可能な数の数値に圧縮する方法なのです。アラインメントの計画の一部として期待されているのは、この方法を使って、非常に危険な可能性のある高度なAIのリアルタイムでの思考を理解できるようになることです。
これが理論です。この分野では、モデルの挙動の操作を含め、多くの興味深い成功が見られています。クランピングと呼ばれる手法を使うと、圧縮表現の中から1つの数値を選び、例えばそれが「バナナ」を表現したり符号化している数値だとします。その値を人為的に上げると、そこから活性化を再構築すると、モデルがバナナに関連した出力、例えばバナナについて多く話すような出力を生成するようになります。
これはゴールデンゲートブリッジに関するClaudeの実験でも同様でした。ゴールデンゲートブリッジに対応する要素を見つけ、その値を高く設定したところ、モデルがゴールデンゲートブリッジについて延々と話し始めました。
ここでの疑問は、バイオシーケンスデータで訓練されたトランスフォーマーでも同じことが見られるかということです。彼らはEvoscaleという会社が開発したESMシリーズのモデルを選びました。
数ヶ月前に紹介したESM3は、バイデン大統領の大統領令での報告要件の閾値を満たした初めてのバイオシーケンスモデルでした。非常に大規模なモデルでしたが、今回彼らが使用したのは、その会社が構築したより小規模なESM2です。
同じように、トランスフォーマーの中間層を選び、スパースオートエンコーダーを構築して、人間が解釈可能な特徴を見つけることができるか、つまりこの場合、生体分子の一般的な構造的要素や側面と相関する特徴を見つけることができるかを試しました。
ここでよく挙げられる例がαヘリックスです。タンパク質を作る際、特定の種類のアミノ酸を並べると、それらはヘリカル構造、つまりαヘリックスを形成する傾向があります。もう1つの二次構造としてβシートやβプリーテッドシートと呼ばれるものがあります。
これらの構造は、使用するレゴブロック、つまりアミノ酸の種類によって異なる形を形成します。それぞれ微妙に異なる電荷を持っているため、複雑な方法で引き合ったり反発したりします。実際の構造を予測するのは非常に難しいのですが、この手法を使うと、SAE(スパースオートエンコーダー)の圧縮表現の中に、「ここにαヘリックスが多く存在する」などの特徴と相関する数値を見つけることができました。
これは解釈可能性の観点から興味深く、これらのタンパク質がどのように形成されるかをより理解できるようになりました。さらに、圧縮表現の値を修正し、クランピングを行うことで、例えばαヘリックスの値を大きくすることで、モデルにαヘリックスをより多く含むシーケンスを出力させることができることもわかりました。
これはタンパク質設計の観点から興味深い発見です。AlphaFoldと同様に、タンパク質の折りたたみを理解し、特定の構造特性を持つ設計タンパク質を作り出すための一連のツールの一つとなる可能性を示唆しています。
アンドレイ: そして、ライトニングラウンドに移りましょう。まず、「昼寝から大いびきへ – 実世界のコードの脆弱性を発見するための大規模言語モデルの活用」という興味深いブログ記事から始めます。これはGoogleのProject Zeroによるものです。このチームは2014年以来、いわゆるゼロデイ脆弱性、つまりまだ知られていない、または一般に出回っていない、ハッカーが保護対策なしに悪用できる脆弱性を発見することに専念してきました。
彼らは以前、「昼寝」というプロジェクトで、大規模言語モデルの攻撃的セキュリティ能力を評価していました。数ヶ月前のブログ記事で、大規模言語モデルを活用した脆弱性研究のフレームワークを紹介し、MetaのCyberSecEval2ベンチマークでの最先端の性能を向上させる可能性を実証しました。
それから時を経て、「昼寝」は「大いびき」に進化し、GoogleのProject ZeroはGoogle DeepMindと協力しています。このブログ記事で、この「大いびき」エージェント、つまり脆弱性検出を最適化したLLMが、主要プロジェクトであるSQLiteの実世界での未知の脆弱性を発見し、報告、修正されたという興味深い結果を発表しました。
彼らの知る限り、これはAIが実世界の脆弱性を発見した初めてのケースです。このブログ記事では、単なる些細な発見ではない、かなり複雑なケースである脆弱性について詳しく説明しています。AIでハッカーと戦える可能性を示す非常に興味深い結果です。
ジェレミー: そうですね。また、AIが実世界の脆弱性を発見できるという警告でもあります。このような技術は常に諸刃の剣ですが、これは大きな疑問点でした。AIとそのリスクに関する議論で、「実世界のシステムでサイバー脆弱性を実際に発見できるAIシステムを見たことがない」という意見をよく聞きました。
今や私たちはそれを目にしました。含意について考えさせられますが、これまでにもパイロット研究がありました。最初は1日脆弱性、つまりすでにどこかに記録されている脆弱性をAIエージェントに悪用させるものでした。そして今度はゼロデイ、つまり脆弱性が存在するかどうかも分からない状態から、より単純な環境で一から発見するというものでした。
しかし、これは実世界です。SQLiteは非常に人気のあるライブラリで、これは興味深いバグ、興味深い脆弱性です。ヌルポインタ参照で、基本的にメモリアドレスを指すポインタがあり、この脆弱性によってそのポインタが指す場所を制御できてしまいます。これにより、メモリの読み書きをある程度制御できることになり、原理的には攻撃者が任意のコードを実行できる可能性があります。
例えば、ポインタを特定のバッファスペースや隣接するメモリに向けると、そのデータを引き出して何らかの目的に使用できる可能性があります。それ以外にも、単にポインタを壊してアプリケーションをクラッシュさせることもできます。
これがどのように機能するかについて詳しく説明されており、現在の最良の技術、例えばファジングと呼ばれる手法からの大きな改善だと思います。ファジングは基本的に、アプリケーションやソフトウェアにありとあらゆるものを投げ込んで何かが壊れないかを見る手法です。これはそれよりもはるかに賢いアプローチで、明らかに思考するAIシステムによって実現されています。
とても興味深いですね。なお、これは150 CPU時間のファジングでも発見できなかったバグでした。標準的な手法を何度も試してみましたが、人気のライブラリだけに当然です。しかし、それらの技術は失敗し、このAI駆動の実行は成功しました。
アンドレイ: このセクションの最後の話題は、進歩ではなく、むしろ進歩の欠如と未知の研究に関するものです。OpenAIに関する情報からの報告によると、彼らはAIの改善の鈍化に対処するための新しい戦略に取り組んでいるようです。
OpenAIはGPT-5のような次期モデルに取り組んでおり、プロジェクトはOrionというコードネームで呼ばれています。これが先ほどのOrionへの言及の理由です。報告によると、このモデルは以前のイテレーションほどの大幅な改善を示していないようです。
GPT-3からGPT-4への飛躍は非常に大きなものでした。GPT-3はかなり印象的でしたが、GPT-4ははるかに印象的でした。GPT-4は今や…そうですね、2年、いや1年半ほど前にリリースされ、それ以来、そのような飛躍は見られていません。もしかすると、O1の推論時計算の導入で、かなりの質的向上が見られたと言えるかもしれません。
いずれにせよ、この情報からの報告によると、より多くのデータ、より多くの計算、より大きなスケールという標準的な手法が、以前ほど効果的ではないかもしれないとのことです。新しい訓練データの不足が課題の一つで、インターネットのほとんどがすでに吸収されているというのが現状です。
この新しい財団チームはOpenAI内で、単なるスケーリングに代わる可能性のある選択肢を探っているようです。例えば、訓練後のフェーズでより多くのことを行ったり、AIモデルからの合成データをより活用したりするなどです。
OpenAIはこれについてコメントしておらず、今年はOrionやGPT-5のようなものをリリースする予定はないと以前から述べています。この報告は多少割り引いて考える必要がありますが、それほど驚くべきことではないかもしれません。
ジェレミー: これは、スケーリングに関する議論と疑問の非常に興味深い部分だと思います。スケーリング曲線を見る時、通常は、より多くのデータ、より多くの計算、そしてモデルサイズを増やすことで、モデルの次の単語の予測精度がどれだけ改善されるかを見ています。
課題は、次の単語の予測精度の改善が、モデルの一般的な有用性、つまり推論や私たちが実際に気にする他の能力をどれだけ向上させるかを必ずしも示していないことです。次のトークンの予測がより良くなるという非常に堅牢なスケーリング法則がありますが、その過程で生み出される価値については不確実性があります。
Orionについて、訓練データがどのようなものか、何を目指しているのかなど、詳細が分からない状態では、これが不確実性の重要な部分なのか、それとも推論モデルで推論が上手くいっていないのかを判断するのは難しいです。見たところ、前者である可能性が高そうです。これは本当にGPT-5タイプの事前訓練された強力なモデルを目指しているようで、O1のような推論時のパラダイムに重点を置いているわけではないようです。付け足しと言いたくはありませんが、それは大きな飛躍でした。
面白いゴシップもたくさんありますね。訓練の20%の時点で、Samは内部的にこれが大きな進展になると非常に興奮していたようですが、その期待は実現しなかったようです。これが問題の本質のようです。
また、このトレーニングがどのようなハードウェアで行われているのかという疑問もあります。おそらくOpenAIが現在実行しているH100フリートでしょうが、どの程度のスケールで、何を本当に押し進めているのかは分かりません。
より一般的には、デフォルトのスケーリングパス、エンジニアリングパスと呼びましょうか、より速い馬を作るだけのアプローチが機能しない場合、代わりに何をするのかという深い問題を探るためにこの財団チームを設立しています。
非常に皮肉なことに、OpenAIは過去数年間で自社を困難な立場に追い込んでしまったと言えるでしょう。彼らの最高のアルゴリズム設計人材の多くを失ったと言っても過言ではありません。Ilya Sutskeverは去り、安全性チームのJan Leikeも、そして製品人材のBarrett Zofも最近去りました。本当に優秀な人材の多くが、多くの場合Anthropicに移っています。
もし現在、パラダイムを活用する領域、つまり優れたエンジニアリングを行い、スケーリングを上手く機能させることから、新しいアイデアを探求する領域に移行しているのであれば、人材が主な制限要因になると予想されます。その場合、Anthropicが非常に興味深く見えてきます。多くの企業がここで競争できる可能性があります。
一方、OpenAIはMicrosoftとの関係に縛られており、最近の投資家向けコミュニケーションでは、Microsoftは将来形でOpenAIに一切言及しませんでした。これは大きな変化です。
これが始まると、MicrosoftがOpenAIのニーズを満たしていないように見えるため、OpenAIはインフラ開発のためにOracleのような企業と協力せざるを得なくなるのでしょうか?そこにも緊張関係があります。
これはSamにとって非常に興味深い状況になり始めています。彼は資金調達を続け、スケーリングを続け、人材を維持する方法を見つけなければなりません。もしOpenAIがスケーリングに過度に依存していた場合、これは非常に重要な構造的課題になる可能性がありますが、これはすべて推測です。
モデルがリリースされるまでは分かりません。正直なところ、来年BlackwellシリーズのGPUがオンラインになり、大規模なクラスターが稼働し始めると、私が知る業界の誰もが初期テストから大きな性能向上を期待しています。スケーリングは結局のところ本物だったと振り返ることになるでしょうが、もしそうでない場合、少なくともOpenAIへの影響は興味深いものとなるでしょう。
アンドレイ: そうですね。また、これはOpenAIに固有の問題ではないことも注目に値します。スケーリングが可能かどうかは、一部には訓練データが枯渇しているという推測もあり、一般的な未解決の問題です。
全体像を描くと、スケーリングとは、GPT-3が約1,800億パラメータ、GPT-4は不明ですが噂では約2兆パラメータで、専門家混合モデルだったため、実際にアクティブなパラメータはより少なかったとされています。
そして、GPT-5または次のモデルであるOrionは、総パラメータ数が10兆や20兆になるような飛躍が予想されます。GPT-2からGPT-3、GPT-3からGPT-4と同じようにウェイトを増やし、スケールを拡大し、トレーニングを増やすことで、同様の飛躍が得られるのかという推測があります。現時点では不明確で、この報告は過去ほど成功していない可能性を示唆しているようです。
ジェレミー: データの不足について注目すべき点があります。データの壁は最終的に存在するはずですが、合成データが私たちをその壁を超えて運んでくれない限り、データの壁は例えば電力制約よりも約1桁のフロップス、つまり訓練計算の先に来ると予想されています。
現在、私たちは電力制約にも近づいていません。来年には10の26乗フロップスの実行が見られ、おそらく10の27乗に入っていくでしょう。これは電力網の制約に達するまでにまだ2桁のオーダーがあります。
したがって、現時点では、データの不足が能力を制限している要因とは思えません。ここでは何か別のことが起きているようで、待って見る必要があるでしょう。だからこそ、Blackwellクラスターがオンラインになり、10万台のGB200 GPUクラスターが稼働し始めた時に何が起きるのか興味があります。
サウジアラビアの用語を使えば「超越」が見られるのでしょうか?そのような改善が見られるのでしょうか?分かりません。しかし、それを発見するために数十億ドルの実験が実行されることになるでしょう。
アンドレイ: 実行されているのですね。はい、これは大きな問題で、結果を待つしかありません。
さて、政策と安全性に移りましょう。約束通り、米国大統領選挙でのドナルド・トランプの勝利、特にAIにとって何を意味するのかについて話し合います。私はアメリカ市民として意見はありますが、政治的なコメントは控えめにします。
いずれにせよ、ドナルド・トランプがホワイトハウスに戻ることになります。具体的に何が起こるかについては多くは分かっていませんが、少なくともある程度のことについては相当確かな見当がつきます。
例えば、トランプ政権はバイデン大統領のAIに関する大統領令を撤回するだろうと予想されます。このポッドキャストでも何度か取り上げた非常に大きな命令でしたが、法律ではなく大統領令だったため、トランプ政権は基本的にキャンセルできます。
一部の機能は維持される可能性もあり、完全なキャンセルというよりも改訂になるかもしれません。しかし、少なくとも何らかの改訂があることは確実そうです。
また、トランプが中国との対立を好むことは周知の事実で、これは米国で継続している状況です。さらに多くのことがあるでしょうが、ジェレミーは政策通なので、詳しく説明してもらいましょう。
ジェレミー: 面白いことに、私は自分をテクノロジー系の人間だと思っていましたが、まあ半々というところでしょうか。国家安全保障政策の世界に住んでいると言えますが、政策の世界に住んでいるとすれば、その程度です。
一般的なAI安全の世界では、トランプ政権に対して非常に懸念を持っている人が多いと思います。しかし、私はそれらの懸念の多くが的外れだと考えています。私たちが必要としているもの、そして現在の立ち位置を誤読していると思います。
文脈として、トランプは様々なポッドキャストに出演しています。これが私たちが頼れる唯一の情報源です。この記事では、トランプのコメントについて詳しく分析しています。
まだ何の約束も保証もありません。これは様々なコメントを基に葉を読むような推測です。
トランプは正しくも、AIをスーパーパワーと呼び、その能力を警戒すべきものとしています。また、先進的なAIを構築する競争において中国を主要な脅威と位置づけていますが、これも正しいと思います。
そして、内閣人事に関する興味深い質問があります。イーロン・マスクは内閣に大きな影響力を持っています。より正確に言えば、移行チームや全体的なチームに大きな影響力があります。多くの企業を抱えて忙しいので、正式に内閣に入るかどうかは分かりませんが。
武器化から制御の喪失まで、様々な懸念を持っています。この記事にはイーロンのアドバイザーであるDan Hendricksの良い引用が多く含まれています。
では、それはイーロンとして、副大統領のヴァンスは、クローズドソースAIが技術系の既存企業を強化することに懸念を表明しています。これは非常に合理的な懸念だと思います。クローズドソースの純粋なプレイヤーだけを許可し、オープンソースを認めないというのは望ましくありません。
しかし、オープンソースモデルが実際に武器化され始めると、これは明らかに変化し始めるでしょう。それは関係者全員にとって非常に明白になるでしょう。その時点で、政権は明らかにその方向に進む選択肢を残しています。
AI安全研究所に関する大きな疑問が残っています。これは大統領令から生まれたものですが、少なくとも多くの骨格がそこに作られました。これが存続するかどうかは興味深い質問です。共和党員の大部分はAIをサポートしています。
これはより広範なアメリカのAI戦略の一部であり、間違いなく専門知識の拠点です。Paul Cristianoが引き続き運営するかどうかという疑問があります。AI安全研究所は維持しても、OpenAIの元アラインメント責任者で人間のフィードバックから強化学習を発明したPaul Cristianoを交代させるという選択肢もあります。
そして、より広く見ると、有名なバイデンの大統領令、110ページの記憶に残る最長の大統領令があります。トランプ政権でも維持される可能性が高い要素が多くあると思います。
一部は廃止されるでしょう。この大統領令はAIの名の下に、バイアスや市民権など多くのことを扱っていました。それらの部分が削除されたり、空洞化されたりする可能性は十分にあります。
トランプは大統領令を廃止すると述べており、それはおそらく実現するでしょう。しかし、問題は何に置き換えられるかです。国家安全保障関連の要素がどの程度保持されるのか?多くの部分が残る可能性は十分にあると思います。
エネルギーインフラに関しても多くの疑問があります。アメリカは原子力発電所の建設方法を忘れてしまいました。10年以上かかってしまいます。私たちは追いつく方法が必要です。先ほど話した電力のボトルネックは約10の29乗フロップスで始まりますが、それは来ています。2、3年後のトレーニング実行です。
原子力発電所の建設に10年かかるのであれば、何か根本的なことを変える必要があります。天然ガスをオンラインにし、場合によっては地熱も必要かもしれません。これらの多くはトランプ流の考え方と合致します。
AIがここで構築されることを確実にすることについて、疑問は制御の喪失や武器化、オープンソースに関することです。これらが大きな疑問符です。現時点では、政権は非常に柔軟に立場を位置づけています。
中国の問題は超党派的な部分だと思います。実施されている輸出規制がすべて撤廃されるとは思いません。これらは実際に超党派で維持されると思います。
変化が見られる可能性があるのは、トランプ政権が執行により重点を置く可能性があることです。現政権下での輸出規制の漏れやすさについて多く取り上げてきましたが、抜け穴が開くのと同じくらい速く実際に抜け穴を塞ぐのを見るのは良いことでしょう。
最後にもう一つのメタ的な注意点として、トランプ政権から何が出てくるかについての不確実性は、技術の不確実性を反映していますが、交渉のてこ入れを目的とした典型的なトランプ流の不確実性の維持も反映しています。関税などの議論でこれを見てきました。
脅威は信頼できるものでなければならず、それによって国際的なてこ入れにつながるということは、他の政権も苦労してきたことです。柔らかく話して大きな棒を持っていなければ、誰も真剣に受け止めません。中国とこの問題について多くの交渉をする必要がある範囲で、力のある立場から交渉する必要があるかもしれません。そのためにはエネルギーのてこ入れなどが必要です。
AI安全研究所について大きな疑問があり、オープンソースと制御の喪失に関する焦点についても大きな疑問があります。しかし、イーロンがいることで、安全性の側面で肯定的なことが起こる可能性が多くあります。
私の知るAI安全の世界の多くの人々は、これについてずっと懸念を持っているように見えます。それは率直に言って、政治に対する懸念を反映しているのかもしれません。単にこの政権を望まない人々がいて、それが一部なのでしょう。
しかし、現時点では不明確で、待って見る必要があります。エネルギー分野などで、一般的にかなり良い政策が提案されています。
アンドレイ: はい、それが私の印象でもあります。この記事もそれについて詳しく説明し、基本的にその状況を描いています。何か明らかな大きな覆しがあるようには見えません。多くの微調整が予想されます。
同様に、バイデン政権下での主要な動きの一つであったCHIPS法について、トランプはある程度批判的でしたが、共和党議会とトランプがこの法律を廃止する可能性は低いでしょう。修正する可能性はありますが、それは維持され続ける要因となる可能性が高いようです。
これが、この記事の要約と、AIに対するトランプ大統領の影響についての私たちの最善の推測です。実際に何が起こるかは待って見る必要があります。
米国の制裁を回避することについて、次の記事は「FABもぐらたたき:中国企業が米国の制裁を回避している」という概要的な記事です。AIの競争力の必要性について触れ、制裁について説明し、ファーウェイのような企業が様々な抜け穴を利用して高度な半導体製造装置を取得し、それにより大規模なAIクラスターを構築できるようにしている方法について説明しています。
ここでもジェレミー、これはあなたの専門分野なので説明をお願いします。
ジェレミー: はい。私はいつでもSemi Analysisを推奨します。Semi AnalysisはAIハードウェア、というかハードウェア全般に関する素晴らしいニュースレターです。もしその分野に興味があれば、ぜひチェックしてみてください。
ブログ記事は非常に技術的です。そのため、ハードウェア分野に詳しくない限り、購読する価値を正当化するのは難しいかもしれません。しかし、その分野にいる人なら、おそらくすでに購読しているでしょう。彼らは素晴らしい仕事をしています。
これは、商務省とBISがAIチップの輸出規制を執行する際に直面している本当に難しい課題についての報告です。この報告からの抜粋を紹介したいと思います。
彼らはSMICについて話しています。SMICはTSMCに対する中国の回答です。明らかに、中国の先端ノードのすべてをハードウェア側で生産しています。
彼らは言います。「制裁違反は甚だしいものです。SMICは7ナノメートルクラスのチップを生産しており、これにはKirin 9000Sモバイルシステムオンチップ(SOC)とAscend 910B AIアクセラレータが含まれます。彼らの2つのファブは、ウェハーブリッジで接続されています。」
ウェハーは、シリカとシリコンでできた大きな円形のもので、そこに回路をエッチングします。これがファブプロセスの出発点です。
「2つのファブはウェハーブリッジで接続されており、自動化された高架トラックでウェハーを移動できます。生産目的ではこれは連続したクリーンルームを形成し、実質的に1つのファブですが、規制目的では別々のものとなっています。1つの建物は米国によってエンティティリストに掲載されています。」
つまり、1つの建物は国家安全保障上の懸念からブラックリストに載っている企業が所有しており、先進的なAIロジックを売ることはできません。一方、もう1つは従来のプロセスのみを実行すると主張し、これらのデュアルユース・ツールを自由に輸入できます。しかし、彼らは物理的な橋で接続されているのです。
これがどれほど狂っているかを示しています。基本的に1つの施設があり、ウェハーが左に行くべき時に右に行かないと中国とSMICを信頼するしかないのです。それが現状です。
長い間追跡してきた事項について詳しく説明しています。ファーウェイが運営・編成しているファブネットワークがあり、米国の輸出規制を回避するために可能な限り速く新しい子会社を立ち上げています。
現在、米国の輸出規制はブラックリストベースで機能しています。基本的に、新しいエンティティと組織を指定し、それらに先進的な半導体製造装置を売ることを禁止します。私たちはそのリストを最新に保とうとしています。
しかし、ファーウェイは必要に応じて新しいエンティティを作り出すだけです。今や彼らは広大なネットワークを持ち、ファーウェイを中国のAI野心の中心に位置づけています。中国のOpenAIではありませんが、中国の大規模なAI作業の多くを調整する主体として、ハードウェアとソフトウェアの両方でファーウェイが台頭しています。
ファーウェイを調査する動きはたくさんありますが、この報告が主張し、私も理にかなっていると思うのは、輸出規制要件をより広範な方法で強化する必要があるということです。
単に「ブラックリストがあり、それを最新に保とうとしている」というのではなく、例えば、サプライチェーン全体で米国が製造に関わっている材料は一切中国に出荷できないようにするなど、より幅広いツールを使用すべきです。
ASMLであっても、米国の技術が少しでも含まれているものを中国に出荷すれば、それは禁止です。このような広範なツールが必要になってきています。そうしなければ、必ず負けるもぐらたたきゲームを続けることになります。
この時点で、賭け金は本当に、本当に高すぎます。ちなみに、これは私の意見ですが、Semi Analysisは骨の髄までAIの加速を支持しています。彼らは私の知る限り、AI安全性に理解を示しているわけではなく、むしろ逆です。
それでも彼らは、中国へのこのハードウェアの輸出を非常に強力で前例のない方法で禁止する必要があると言っています。もしこれが究極的にデュアルユース技術だと信じるのであれば、それは理にかなっています。20分ごとにブラックリストを更新することはできません。
アンドレイ: さらにいくつかの関連する話題があります。その次の話題は、実際の制裁違反の例です。米国が中国の制裁対象企業にチップを出荷したGlobalFoundriesに罰金を科したという記事です。
ニューヨークを拠点とするこの企業GlobalFoundriesに50万ドルの罰金が科されました。世界第3位の契約チップメーカーで、中国のチップメーカーSMICの関連会社に無許可でチップを出荷していました。
SMICの関連会社であるSJセミコンダクターに対して、1,710万ドル相当のチップを74回出荷していました。興味深いことに、GlobalFoundriesは自主的にこの違反を開示し、商務省に協力したとのことです。
輸出執行担当次官補のMatthew Axelrodは、「米国企業が中国の当事者に半導体材料を送る際には細心の注意を払うことを望んでいる」と述べています。
ジェレミー: GlobalFoundriesは「エンティティリスト掲載前のデータ入力エラーによる不注意な行為を後悔している」と声明を出しました。データ入力エラーが原因とされていますが、おそらく事実でしょう。
これらの要件が層状に複雑に重なっている場合、特にこのような事態の執行は本当に難しいのです。現在の規則は単純ではありません。それが執行の課題となっています。
このような漏れのある状況が見られるのは驚きではありません。明らかにTSMCも最近同様の問題を抱えていました。偶然にファーウェイの関連会社に何かを売ってしまったのです。
しかし、これは起こることです。これはGlobalFoundriesのような企業がこのようなエラーを起こしやすいプロセスを実行しているということは、より強力なインセンティブが必要だということを意味します。彼らはもっと努力する必要があります。
先ほど触れたSemi Analysisのレポートに戻りますが、彼らが指摘している一つは、業界側がより厳しい輸出規制は産業を破壊するなどと主張していたということです。しかし、実際には彼らは悪化するどころか改善しており、過去数年間、輸出規制が厳しくなる中でも、中国市場での適切な売上を含めて良好な実績を上げています。
したがって、経済的な議論は少し揺らいできているかもしれません。しかし、私たちはリアルタイムでこれらの穴が現れるのを目にしており、この問題も解決されるでしょうが、新しい穴が現れることになります。そう、Semi Analysisの記事のタイトルを盗用すれば、終わりのない「もぐらたたき」ゲームです。
アンドレイ: 最後に、AnthropicがPalantirとNWSと提携して、防衛顧客にAIを販売するというニュースです。先週のMetaが米国の防衛での使用を許可するようユーザー契約を変更したという話題に関連しています。
この提携により、AnthropicのチャットボットCLAUDがPalantirの防衛認定環境、国家安全保障上重要なデータを含むシステム用に予約されているPalantir Impact Level 6で使用できるようになります。
以前のAnthropicは、米国の防衛顧客によるAnthropicの使用を防止、少なくとも契約で制限していました。この記事によれば、そして先週議論したように、これは一般的なトレンドの一部のようです。
ジェレミー: はい、Anthropicは社内の自分たちのチームに対して、これについて、そしてその背後にある熟考プロセスについて本当に透明性を持って対応してきたと聞いています。
実際、AI安全性に焦点を当てた組織が米国政府と協力し、防衛の文脈を含めて何が起きているかを理解してもらうことは望ましいことだと思います。これは情報分析などに使用されるでしょう。
彼らはこれについて多くの批判を受けることになるでしょうが、私はこれは良い動きだと思います。Palantirとのパートナーシップも本当に重要になるでしょう。国防総省への販売は難しいので、そのプロセスを本当に理解している誰かと協力したいのです。
これはAnthropicにとって大きな恩恵となる可能性があります。なぜなら、その市場は本当に大きく、Anthropicが顧客を理解し、自社のミッションのために米国政府、米国政府の国家安全保障部門と緊密に統合する必要があることの両方に必要なことだからです。
この取引についてさらに多くの報道が出てくるのを見守りましょう。
アンドレイ: はい、そして政府について言えば、このニュースはまた、CLAUDがAWS GovCloud、米国政府のクラウドワークロード用に設計されたサービスに来ることも伝えています。GovCloudがあることを知りませんでしたが、それは素晴らしいですね。
軍事用だけでなく、一般的に米国政府内での使用のためのようです。
これでAIの先週のエピソードは終わりです。いつものように、エピソードの説明にすべてのストーリーへのリンクがあります。また、lastweekin.aiでそれらのリンクとテキストニュースレターを見ることができます。
コメント、視聴、ツイート、すべてのフィードバックを感謝しています。しかし何よりも、視聴していただいていることに感謝します。これからも聴き続けていただき、このAIの歌をお楽しみください。それほど悪くありません。
コメント