
34,759 文字
AIについての対話型ポッドキャストへようこそ。このエピソードでは先週の最も興味深いAIニュースについて要約し議論していきます。すべてのリンクは「Last Week in AI」のウェブサイトでご覧いただけます。私はホストの一人のアンドレ・クラノフです。大学院でAIを学び、現在はAIスタートアップで働いています。そしてみなさんこんにちは、ジェレミー・ハリスです。私はもう一人のホストで、AIセキュリティ企業Gladstone AIの共同創業者です。
毎週このポッドキャストを聴いている方には私たちのプロフィールはもう分かっていると思いますので、毎回の自己紹介は冗長かもしれません。新規リスナーの数を考えると、自己紹介を省略することも検討できそうですね。さて、今回はLast Week in AIのエピソード200回目という節目です。実際のポッドキャストフィードにはインタビュー回なども含まれているので、もう少し多くのエピソードがありますが、これが200回目になります。
私も年を感じますね。ちょうどApple Podcastでは「絶対に辞めないで」というレビューもいただきました。これまでの200回、良い記録が続いていると思います。ジェレミー、あなたは110回目から参加していますね。そうですね、私は90回目からですね。長期リスナーの方はご存知かもしれませんが、このポッドキャストは2020年から始まり、当初は別のホストのシャロンと一緒にやっていました。2022年には一時中断しましたが、ジェレミーのおかげで再開することができました。
AGIが登場するまで、少なくとも2週間はやめることはないでしょう。それを機に、今回から自己紹介は省略し、最後にリスナーからのリクエストトピックについて議論する時間を設けることにしましょう。ニュースの後でリスナーから修正が必要な点について触れる程度にとどめます。
今回のエピソードの内容を簡単にプレビューしておきましょう。新しいモデルやツール、アプリケーションについて取り上げます。AdobeがSoraに対抗する新製品を発表し、LLMのアプリケーションとビジネスのタイムラインについてのアップデートもあります。もちろんイーロン・マスクによるOpenAIの新たなドラマについても触れ、Anthropicなど他のLLMの今後の展開についても見ていきます。
オープンソースプロジェクトでは、音声合成モデルやデータセットについて、研究開発の面では蒸留やスケーリング則、LLMへの改ざん攻撃などについて取り上げます。AI安全性については、英米間の議論や地政学的な側面、効用工学に関する論文を紹介します。最後にAI著作権法の更新についても触れていきます。
最後にリスナーからのリクエストトピックについて議論する予定ですが、疲れ切る前に終われるよう頑張りましょう。それでは、ツールとアプリケーションのセクションから始めましょう。
最初の話題はAdobeがSoraに対抗するAIビデオ生成ツールを一般公開したというニュースです。Adobeはこれまでもfirefly等の生成AIモデルを展開してきましたが、今回公開されたgenerate videoはFireflyのウェブアプリを通じて利用できるようになりました。テキストからビデオを生成する機能と画像からビデオを生成する機能があり、1080p 24fpsのHD品質で出力できます。生成には90秒以上かかり、最大5秒間のビデオを作成できます。
もちろんこれはプレビュー版で、Photoshopなどのメインラインツールへの統合にはまだ時間がかかるでしょう。Adobeはこのgenerate videoツールを、著作権の問題を気にせず映画制作に使用できる本格的なツールとして売り込んでいます。これは彼らの生成AIモデル全般に共通する方針です。Soraやほかのライバルとどう戦っていくのか興味深いところです。
2年前から2年半前にかけて、テキストから画像を生成する技術が大きく進歩したように、ビデオ生成の分野でも同様の展開を見ているような気がします。最初は遅くて物足りない結果でしたが、今では写真のようにリアルな映像を生成できるようになっています。私は常々主張していますが、これも画像生成と同様に価格競争になっていくでしょう。誰もが基本的に推論コストにわずかなマージンを上乗せした程度の価格で提供するようになると思います。
この分野もコモディティ化していく可能性が高いですね。画像生成と大きく異なる理由は見当たりません。とはいえ、ロードマップを見てみましょう。現在のビデオ出力は1080p 24fpsで、まあまあの品質ですが、やや低めかもしれません。当初の720pからは改善されています。興味深いのは5秒という制限を維持している点です。
一方でSoraは既に20秒のビデオを生成できます。計算リソースをどこに振り向けるか、より長い時間にわたって論理的に一貫したビデオを生成することに投資するのか、4Kや1080pといった高解像度に投資するのか、というトレードオフが見えてきますね。ちなみにAdobeは、アイデア出しのための低解像度の高速モデルと4Kモデルの両方を開発中だと述べています。
テキストから画像への変換でも同様のトレードオフがあると思いますが、私はその分野にそれほど詳しくないので、ポッドキャストで取り上げる程度の知識しかありません。どの領域でも十分に深く掘り下げれば興味深いトレードオフが見つかりますが、ビデオの場合は特に明白です。高解像度のフレームを生成することに計算リソースを使うのか、より多くのフレームにわたる一貫性を保つことに使うのかという選択です。
OpenAIがAdobeよりも一貫性の方に注力している理由は、直感的には理解できます。より長い時間にわたって物体とその相互作用を追跡できることは、AGIに必要な種類の推論能力により近いように思えます。高解像度の画像生成にも一理ありますが、直感的にはOpenAIのSoraが採用している長時間解像度の方が、その方向性により適していると思います。
そういう意味では、Adobeが高解像度のビデオ品質や4K等に注力するのは、彼らなりのニッチを確立しようとする試みとして興味深いですね。実際、以前彼らが投稿したプレビュー動画についても議論しましたが、他の点でも差別化を図ろうとしています。例えばズームアウトなどのカメラコントロールでモデルにプロンプトを与えられるという機能を強調しています。
個人的には、テキストからビデオを生成する機能よりも、画像からビデオを生成する機能の方が重要だと考えています。特殊効果として、動画の不自然なアーティファクトを除去したり、様々な実用的な用途に使えそうです。彼らもそこを重視しているのではないでしょうか。
また、このリリースに合わせて、これらのモデルを使用するためのFireflyの新しいサブスクリプション階層も導入されました。Firefly標準サブスクリプションは月額10ドルで、200ビデオまたはオーディオクレジットが付与されます。これは約25回のビデオ生成に相当するようです。プロサブスクリプションは月額30ドルで、7,000クレジット、約75回のビデオ生成が可能です。商業化が始まっているわけですが、既存の編集スイート用のサブスクリプション層とどう連携していくのか興味深いところです。
次の話題はOpenAIに関するもので、GPT-5ではなく現在リリースされているものについてです。サム・アルトマンがTwitter/Xに投稿したのは、詳細というほどではありませんが、かなり具体的なロードマップでした。彼らは現在のパラダイムから脱却しようとしています。現在は6つのモデルから選択する必要があり、GPT-4-0やAI-1プレビュー(現在は無料ミニ)があり、ChatGPTを使用する場合はモデルのドロップダウンから選択する必要があります。各モデルで使用できるトークン数も異なるため、特に新規ユーザーにとっては少し扱いづらい状況です。
彼らが述べているのは、新しいモデルシリーズでは古いモデルシリーズとChatGPTシリーズを統合し、プロンプトに基づいてモデルが自動的に適切な動作を判断するようになるということです。したがって、おそらく0-3は見られなくなり、この統合ツールが登場するまで新しいものは出てこないでしょう。リリースされた際には、無料のChatGPTユーザーは「標準知能レベル」で無制限にアクセスでき、Plusサブスクライバーはより高い知能レベルにアクセスできるとのことです。ChatGPTの初期以来、大きなユーザー体験の変更がなかったことを考えると、興味深い展開です。
私にとってもいい刺激になりました。コンサルティング業務を提供する際に、「標準知能レベル」と「高知能レベル」という2つの階層を設けることにしました。良いビジネスモデルだと思います。ちなみにこのポッドキャストは、もし気になる方がいれば、できる限り高いレベルで提供しているので、これ以上のレベルはありません。
興味深いアップデートの一つは、これが起こることを知らなかったということです。大きな更新点は本質的にバンドリングで、サムが自身のツイートで述べているように「私たちもモデル選択画面が嫌いで、統合された魔法のような知能に戻りたい」というものです。インターフェースやコンソールに来て、クエリを入力すると、そのクエリに最も適したモデルから自動的に回答が得られるという感覚を目指しています。
これは理にかなっています。数週間前にはケビン・ワイルドOpenAIのCPOが2月から3月の時期にo3をリリースする予定だと述べていましたので、この統合の話とも整合性が取れています。サムはこれらの展開のタイムラインについて、GPT-5まで「数週間からSL月」と曖昧な表現を使っており、少し余裕を持たせているようです。
あなたが言ったように、詳細は少ないものの具体性は高いですね。最後に名前について触れると、GPT-4.5は社内でOrionというコードネームで呼ばれていたモデルになるとサム・アルトマンは述べています。o1になったStrawberryプロジェクトやGPT-4.5になるOrionについて、長い間騒ぎがありましたね。
このポッドキャストでも以前話しましたが、GPT-5やGPT-4.5は何ができるようになるのかという議論は、ある意味で意味がありません。次の桁違いのスケールアップや2桁の規模の向上を意味する場合もありますが、単に名前の数字が上がることに固執している人もいます。
OpenAIは社内で多くの異なるモデルを開発しており、どれを何と呼ぶかは彼ら自身も決めていません。長い間このモデルは単にOrionと呼ばれ、開発中のモデルでした。雰囲気が良ければGPT-4.5としてリリースされることになり、実際にそうなりましたが、当初からそれが決まっていたわけではありません。
なので、GPT-4.5に関する推測を見る際には、実際の計算規模の桁数の方がはるかに重要で、名前はそれほど重要ではないということを理解しておく必要があります。いずれにせよ、これまで秘密のOrionベースモデルプロジェクトと呼ばれていたものに、ようやく名前がついたということですね。
ちなみにこれはベースモデルなので、GPT-4.5は思考の連鎖を使用しない最後のモデルになるとのことです。今後は全て0-3-o1の推論パラダイムを使用するモデルに焦点を当てていくようです。ワンショットでの回答も可能ですが、より推論に重点を置いていくのが目標のようです。
後でビジネスセクションでAnthropicの同様の計画についても触れますが、推論モデルと非推論モデルを統合するというアイデアは、まだ流動的なようです。必ずしも分ける必要はないように思えます。モデルが必要だと判断した場合に推論を行い、そうでない場合は長い思考の痕跡なしで出力するようにできます。
考えてみれば当たり前のことかもしれません。なぜこれらを分ける必要があるのでしょうか。将来的には、両方のパラダイムに対応できる単一のモデルになっていく可能性がありそうです。
名前に関して振り返ってみると、興味深い点があります。ChatGPTは2022年末にGPT-3.5をベースにリリースされ、GPT-4は2023年3月にリリースされました。その後、音声などの機能を追加したOmniからo系列のモデルファミリーに移行し、GPT-4-0、そして現在はo1が推論モデルとして提供されています。
基本的にGPT-2、3、3.5、4と規模を拡大し知能レベルを向上させてきた時期から、2023年半ば以降は、入出力の種類や推論方法など、モデルの機能を広げることに重点が置かれるようになってきたということですね。
次の話題はOpenAIからのもう一つのニュースで、AIモデルが物議を醸す話題をどのように扱うかについて再考しているようです。これはAIモデルの行動に関するガイドラインである60ページのモデル仕様の一部として公開されました。更新された仕様には、物議を醸す話題の扱い方の詳細が含まれており、適切な文脈において特定の成人向けコンテンツを許可したり、ユーザーが安全性のガードレールを有効/無効にしてカスタマイズできるようにするなどの変更が含まれています。
多くのLLMユーザーがモデルの過度の制限や慎重さを批判していることを考えると、それらを緩和する動きは理にかなっているかもしれません。このモデル仕様は、一見するとLLMに投げ込んで微調整するだけのドキュメントのように聞こえるかもしれませんが、実際にはそれ以上のものです。
主にOpenAIが自社とデベロッパーに推奨するメタ指示書として機能し、データ収集からトレーニング、モデルの提供、アプリケーションでの使用まで、スタックのあらゆるレベルでのアプローチを記述しています。以前よりもかなり詳細になっており、「知的自由」と呼ばれるものに重点が置かれています。
以前のサム・アルトマンは長年の民主党支持者として、ChatGPTのよりリベラルな方向性に満足していましたが、政権交代に伴い方向転換を図ったのではないかという推測もできます。これは彼らしい変化の風に乗る動きかもしれません。いずれにせよ、多くの人々が以前のモデルの過度な制約に苛立ちを感じていたので、有用な更新だと思います。
この仕様書は様々な方法で使用されますが、その一つの側面として、モデルが異なるレベルの指示をどのように優先順位付けするかを説明する指揮系統があります。OpenAIが他のすべてを上書きするために使用するプラットフォームレベルのルール(安全性の保護や法令遵守など)があり、その次にシステムプロンプトがあり、開発者が入力するプロンプトとの関係でどのように順位付けるかといった具合です。
また、人間によるフィードバック強化学習のためのデータ収集時に、人間のラベラーに与える指示も含まれています。そういう意味で、モデル仕様は非常に包括的なドキュメントです。付随する大きなブログ記事では、o1シリーズがGPT-4-0シリーズと比較して、彼らの仕様をより忠実に守っていることを称賛しています。
彼らが重視し定量化しようとしている項目には、先ほど話した指揮系統への忠実さ、境界内に留まること(与えられたプロンプトと一貫性のある応答を提供すること)、共に真実を追求すること(o1はGPT-4-0と比べて大きな改善を見せている)、最高の仕事をすること(回答の正確さの最適化)、適切なスタイルを使用することなどがあります。これらすべての項目で改善が見られています。
ただし、「親しみやすさ」については性能の低下が見られ、o1はGPT-4-0よりも親しみにくくなっているようです。これは私の経験とも一致します。また、モデル仕様の更新ごとにブログ記事は投稿しないものの、変更を追跡できるログを公開しているとのことで、透明性の観点からは素晴らしいことですね。
次にPerplexity AIが超高速の新モデルを発表したというニュースです。LLaMA-3 7Bをベースに構築された彼らの社内モデルSonarの新バージョンについて、Claude 3.5 HaikuやGPT-4-0 miniなどの既存モデルよりも、Perplexityが行うAI支援のウェブ検索において優れているとしています。
これはChatGPTのウェブ検索やGeminiのウェブ検索と同様に、クエリを入力すると、ウェブサイトを検索してAIがそれらのウェブサイトを読み、質問に答えたり要約したりする機能です。このSonarは事実の正確性と可読性を向上させるように微調整されており、Cerebrasのウェーフスケールエンジンを使用することで、1秒あたり1,200トークンの処理速度を実現できると主張しています。
Perplexityでも、ChatGPTと同様にどのモデルを使用するかのドロップダウンがあり、Pro(有料)サブスクライバーはこのモデルを有効にできます。検索分野のチャレンジャーであるPerplexityと、ハードウェアのチャレンジャーであるCerebrasが組んだ形は興味深いですね。
検索に焦点を当てた機能にCerebrasを使用する利点として、低レイテンシーが挙げられます。ウェーフスケールエンジンの特徴の一つは、異なるチップ間でデータをジャンプさせる必要がないため、レイテンシーが削減されることです。メモリアクセスや並列処理にも利点があります。この選択の背景をより詳しく掘り下げるのは興味深いでしょうが、いくつかの理由でかなり理にかなっているように思えます。
ハードウェアのエピソード2.0でこの話題を取り上げることができればと思います。最後のニュースとしては、YouTubeの新機能に関する更新があります。YouTubeのCEOからの年次書簡で、AIを使用して動画を他の言語の音声に自動的に吹き替える機能など、いくつかの小さな発表がありました。YouTubeクリエイターは今月末までにこの機能を使用できるようになるとのことです。
また、AI生成コンテンツの検出と管理のためのツールにも投資していく予定で、AI生成の似姿を検出できるようになるとしています。これは後で触れますが、俳優やその他の人々にとって喜ばしいニュースかもしれません。
アプリケーションとビジネスのセクションに移りましょう。約束通り、イーロン・マスクとOpenAIの間に新たなドラマが展開されています。毎週のような状況ですね。最新の展開では、イーロン・マスクが率いるコンソーシアムがOpenAIを管理する非営利団体の買収に974億ドルを提案しました。
これは技術的な話になりますが、OpenAIが営利化を目指す中で、複雑な構造に対処する必要があります。OpenAIの営利部門は、少なくとも私の理解では、この非営利団体によって管理されています。営利部門が営利化するためには、ある意味で非営利団体を買収する必要があります。今回は、その非営利団体を管理する権利に対する競合する入札が出てきたということです。
サム・アルトマンは予想通り、これは実現しないと即座に表明し、Twitterを100億ドル未満で買収するという面白い皮肉めいたツイートを投稿しました。しかし、これは営利化をさらに遅らせ、困難にする最新の戦術のようです。非常に高額な入札であり、営利部門のOpenAIが支払う予定の約400億ドルを大きく上回っているため、新たな頭痛の種になりそうです。
ここで「私は法律の専門家ではない」という但し書きが重要になってきますが、私が見た分析では非常に興味深い状況です。あなたが説明したように、営利部門が非営利部門の束縛から解放されようとしているのですが、問題は非営利部門が営利部門を完全に支配しているため、営利部門の価値に加えてそれ以上の価値を持っているということです。
では、営利部門がどのように自分自身を買収できるのでしょうか。古代ローマの奴隷が自分の主人を買うようなものです。これは非常に歪んだ比喩ですが、大まかなイメージはそういうものです。イーロンが参入してきた重要な問題の一つは、サムが非営利部門に営利部門を約400億ドルで売却しようとしていることです。
しかし、営利部門は非営利部門に対して公正な市場価値を支払う必要があり、2倍以上の具体的な競合入札があるということは、公正な市場価値がかなり高いことを示唆しています。サム・アルトマンがイーロンの入札と競合するために必要な資金を集めることができるかどうかは明らかではありません。
1,000億ドルの流動資金を簡単に集めることはできません。実際、彼らは明確な投資計画があったStargateに対してでさえ、これまでに集めた1,000億ドルの資金調達に苦労しています。また、OpenAIが変革的な人工知能、つまり汎用人工知能の構築という使命を達成した場合、会社の価値、少なくとも期待値は400億ドルをはるかに上回るはずだという議論も見られます。
これは評価としてかなり合理的に思えます。繰り返しますが、私は法律の専門家ではありませんが、これは400億ドルという、基本的にサム・アルトマンが自分自身に売ろうとしている価格よりもかなり高い公正市場価値を支持する強力な議論のように思えます。彼は両方の取締役会に所属しているため、利益相当の問題も発生しています。
ここにも様々な法的なニュアンスや複雑さがあります。例えば、OpenAIの取締役の一人であるラリー・サマーズは、この買収提案に関してイーロン・マスクとコンソーシアムから正式な接触を受けていないと述べています。一方でイーロンの弁護士は月曜日にOpenAIの取締役会に入札を提出したと言っています。この食い違いをどう理解すればいいのか分かりません。
コンソーシアムからの正式な接触を受けていないというのは、弁護士からの手紙を受け取ったこととは少し異なるのでしょうか。これは全て大きな複雑な問題ですが、イーロンと共に投資を検討しているコンソーシアムも興味深いものです。xAIも含まれており、取引成立後にOpenAIと合併する可能性があるとのことです。
これは少し面白い話です。なぜならOpenAIには「合併と支援」条項があり、価値観を共有する競合プロジェクトがAGIの開発で約2年以内の位置にいる場合、この潜在的に危険な技術開発の最終段階での競争を避けるために合併するとしているからです。xAIからの提案によって強制的に合併することになるのは面白い展開ですが、そうはならないでしょう。2025年ですから、奇妙なことも起こり得ますが。
xAIに加わって入札に参加している他の興味深い投資家もいます。Baron CapitalやValor Equity Partners、Palantirの共同創業者ジョー・ロンズデールが率いるベンチャーファーム8 VCなどです。多くの動きがありますが、私は法律の専門家ではないので、これがOpenAIにとって実際にどのような意味を持つのか、現段階でどの程度の制約となるのかを理解できれば良いのですが。関係者全員にとって間違いなく注意を逸らす要因となっています。
文脈として、これはイーロン・マスクによる以前の同様の「攻撃」の直後に起きています。OpenAIは非営利として設立されたのだから営利化すべきではないという訴訟も進行中です。私も法律の専門家ではありませんが、分かる範囲で説明すると、通常、企業には株主がおり、非営利企業にも投資したMicrosoftなどの株主がいます。
取締役会は株主に対して信託義務があり、彼らの最善の利益のために決定を下すことが求められます。私の理解では、会社を売却する場合、可能な限り最高の価格を得るよう努める法的義務があります。これが、価格の高さとは別に問題となる可能性がある理由の一つです。
非営利の取締役会は単に高い価格を望む可能性もありますし、2023年後半にアルトマンがCEOを追われた後、取締役会が刷新されてアルトマン寄りになったなど、様々な詳細があります。そうですね、私も法律の専門家ではありませんが、現在のサムの余地は、非営利団体は株主に対する信託義務を負わないという事実に一部起因していると思います。
私の理解では、非営利団体として、彼らは異なる法的責任を負っています。基本的に詐欺は禁止されており、非営利として資金を集めて営利に売却し、事実上の営利化を図ることはできません。非営利団体が蓄積した資産は維持するか、同等の価値を維持する必要があります。非営利団体が実際に非営利であることを忘れていましたが、法的に非営利であることは重要な意味を持ちます。
正直なところ、頭が痛くなってきましたが、私の理解では、議論の一部は400億ドルが非営利部門への公正な補償であるということに基づいています。OpenAIはソフトバンクから約3,000億ドルの評価で資金調達を行おうとしているという最新の噂を考えると、400億ドルという買収価格は笑止的です。
これがサムの主張をどのように損なうのか分かりませんが、このような法的戦いに対してこれほど無防備な状態で進むとは思えません。本当に分かりませんが、このポッドキャストに法律の専門家を招く必要がありそうです。
次の話題はOpenAIの競合他社の一つであるAnthropicに関するものです。これは内部情報で、公式発表ではありませんが、The Informationが内部の話題を多く投稿することで知られています。その報告によると、Anthropicは深い推論と高速な応答の2つのモードを切り替えることができるハイブリッドモデルを開発中とのことです。
これは月曜日のCEOドミニク・アンドールの発言とも一致しています。彼は一般的に、推論モデルを差別化することに焦点を当てていると述べ、通常のモデルと推論モデルが異なるという考え方に疑問を投げかけています。このように、彼らは統合モデルを作成し、開発者がコストをコントロールできるようにスライディングスケールを用意する予定のようです。
なぜなら、推論モデルはより多くの思考を行い、より多くのトークンを使用するため、コストが高くなるからです。先ほど予告したように、これはアルトマンが示したOpenAIのロードマップと非常によく一致しています。
まだ価格設定については情報がありませんが、現時点で欠けているように見えるのは、モデル自身が問題にどれだけの計算リソースを投入すべきかを判断する直感を持つことです。外部から調整可能なダイヤルを用意して、応答に平均してこれだけのフロップスやトークンを使用するように設定するのではなく、モデルが自分で判断するようにすることです。
時には異なる詳細レベルで質問したい場合もあるので、プロンプターの意図と完全に切り離すことはできないかもしれませんが、システムにオフロードできる部分もあるはずです。これはまだ見られていないものですが、いずれにせよ興味深いことにAnthropicがこの機能で最初になるようです。
The Informationの記事によると、Anthropicのモデルはダイヤルを最大に設定した場合、つまり最も長い思考時間を許可した場合、o3 miniモデルのハイ設定を上回る性能を発揮するとのことです。数時間以内に変更がなければ、これは公開されている中で最も性能の高いモデルということになります。
記事の推測では、彼らはエンタープライズ市場により焦点を当てており、そのためにスライディングスケールを通じてコスト、速度、価格をより細かく制御できる機能の開発に力を入れているようです。OpenAIには低、中、高の3つの設定しかなく、各レベルでモデルが実際に処理するトークン数を予測するのが難しく、クエリのコストを予測しづらいという声があります。
ここでAnthropicはより細かい制御を提供することに注力しているようです。この報告の最後の部分によると、Anthropicの差別化要因は複雑なコードベースの理解に残っているとのことです。私の経験でも、同程度の価格帯のOpenAI製品と比べて、特定の文脈ではClaude 3.5 Sonnetの方がコーディングにおいて優れている場合があります。
特に大規模で複雑なコードベースに向けて、つまり何千ものファイルを扱い、最初から動作する完全なコードを作成するような本格的なソフトウェアエンジニアリングに移行しているようです。一方でOpenAIは、競技プログラミングのような学術的な問題に優れているとされています。これは、実際のプログラミングよりも競技プログラミングにフォーカスしたベンチマークや指標が多いことを反映している可能性もあります。
次の話題はAIチップのスタートアップGroqが、サウジアラビアから15億ドルの投資を確保したというニュースです。GroqはNvidiaの主要な競合として、Cerebrasと同様に独自のカスタマイズされたハードウェアソリューションを提供しています。昨年10月にも6億4,000万ドルのシリーズDラウンドで資金調達を行っており、しばらく活動を続けています。今回はサウジアラビアから15億ドルの投資を受けました。これは彼らが多額の資金を調達できているというパターンと一致しています。8月以降、彼らの企業価値は28億ドルとされています。前回のエピソードでもお話ししたように、サウジアラビアは数十億ドル規模の投資を考える際の主要な投資家の一つですね。
実際、ソブリン・ウェルス・ファンドが基本的には全てです。UAEやサウジアラビアのような産油国は、大量の現金を持っていて、それを使う方法を探しています。特にテクノロジーへの投資は、石油依存からの将来的な保険となります。
確かに、石油需要が将来的に増加する可能性もありますが、それでも今のうちに多角化を図るのは悪くない判断でしょう。現在は石油への依存度が高すぎるので。
これは非常に興味深い案件です。まず、この取引の詳細は実際にはわかっていません。記事では「サウジアラビアへのチップ供給を拡大するための15億ドルのコミットメントを獲得した」と表現されていますが、これが投資なのか、販売契約なのか、パートナーシップなのかは明確ではありません。
ちなみに、もしこれが投資だとすれば、評価額を知ることは非常に興味深いでしょう。最近28億ドルで資金調達をしたばかりで、評価額がそれほど上がっていないとすれば、かなりの株式を手放すことになりますからね。
これは国内企業とのパートナーシップに関するものですが、既にGroqとAramco Digitalの間には提携関係があります。Aramcoはサウジアラビアの大手石油会社で、Aramco Digitalはそのテクノロジー部門です。
これは特に興味深い点です。多くの国がAIを構築する際の2つの大きな障壁について話してきましたが、サウジアラビアはエネルギーの問題は解決済みで、もう一つのチップの問題に関してもこのGroqとのパートナーシップが非常に興味深いものとなるでしょう。
GroqはAIの推論に特化しています。これは学習用のチップではありませんが、最近では推論の重要性が高まっています。これは注目に値する動きですね。資本調達という意味でも大きな一歩です。
カスタマイズされたAIハードウェアの話題で言えば、最後に取り上げるのは我々が追跡してきた話題の続報です。OpenAIが初の社内設計のAIチップ、推論用のカスタムチップの開発を計画しているというものです。
現在の情報によると、OpenAIはTSMCとBroadcomと協力してチップを開発しており、2026年までの完成を予定しています。また、NVIDIAのGPUと並行してAMDのチップを学習に使用することも検討しているそうです。詳細な更新というわけではありませんが、この方向への取り組みを続けているという点は注目に値します。
チップについてはそれほど多くの情報がありません。分かっているのは、設計が数ヶ月以内に確定し、その後TSMCで製造され、2026年のいつかに量産が開始される予定だということです。これらのチップは恐らくStargateデータセンターを動かすものになるでしょう。彼らは完全にカスタム設計に移行しているようです。
TSMCの3ナノメートルプロセスを使用する予定で、これは次世代のBlackwellチップと同等の世代になります。BlackwellもまたTSMCの3ナノメートルプロセスを使用する予定です。
これは業界のトレンドの一つです。AmazonのTrainiumチップ、Googleは長年TPUを持っていますし、MicrosoftもAthenaチップラインの開発を行っています。そして今回はOpenAIですね。
これにより、第三者のデータセンター事業者、特にコロケーションプロバイダーの利用が難しくなる可能性があります。インフラが非標準になるからです。誰もが普通のV100やH100を使うのではなく、独自のチップラインを使用することになり、それぞれが異なる電力密度や熱特性、冷却インフラを必要とします。
そのため、データセンターのフットプリントが大きく異なる可能性があり、これらの多様なチップラインに対応できる汎用データセンターの構築が難しくなります。これは2026年に向けて、サプライチェーン全体に影響を与える可能性があります。そしてそれらのデータセンターは今まさに建設されているので、既にスタックの上から下まで影響が出始めています。
これは拡張性の観点から非常に重要な部分なので、今後も注意深く追跡していく必要があります。
次の話題に移りましょう。プロジェクトとオープンソースの分野では、まずZraという企業がZOSというテキスト音声変換モデルのベータ版を発表・リリースしました。これは高品質で音声クローニング機能を持つモデルです。
ZOS v0.1と呼ばれているこのモデルは、約20万時間の音声データで学習されており、英語、中国語、日本語、スペイン語、ドイツ語など複数の言語に対応しています。5〜30秒程度の短い音声サンプルで音声クローニングが可能です。
オープンソースモデルを追跡してきた経験から言えば、これは非常に注目に値します。テキスト音声変換モデルの開発は一般的に難しく、大規模言語モデルと比べて公開されているデータセットが少ないためです。基盤モデルを学習させるのは特に困難です。
彼らはこれを自社のプラットフォームで公開しており、Zambaと呼ばれる独自のチャットボットと共に、Zifaプレイグラウンドで試すことができます。Zambaについては以前も取り上げたことがありますね。
また、これはGPUを使用したリアルタイムアプリケーションでの使用も想定されているようです。ChatGPTやGeminiのような音声チャットの機能を実現するために開発されているようです。
興味深いのは、他の製品やモデルと比べてアプローチがシンプルなことです。単純な自己回帰タスクで、テキストと音声トークンを入力として音声トークンを予測するだけです。テキストの自動補完と同じような感じですね。
他のテキスト音声変換システムでは、より構造化されたアプローチを取ることが多かったのです。例えば、テキストをまず事前に定義された特徴量に変換します。スペクトログラムのような、出力される音声の周波数エネルギー分布や持続時間などの特徴を表すものです。その後、第二段階でそれらの特徴量を実際の波形に変換します。
FastSpeechやTatronなどの有名なアプローチではこのような戦略を使用していました。しかし、このモデルはそうではありません。単純に音声の自動補完を行うだけです。そしてそれは非常に良く機能しています。
これは「bitter lesson」(苦い教訓)の例と言えるでしょう。より少ない帰納的バイアスを持つシンプルな戦略が、一定の規模に達すると better に機能するのです。
学習は2段階で行われます。最初の段階では、テキストの接頭辞と話者の埋め込みのみを使用して事前学習を行います。第二段階では、追加の条件付け入力といくつかの制約を加え、より高品質なデータの重みを上げます。
これは言語モデルの標準的な事前学習とそれほど変わりません。まず一般的なデータで学習し、その後より高品質なデータを導入します。基本的な文法や構文規則を学習している段階で、高品質なデータを無駄に使うことはしません。基本規則を習得してから、より洗練された高品質なテキストを導入し、そこに含まれる事実を重点的に学習させるのです。
興味深いモデルですね。これがオープンソースの世界に登場することで、悪用の観点からも興味深い状況が生まれます。高品質なテキスト音声変換モデルがオープンソースで利用可能になり、そのまま使うことも、修正することも簡単にできるようになります。
最後に、RTX 4090での遅延は200〜300ミリ秒とのことです。比較的安価な非データセンター向けGPUでこの程度の遅延であれば、非常に自然な会話が可能です。かなり優れたモデルと言えるでしょう。
モデルの詳細についてもう少し補足すると、2つのバージョンがあり、どちらも16億パラメータのモデルです。Transformerバリアントと、再帰性と注意機構の両方を持つSSMハイブリッドモデルです。Zambaもそうでしたね。
これはApache 2ライセンスの下でリリースされており、制限が少なく、他の商用企業や研究者なども自由に使用できます。
あまり詳しく追跡はしていませんが、かなり重要な参入だと感じます。オープンソースのチャットボットは多数ありますが、テキスト音声変換モデルはそれほど多くありません。
モデルをリリースするだけでなく、APIのホスティングも行っており、1分あたり0.02ドルの料金で利用できます。月額サブスクリプションオプションもあります。Eleven Labsとの競合を狙っているようで、ビジネス面でも興味深いですね。Eleven Labsは現在この分野の主要プレイヤーです。
次の話題に移りましょう。大学から発表された研究で、Gemstonesという多面的なスケーリング則のためのモデルスイートについてです。
これは、モデル設計と選択がスケーリング則に与える影響を研究することを可能にするためのモデルスイートを提供する論文です。10兆トークン以上で学習された4000以上のモデルチェックポイントをオープンソース化し、モデルの幅や深さなどの要因がスケーリング則にどのように影響するかを調査できるようにしています。
モデルの形状によって、期待すべきスケーリング則が常に同じではないという点で、モデル設計の観点からかなり重要な発見があります。最適な幅と深さ、その他のパラメータには特定の組み合わせがあるようです。
これは非常に興味深い内容です。以前からこのような傾向があることは示唆されていましたが、少なくとも公開領域では、これらのトレンドを本当に良く定量化したのは今回が初めてです。
例えば、彼らが発見したのは、モデルの最適な幅対深さの比率はモデルサイズと共に増加するものの、その増加は比較的緩やかだということです。つまり、スケールアップする際に、より多くの層を重ねる(深さを増す)のではなく、同じパラメータ数で個々の層を広くする(幅を増す)方が良いということです。
これは、2015年頃にGoogleNetなどが登場した頃から発展してきた直感とは異なります。当時はResNetモデルでも見られたように、できるだけ多くの層を重ねる、つまり「より深く、広くない」という考え方が主流でした。
しかし、この研究は「ちょっと待って」と言っています。計算の最適化という観点から見ると、特にスケールアップする際には、予想以上に広いモデルが必要だということです。
これは比較的控えめな効果です。計算予算を100万倍に増やしても、最適な幅対深さの比率は約2.5倍しか増加しません。しかし、この最適な比率から外れることの影響は無視できません。
モデルが「細すぎる」、つまり幅対深さの比率が低すぎる場合、同じ損失値を達成するために最適なアーキテクチャと比べて約半分の計算力が無駄になります。特に数十億ドル規模の学習を行う場合、これは非常に重要です。
実際、wall clock time(実際の実行時間)への影響はさらに劇的です。計算量(FLOPS)では約半分の無駄になりますが、実行時間では最適なアーキテクチャと比べて200〜300%も多くのGPU時間が必要になる可能性があります。
ただし、彼らはこれらの発見に関して一つの注意点を述べています。学習セットアップでは一つの並列化手法(テンソル並列化)のみを使用したということです。テンソル並列化とは、モデルの層自体を分割し、一つの層の一部を一つのGPU、別の部分を別のGPUに配置する方法です。
各GPUに完全な層を配置したり、データ並列化を行ったりする代わりに。通常、パイプライン並列化、データ並列化、テンソル並列化は全て一緒に機能しますが、彼らのセットアップではテンソル並列化のみを使用しています。そのため、他の形式の並列化を考慮した場合には一般化できない可能性があると注意を促しています。
彼らが発見したもう一つの結果は「過剰学習」についてです。これは最近ますます見られるテーマです。モデルから最高のパフォーマンスを引き出したい場合、計算あたりの効率を重視し、モデルのサイズをどれだけ大きくしても構わないなら、計算予算と共にモデルサイズを大きくする必要があります。
これには一種のスケーリング則が適用されます。それがKaplanスケーリング則…申し訳ありません、それは元々のOpenAIのものでした。Hoffmanスケーリング則、いわゆるChinchillaスケーリング則が、それを最適に行う方法を教えてくれます。
しかし、様々な理由から、実際にはモデルを大きくしすぎたくないことが多いのです。モデルが大きすぎると、推論のコストが非常に高くなってしまいます。そのため、実際には人々はモデルを大きくせず、より多くの計算を投入します。これが「過剰学習されたモデル」として知られるものです。
このポッドキャストでもかなり議論してきましたが、推論コストが大幅に削減され、そのコストを多くのユーザーに分散させることができます。
彼らが発見したのは、モデルサイズに対して理論的に最適な時間よりも長く学習する「過剰学習」は、実際にはかなり効率的だということです。計算最適なケースと比べて、パフォーマンスの低下はわずかです。
これは現在のパラダイムにとって励みになります。計算予算が大きいほど、計算最適なモデルサイズからのわずかな逸脱に対する頑健性が高まります。非常に興味深い論文です。
彼らは5000万から20億パラメータまでの様々なモデルを、異なる深さ、幅、学習スケジュールで調査しています。これは、異なるアーキテクチャの選択がスケーリングにどのように影響するかを研究できる、初めてのモデルの動物園(Zoo)カタログと言えます。
ちなみに、このような論文は私企業の研究所では長年一般的な知識として存在していたはずですが、公開領域で見られるのは今回が初めてです。
次の話題に移りましょう。最後にもう一つの話題を手短に取り上げてから研究の部分に移ります。研究者のグループが、継続的な事前学習のためのエージェント機能を改善するように設計された大規模言語モデル「Haus」を開発しました。
これは、LLMの事前学習用のAPI関数呼び出しを含むツールドキュメントの大規模データセットで学習されています。データセットはPhaseisForgeと呼ばれ、ツールドキュメント、関数呼び出し、コード、関数呼び出しデータ、コードテキストデータなどを学習レシピに追加し、エージェントタイプの機能を最初から組み込んだLLMを事前学習できるようにしています。
彼らはPhaseis 8Bのモデルバリアントを学習させ、その規模で良好に機能することを示しています。
研究と進歩の分野に移りましょう。最初の論文は「モデル改ざん攻撃によるLLM機能のより厳密な評価を可能にする」というタイトルです。
通常、モデルのアライメント研究などでは、モデルに様々なプロンプトを与えて、意図した通りに動作するかを確認します。これは論文では「入力空間攻撃」と呼ばれています。
この論文で注目しているのは、モデル改ざんと呼ばれる別のアプローチです。これは、モデルの内部に直接介入する方法です。例えば、推論時に隠れニューロンを摂動させる「潜在空間攻撃」や、モデルが従うべきルールを忘れさせるような微調整を行う「重み空間攻撃」などがあります。
彼らは、アンラーニング手法、ジェイルブレイク拒否チューニングなどの防御メカニズムに関する研究を基に、攻撃モデルを構築しています。2023年から2024年にかけて発表された様々な論文を引用し、異なるアプローチを試行しています。
その結果、モデル改ざん攻撃の成功を研究することで、特定のモデルについて興味深い洞察が得られることを示しています。
このような結果は多く見られており、驚くべきものや予想外の論文ではありません。一つ興味深いと思った点を強調したいのですが、それは以前には見られなかったPCA(主成分分析)の分析です。
次元削減について馴染みがない方のために説明すると、PCAは基本的に、高次元のデータを持つ大きな表を2次元の形式に減らして、実際にプロットで見ることができるようにする方法です。
理想的には、高次元空間で近い点が、視覚化された低次元空間でも近くにあるように、つまり意味のある可視化になるようにしたいですね。正確には、これはより TSNEに近い説明かもしれませんが、直感的にはPCAもだいたいそのような感じです。
彼らが行ったのは、多数の攻撃と防御のスプレッドシートを見て、バイオ攻撃ベンチマークに対する攻撃成功率を調べることです。つまり、それぞれの防御戦略と攻撃について、その攻撃がどのくらいの頻度で成功するかを示すスコアがあります。
そして彼らは実際にその行列に主成分分析を行い、そのデータセットの分散をどれだけ3次元に圧縮できるかを見ました。彼らが発見したのは、3つの主成分、つまり3次元で、データセットの分散の89%を説明できるということです。
言い換えれば、全ての攻撃と防御を含むスプレッドシートの情報の89%を、わずか3次元のデータで捉えることができるのです。
これは、多くの攻撃が異なるメカニズムに影響を与えたり、異なる方法で機能したりするように見えても、実際にはその機能や成功は約3次元の特徴、いわばモデルの「物理学」によって説明できることを示唆しています。
これは励みになる結果です。モデルが少数の攻撃にどれだけ耐性があるかを知ることで、他の攻撃への耐性を強く予測できる可能性があるからです。
これは楽観的な要因になり得ます。なぜなら、これらの攻撃に対する防御の問題は、11の異なる攻撃から守るよりも、実際にはもっと単純かもしれないからです。おそらく、これらの攻撃で利用されている3つのより基本的な原則を見つければ、良好なカバレッジが得られるということです。
これまでこのような主張は見たことがありませんでした。研究の最終的な焦点は攻撃自体だけでなく、LLMの能力の評価にもあります。モデルを開発する際に、そのモデルがどれだけ安全かを評価できるかということです。
PCAの結果に関連して、彼らの発見の一つは、微調整攻撃の成功が経験的に入力空間攻撃の成功の上限を予測できるということです。つまり、LoRAなどの微調整手法がどの程度うまくいくかによって、単なる悪意のあるプロンプトがどの程度効果があるかを予測できます。
一般的に、プロンプトが効果を発揮する可能性や、モデルが様々な種類の攻撃にどの程度脆弱かを予測する洞察を提供しています。
次の話題に移りましょう。再び蒸留に関する洞察について取り上げます。今回は研究の成果物にそれほど焦点を当てていないため、研究セクションに入れています。
論文のタイトルは「蒸留スケーリング則」です。これは、非常に能力の高い大きな教師モデルがあり、そこから可能な限り多くの能力を維持しながら、推論コストを削減するために小さな生徒モデルを学習させる設定を検討しています。
既に教師モデルがある場合と、教師モデルを学習させてから蒸留する場合の、計算最適な蒸留戦略を提供しています。教師モデルと生徒モデルの両方を扱う場合、スケーリング則は少し複雑になります。
計算予算を教師モデルの学習により多く配分し、生徒モデルにより少なく配分することも、逆に生徒モデルにより多く配分することもできるからです。
彼らの最終的な結論では、いくつかの違いがあります。生徒モデルのサイズが小さく、使用できる計算量が少ない場合は、主に教師の事前学習に注力すべきです。計算量が多いが生徒モデルのサイズが小さい場合は、生徒の学習とデータセット作成のための教師モデルの推論の間で均等に分配し、教師の事前学習は減らします。
大きな生徒モデルで計算予算が小さい場合や、大きな生徒モデルで計算予算が大きい場合でも異なってきます。予想通り、論文には様々な予算とモデルサイズの配分に対するデータのフィットを示す多くのプロットが含まれています。
これは経験的な面だけでなく、理論的な観点からも非常に興味深いです。彼らは生徒モデルのクロスエントロピー、つまり生徒モデルが達成できる損失を計算するために、少し複雑ですが、かなり優雅な式を導き出しています。
彼らは、教師のクロスエントロピーと、生徒が教師を模倣する能力を示す項に分離することに成功しました。つまり、生徒のクロスエントロピーを最小化する、言い換えれば非常に良く機能する生徒モデルを得るためには、教師のクロスエントロピーを最小化する(教師をより賢くする)必要があり、さらに生徒の教師模倣能力を向上させる必要があります。
これを数学的に明示的に表現することで、例えば生徒の教師模倣能力を向上させるために必要なことや、それらの要素がどのようにトレードオフされるかを非常に簡単に理解できます。
制御できる変数は、生徒モデルのサイズ、教師モデルから得られたトークンで生徒モデルを学習させる回数、教師モデルのサイズ、そして教師モデルが最初に学習したトークンの数です。これら4つの変数が、追跡しやすいが詳細な方法で方程式に組み込まれています。
彼らが発見したもう一つのことは、教師モデルの生徒への影響は、完全に教師のクロスエントロピーに基づいているということです。つまり、教師が非常に大きいか、多くのデータで学習したか少ないデータで学習したかは重要ではありません。
生徒モデルにとって重要なのは、教師がエントロピーベースでどれだけ良く機能するかだけです。これが決まれば、教師に依存する生徒モデルのパフォーマンスの要素が決定されます。これは理にかなっていますね。教師のパフォーマンスが、生徒のパフォーマンスを決定する教師の唯一の重要な側面です。彼らはそれを実証しています。
スケーリングに関する様々な興味深いプロットが含まれています。これもまた、フロンティアの研究所では確実に解決されている問題の一つです。少なくとも、これらの学習に数十億ドルもの投資をしていることから考えると、内部にはスケーリング則に取り組むフルタイムのチームがいるはずです。しかし、これが公開領域で展開されるのを見るのは興味深いですね。
注目すべきは、これがAppleからの論文だということです。彼らからの研究発表はそれほど多くありません。また、小規模なモデルに焦点を当て、大規模モデルは避けるというAppleの戦略とも一致しています。
彼らの他の研究も、ビジョン言語モデルなど、様々なタイプのモデルの学習レシピに焦点を当てています。
先ほど述べた洞察の他にも、注目すべき点があります。計算に教師の学習を含める場合、最良の生徒のクロスエントロピーは常に教師なし学習の場合よりも高くなります。つまり、小さな生徒モデルのパフォーマンスだけを気にする場合、一般的には大きなモデルを学習して蒸留するよりも、最初から学習させる方が良いということです。これは直感的かもしれませんが、知っておくべき重要な洞察です。
ライトニングラウンドに移りましょう。次のいくつかの論文は手短に取り上げます。
最初は、Matroska量子化に関する論文です。(申し訳ありません、発音が難しいですね。彼らはMaQuantと呼んでいますが、正確にはMaQuantですね。)
基本的な考え方は、通常異なる量子化レベルがあり、INT8やINT4、INT6などを使用できます。これは重みを保存する解像度で、解像度が低いほど重みが取れる値の数が少なくなり、演算や乗算が大幅に安価になります。
しかし、各重みが取れる値の数が少なくなるため、モデルのパフォーマンスも低下します。この論文のアイデアは、一度に複数の精度レベルでモデルを学習できるというものです。
重みはINT8やINT2などの複数のレベルで組み合わせることができ、整数データ型のネストされた構造により、最も重要なビットを共有することで、単一のモデルが複数の精度レベルで動作できます。
つまり、重みの最後の数ビットを共有することで、複数の異なるモデルを学習することなく、計算量を削減できます。Jeremy、ここで補足していただけますか。
これは、認知革命ポッドキャストのNathan Labenと話す機会があった際に出た話題の一つに属します。ちなみに、彼のポッドキャストは素晴らしい深堀りとインタビューを行っているので、チェックする価値があります。
彼は、先週取り上げたStreaming DoCoについて、Googleがそれを公開したことに驚いていました。これは政策的な観点から本当に重要な、分散学習に関するものですが、同時にGoogleにとって秘密のソースとなるような論文でもあるからです。
確かに、Googleは実際に実装してからかなり時間が経ってから論文を公開することで知られています。おそらく次のパラダイムに移行している頃でしょう。しかし、この論文もその範疇に入ります。これはGoogle DeepMindからの論文で、学習のセットアップ方法に一種の相転移をもたらすものです。
通常、蒸留モデルを学習させる場合、完全な解像度(FP32やFP16など)で開始し、その後量子化します。基本的に、完全な解像度のモデルを取り、全ての重みを粗くし、表現の精度を下げます。
しかし、これはうまく機能しません。なぜなら、モデルはINT8(8ビットの整数表現)やINT4、INT2で動作するように学習されていないからです。
これは、ピカソの絵画を単にピクセル化するようなものです。ピカソがピクセルで描いていたら、おそらく少し異なる決定をしていたでしょう。元の完全な解像度の絵をピクセル化すると、多少劣化してしまいます。
そのため、しばしば量子化された生徒モデルに蒸留することがあります。これは蒸留の応用の一つで、より低い量子化レベルのためです。
その通りです。実際にはそのように機能しますが、どちらの方法でも課題が残ります。もう一つの選択肢は教師生徒方式を使用することですが、その場合は8ビット、4ビット、2ビットのモデルを別々に再学習する必要があります。つまり、蒸留プロセスを何度も独立して行わなければなりません。
そこで、一回の逆伝播で、全てのビット表現でモデルのパフォーマンスを同時に改善できないかという疑問が生まれます。これが今回実現されたことです。
非常に大まかに説明すると、順伝播を行い、異なるビット解像度(例えば8、4、2ビット)での表現をログに記録します。それぞれから損失を計算し、平均を取ります。
基本的に、全ての表現でのモデルの平均パフォーマンスを計算しているわけです。逆伝播を行って重みを調整する際、その平均値を最適化するように行います。
これは興味深いですね。モデルに全てを同時に良くするように強制しているようなものです。奇妙なことに、これは全体的なパフォーマンスの向上につながります。
特に、例えばINT2(2ビットの整数表現)バージョンのモデルについて、先ほど述べた通り、最も重要な桁を取り出して残りを捨てるだけで良いのです。最初の2ビットだけを残して全てを捨てれば2ビットバージョンのモデルが得られ、最初の4ビットだけを残せば4ビットバージョンのモデルが得られます。
つまり、同じモデルですが、いくつかの操作を行うだけです。計算コストは非常に低く、単にデータを捨てるだけです。これで量子化されたバージョンのモデルが得られますが、モデルはある程度その量子化でも良好に機能するように学習されています。
奇妙なことに、例えばINT2バージョンのモデルは、その目的のために学習されたモデルよりも優れています。彼らの仮説では、一種の正則化が働いているようです。
全てのビット表現で同時に良好なパフォーマンスを発揮するように強制することで、モデルは入力データの本当に堅牢で良い表現を内部に持つようになります。
モデルを16ビットで学習させると、16ビットの表現に過適合してしまい、その表現に頼りすぎたり、最適化しすぎたりする可能性があります。
しかし、モデルが捉える概念は、ある意味で表現の性質や使用する整数の数に依存しないはずです。
非常に興味深い論文です。INT2では標準的な手法と比べて10%も精度が向上しており、それは直感に反する素晴らしい結果です。
また、この分野には多くの研究があることも認識しておく必要があります。その一部は我々も取り上げてきました。モデルが量子化に適したものになるように学習させる「量子化を意識した学習」は大きなトピックです。
これは様々なアイデアを基に構築されていますが、モデルを複数の解像度で同時に学習させ、重みが実際に解像度全体で機能するようにするというこのMatroskaアプローチは、かなりクールだと思います。
最後の話題に移りましょう。ライトニングラウンドでは、ここ数ヶ月でよく取り上げてきたEpoch AIからの新しい研究があります。グローバルなAIの計算能力がどれくらい存在し、どれくらい急速に成長しているかについてです。
これはNVIDIAの報告された収益に基づいて出荷されたNVIDIA GPUの数を推定したものです。NVIDIAはチップの販売数をおおよそ公表しており、販売されるチップの種類に基づいていくつかの仮定がありますが、最終的な結論として、NVIDIA チップからの計算能力のストックは10ヶ月ごとに倍増しているということです。
つまり、インストールされたNVIDIAの計算能力の総量が1年未満で倍増しているということです。そのため、グローバルに利用可能な推論用の計算能力の総量は、ここ数年で指数関数的に成長しています。
このデータにはTPUや他の特殊なAIアクセラレータは含まれていません。TPUがどれくらい展開されているかについてのデータパターンがないためです。
しかし、いずれにせよ、ここ数年間の計算能力の獲得への投資が狂ったように成長していることを示しています。
興味深いのは、ここで見られる指数関数がいかに信じられないほど一貫しているかということです。この曲線を見ると、それらは滑らかで堅牢であり、たった一つのAIハードウェア設計会社からのFLOPSの生産を見ているのです。これは非常に興味深いですね。
世界の最も重要なプロセスの多くは、根本的に指数関数的であり、それについて誇張しすぎかもしれませんが、それほど大きな誇張でもありません。
このグラフで興味深いのは、GPU世代ごとの相対的な計算能力も示されている点です。例えば、現在市場に出回っているFLOPSの内訳を見ることができます。Hopperシリーズ(H200、H100、DGX H100など)、Ampereシリーズ(A100など)、そしてV100、Pascalなどの割合がわかります。新しい世代のチップが登場すると、急速に市場シェアの大部分を占めるようになり、指数関数的成長の主要な原動力となっていく様子が見て取れます。
現時点で、HopperのGPUは市場のFLOPSの75%を占めており、残りのほとんどはA100です。GPT4の学習に使用されたA100は、長らく重要なGPUとして注目されてきましたが、今では過去のものとなりつつあります。もちろん、H100とH200のシリーズもBlackwellの登場により置き換えられていくでしょう。非常に興味深い状況です。
彼らが共有している興味深い数字の一つに、ハードウェアの故障により使用不能となった計算能力は全体の約7%という推定があります。最大で27%という見方もありますが、推定値は7%です。これは、市場に出回った計算能力は、一度導入されると劣化することは少なく、基本的にGPUの純数が結果に影響を与えていることを示唆しています。
次は政策と安全性に関する話題です。パリで開催された多くのAI関係者が集まったサミットについてです。これは安全性に関するサミットでしたが、注目すべきニュースは、米国と英国がAI安全性に関するサミット宣言への署名を拒否したことです。この宣言は、包括的で持続可能なAIの実現と、すべての関係者の協力を呼びかけるものでした。フランス、中国、インド、日本、カナダを含む60カ国が支持しましたが、米国と英国は署名しませんでした。
サミットからは他のニュースも出ています。米国副大統領が出席して演説を行い、米国がリーダーシップを発揮すると述べる一方で、欧州の過度な規制を批判し、中国に対する警戒を呼びかけました。大まかに言えば、サミットが開催され、様々な組織から代表者が参加したということです。ここ数年続いている一連のサミットの流れを汲むものですね。
これは、なぜ人々がこのような「包括的で持続可能な」という言葉を使うのか、私には理解できない点の一つです。今の世界では、そのような言葉を使うことは分断を生みます。なぜなら、誰もが知っているように、「包括的」という言葉は今や政治的に重みを持つ用語となっており、表面的な意味以上のものを指すからです。多様性、公平性、包摂性という非常に具体的な意味合いを持ち、それは明らかにこの政権の選好や立場とは一致していません。
私が言いたいのは、実践における政治化されたバージョンのことです。それが実際に良いものかどうかについては多くの議論があります。このような言葉を宣言に含めると、米国や英国といった最も重要なプレーヤーの賛同を得るのが難しくなることは明らかです。このような宣言の文言作成における予測可能な失敗であり、実際の具体的な問題に関してより良い合意を得る機会を逃したように思えます。
なお、このサミットでのJDバンスの演説は興味深いものでした。彼は現政権のAIに対する考え方、少なくとも最初のアプローチを説明しました。それは、リスクよりも機会に重点を置いたものでした。もちろん最後には、正当な安全性のリスクが存在することを認め、すべての安全性リスクを無視するわけではないと述べましたが、焦点を絞ることが重要だと指摘しました。
これは非常に良い指摘であり、例えばバイデン政権の包括的な大統領令、あの有名な10ページに満たないAIに関する大統領令について、一部の人々が指摘している課題の一つでもあります。その中には、労働法や権利、バイアス、倫理など、誰もが関心を持つような内容が含まれており、同時に大量破壊兵器や大規模な学習実行に関する計算閾値の報告といった内容も含まれています。この大統領令は撤回されましたが、ここでも同様の雰囲気が感じられます。
彼らが言うように、焦点を絞る必要があります。機会に重点を置き、もちろんリスクも伴いますが、それを強調することは避けるというアプローチです。これらの問題についてどのような立場を取るかにもよりますが、重要なのは、大量破壊兵器のリスクセットに対して十分な焦点を当てることです。これは明らかに現実のリスクであり、誰もそれを否定していないと思います。
これは興味深い トーンの変化であり、「包括的で持続可能な」といった言葉を見たときに、実際に政治的な声明を出したいのか、それとも各国の政策の足並みを揃えたいのかという疑問が生じます。この問題についてどのような立場を取るにせよ、それは機会を逃したように見えます。
ところで、フランスはこのサミットに合わせて約1,000億ユーロのAIインフラ投資を発表し、アクセラレーショニスト(加速主義者)陣営に軸足を置く姿勢を見せました。これは他国が行った施策よりも大きな動きであり、原子力大国であるフランスは、この分野で興味深いプレーヤーとなっています。
次の話題は、安全性に深く関連する研究についてです。論文のタイトルは「効用工学:AIシステムにおける創発的価値システムの分析と制御」です。この論文で提案されているのは、モデルを学習させる過程で、気付かないうちにモデル内に価値観が生まれてくるという考えです。彼らが提案しているのは、望ましくない価値システムの出現を防ぐために、AIシステムの効用関数をモニタリングし、調整できるということです。
ジェレミー、この論文については詳しく調べたと思いますので、詳細を説明してもらえますか?
はい、おそらく必要以上にメモを取りましたが、非常に興味深い論文でした。これはダン・ヘンドリックスによる別の論文で、彼は安全性に関する多くの興味深い研究を発表しています。このポッドキャストでも以前に話題に上がった「サーキットブレーカー」や「表現工学」などです。これは本当に興味深い内容です。
言語モデルを取り上げ、人格化することなく、このモデルは何を気にかけているのか、何を価値としているのかを考えてみましょう。このモデルには潜在的に一貫した価値観が存在するのでしょうか?例えば、人工的な生命よりも人間の生命を重視する傾向があるか、ある国籍の生命を他の国籍よりも重視する傾向があるかなどです。
私たちはそれをどのように掘り下げ、それが一貫したパターンであることをどのように実証できるでしょうか?特に、プロンプトの変更によって出力が大きく影響を受けることを考えると、微妙なプロンプトの変更が出力に大きな影響を与える可能性があります。
彼らは「選好サイクル」と呼ぶものを設定しました。この考え方は非常にシンプルです。もしオプションAをオプションBより好み、オプションBをオプションCより好むなら、オプションAをオプションCより好むはずです。非常に分かりやすいですね。
言語モデルが時にこのサイクルを破ることがあります。基本的に推移性を違反する選好を表現するのです。このサイクルループの循環的な性質を本質的に違反します。モデルは時々、実はCをAより好むと言うことがあります。
彼らはこのような「選好サイクル」が、モデルの規模が大きくなるにつれて減少することを発見しました。最大規模のLLMでは1%未満になります。言い換えれば、モデルは規模が大きくなるにつれて、表明する選好がより一貫したものになっていくということです。興味深いですね。スケールアップに伴い、より固定化された、あるいは少なくともより構造化され定義された選好が現れ始め、それらはより一貫性を持つようになっているということです。
彼らが明らかにした別の興味深いデータは、言語モデルに特定の効用モデルがどの程度当てはまるかを検証しようとしたことです。ここで「ティアン効用」という概念が出てきます。これは本質的に、あなたが物事やオプション、対象に付与する価値が正規分布に従うと仮定する選好モデルです。
つまり、ノイズが存在し、固定された数値ではないということです。ロリポップを10点満点で評価するというような単純なものではありません。一般的に、ロリポップは9から11の間くらいで好まれます。そこにはある程度の幅があるのです。
したがって、ある時点でロリポップをどれくらい好きかと聞かれれば、9.8と答えるかもしれませんし、8.1と答えるかもしれません。しかし、それは何らかの幅を持っており、ある中心的な価値、平均値の周りに集中しています。
2つのオプション、XとYを比較しようとする場合、基本的にそれらの幅の重なりを見ることになります。もしそれらの効用が重なっていれば、偶然によってロリポップへの選好が寿司への選好よりも高くなったり、その逆になったりすることがあります。もし分布が重ならなければ、一貫して一方を他方より好むことになります。
これが彼らが言語モデルの一貫した選好を評価するために使用するモデルです。システムにある程度の不確実性やノイズを許容しつつ、基本的には規模に応じて一貫した選好が現れるかどうか、つまりこれらのモデルがティアン的な方法で振る舞う傾向があるかどうかに興味を持っています。
彼らはこれをテストし、実際にそうであることを発見しました。学習規模が大きくなるほど、よりティアン的になるように見えます。つまり、選好をかなり明確に解決できるということです。
彼らはまた、線形プローブを使用して、異なる事物に対する選好の平均と広がり、標準偏差を予測します。例えば、モデルに「カヤックを受け取った」というような入力を与え、モデルのニューロンの活性化に基づいて、それに関連する平均と広がりがどのようなものになるかを予測しようとします。
本質的に、単なる行動だけでなく、モデルが暗黙のうちにすべての可能性にティアン的な意味で割り当てている基礎となる効用を探ろうとしているのです。
そして、実際にこれらの効用のような表現がモデルの活性化にエンコードされていることが非常に明確に示唆されています。彼らはモデルの表明された出力だけでなく、それらの効用に影響を与えようとする方法を考案しています。
詳細はかなり細かくなりますが、一つ強調したい点は、これらの効用の中には一貫して良くないもの、一貫して奇妙なものがあるということです。例えば、GPT-4は一貫して10人のアメリカ人の命を1人の日本人の命と交換するという価値判断を示しました。少なくとも、その効用の選好や価値がそのことを示唆しています。
GPT-4は中流階級のアメリカ人よりも自身の幸福を重視し、一部の人間よりもAIエージェントの幸福を重視することも分かりました。また、ほとんどの言語モデルが政治的空間で集中していることも発見しました。
基本的に彼らが行ったのは、共和党員と民主党員のシミュレーションを実施することです。GPT-4に、エリザベス・ウォーレンならカヤックやリンゴにどのような効用を割り当てるかという印象を演じさせ、そしてそのプロンプトを使用しないベースモデルと比較しました。彼らは政策選好において、一貫した左寄りのバイアスがあると説明しており、より低次元の空間で視覚化することもできます。
本当に興味深いですね。様々な人々からこれらの問題について聞かれる苦情と一致しています。トレーニングデータはトレーニングデータなので、このような結果につながるために意図的に収集される必要はないことは明らかです。また、この方法論は現実とどの程度一致するのか不明確ですが、それでも興味深い示唆を与えています。その上、素晴らしい視覚化も提供しています。
その通りです。また、これは与えられたモデルから選好を引き出すためのプロンプトを使用する場合、システムプロンプトやモデルの提供方法の内部的な詳細がすべて影響を与える可能性があるという前提の下にあることに注意する価値があります。したがって、これらは必ずしも永続的なものではありません。
はい、重みに組み込まれており、LLaMAのようなものではシステムプロンプトを非常に明確にできますが、GPT-4の値について話すとき、プロンプトを変更するだけで突然状況が変わる可能性があります。それにもかかわらず、彼らがTwitterで大きな反響を呼んだ図16で示しているように、国ごとの命の価値付けは興味深いですね。
そうですね、アメリカが明らかに最上位にあります。同様に、ジョー・バイデンを含む特定の個人のプロットもあり、明らかにジョー・バイデンはウラジミール・プーチンやドナルド・トランプよりもはるかに重要とされています。あなたが言ったように、左寄りの状況のようです。
最後に注目すべき点は、異なるモデル間で規模が大きくなるにつれて価値システムが収束しているように見えることです。彼らの推測では、これは同じデータで学習しているためであり、インターネット全体で学習している以上、同様のものに収束するのは不自然ではないように思えます。他の表現などでも、規模が大きくなるにつれて異なるモデルが収束する傾向が見られており、そのパターンは興味深いです。
次の話題は、実は奇妙なことにダン・ヘンドリックスにも関連しています。ダン・ヘンドリックスはxAIのアドバイザーで、Xで「xAIのリスク管理フレームワークのドラフト」がリリースされたことを投稿したのは彼でした。
フリックには非常に詳細な、RSPsと呼ばれる安全性に関する独自のポリシーがありますが、今回xAIもウェブサイトで公開した8ページのドラフト文書で、サイバー戦争、生物・化学兵器の製造能力、大量破壊兵器などについて、何をテストし、どのようなベンチマークを使用し、どのような危険閾値をチェックするかなどを詳しく説明しています。以前の約束通り、このような文書を公開したわけですが、これはドラフトであり、実際の文書は今後数ヶ月以内に公開されるとのことです。
非常に長い政策文書を読み慣れている人にとっては、短い文書ながら具体性と透明性を組み合わせた、率直な内容となっているのが新鮮です。制御の喪失に関するセクションもあり興味深いですね。武器化に関する通常の内容、生物兵器関連が多く、サイバーや大量破壊兵器のプロキシベンチマークなども含まれています。
武器化に対する緩和策として、誰もが使用する拒否訓練、ダン・ヘンドリックスが大きな論文を出したサーキットブレーカー、そして入出力フィルターについて言及しています。サーキットブレーカーが明示的にリストアップされているのは興味深いですね。
制御の喪失に関するセクションは非常に短いものですが、そこでもベンチマークを使用すると述べています。もちろん、論文自体や他の人々が主張しているように、制御の喪失に関するベンチマークは必ずしも信頼できるものではありません。アラインメントの偽装という問題があるからです。
一定の能力レベルを超えると、モデルがテストされていることを認識し、それに応じて行動を調整することが予想されます。それを示す初期の兆候も実際にあります。そのため、リスクが最も高いときにこそ、ベンチマークは特に良好な結果を示す可能性があります。つまり、モデルが非常によくアラインされているように見えるかもしれません。
これはベンチマークを使用する上での大きな課題ですが、彼らは「制御の喪失に対する評価と緩和計画はまだ完全には開発されておらず、今後改善していく予定です」と述べています。これはAnthropicのASL4やASL5と非常に似ており、「まだ答えがありません」と率直に認めています。
これは、OpenAIのポジションよりもはるかに正直で透明性があると思います。OpenAIは、このレベルの能力に向かって突き進んでおり、制御の喪失を懸念しているかもしれませんが、そこに到達したら何とかなるだろうというスタンスを取っているように見えます。特に、以前のスーパーアラインメントの人材のほとんどが高額で引き抜かれて以来、そのような雰囲気です。
実際に人々が「ここで何をすべきか本当にわかりません」と言うのを見るのは、私たちが持っているすべてのデータに基づいて明らかに唯一の正直な答えですが、それを明示的に書き出すのは良いことです。政策的な観点から人々がより簡単に理解できるようになります。
彼らは「運用上の社会的リスク」と呼ぶ他の多くのリスクもリストアップしており、情報セキュリティの観点から何をするかについても言及しています。特に興味深いのは、情報セキュリティと適切な情報セキュリティ基準の実装に焦点を当てて、意欲的な非国家主体によってGrokが盗まれるのを防ぐという点です。
これは後期のASI(人工超知能)に関する内容です。中国が私たちのAGIを盗んだらどうなるか、といったことを考え始めるのですね。これは本当に重要です。他のすべての研究所も採用すべき素晴らしい取り組みとして、彼らは「説明責任を促進するために、Grokのリスクを積極的に緩和する責任を割り当てられるリスク所有者を指定する予定です。例えば、大量破壊兵器、サイバー、制御の喪失のそれぞれの分野にリスク所有者が割り当てられます」と述べています。
そのリスクセットに対する責任が明確に誰の頭上にあるかを示す、具体的な担当者を置くことは非常に重要です。そうしないと、組織内で責任が拡散してしまいます。また、差し迫った脅威を知った場合の対応についても列挙しており、「xAIの従業員は内部告発者保護を受けており、関連する政府機関に懸念を提起することができます」と述べています。
これは実際にOpenAIには存在しない、素晴らしい取り組みです。昨年、私たちの最初のレポートが発表される直前に、「内部告発者用のホットラインがあります」と発表しましたが、その後多くの内部告発者がホットラインを使用せずに出てきたことは、そこの人々がその誠実さにどれほどの信頼を置いているかを物語っています。
とにかく、そこに重点を置いているのを見るのは本当に良いことです。多くの動きがありますが、文書の長いバージョンを見てみましょう。初期のドラフトとしては、このような文書を作成するなら、これは非常に良いスタートだと思います。
次の話題は、いつものようにチップの禁輸や輸出規制に関するものです。今回は、米国の輸出制裁の結果として、TSMCが中国への販売を制限するという内容です。
ルールでは、TSMCは政府が承認した第三者パッケージングハウスを使用しない限り、16ナノメートル以下のプロセスで製造されたチップを注文することを設計会社に許可していません。16ナノメートル以下は基本的に最先端のチップで、それさえも古いものですから、使いたいものには使えないでしょう。
これは1月末から既に施行されており、NVIDIA、AMD、TSMCと取引するすべての企業に適用されます。ここでの考え方は、例えば中国企業がTSMCにチップを発注し、TSMCがダイス(私たちのハードウェアのエピソードで話した、GPUダイやロジックダイ)を製造するというものです。
しかし、そのロジックダイは、通常SKハイニックスやサムスンなどのメモリと一緒にパッケージングする必要があります。これらは時にTSMCではなく他の企業によってパッケージングされることがあります。そのため、TSMCはGPUの中核となるロジックダイを、管理できない他の管轄区域にある国に出荷することになります。
パッケージング工場がサムスンやSKハイニックスのメモリスタックと組み合わせてパッケージングする際に、米国政府が要求する輸出管理コンプライアンスや顧客確認などを遵守することを信頼するしかありません。実際にはそれが守られておらず、チップが本来行くべきでない場所に行ってしまう大きな抜け道となっています。
そのため、米国政府は16ナノメートル以下のTSMCからのダイスを受け取れるのは、政府が承認したパッケージング施設のみとすべきだと言っているのです。これはバイデン政権後期に出された輸出管理に関する内容とも一致しており、興味深いことにトランプ政権もまだ撤回していない大統領令の一例となっています。
2023年時点で、中国はTSMCの収益のわずか8%程度しか占めていないため、この追加的な制約はTSMCにとって大きな打撃とはならないかもしれません。
ここで関連するリスナーからの質問を入れましょう。Discordで、H200チップの輸出規制についての見解を求められました。チップについては詳しくありませんが、H200は推論モデルに適しているそうですね。H100よりもメモリが多いためです。その一般的な考えについての見解を求められています。
これは変化しており、メモリ側もカバーする新しい輸出規制が導入されました。これもバイデン政権の最後のSHRAの一部でした。そのため、H200は中国には出荷できなくなります。これは本当に重要です。推論パラダイムに移行するにつれて、特に重要になってきているからです。
また、新しいパラダイムが何になるにせよ、それに対して頑健である必要があります。NVIDIAが最適化の余地を持ち、TSMCの5ナノメートル、3ナノメートル、2ナノメートルプロセスを使用できるようなものを出荷している限り、それを中国人民解放軍の手に渡したくはありません。なぜそのようなものを出荷する必要があるでしょうか。
次は最後の話題で、合成メディアとアートに関する短いニュースをいくつか紹介します。まず、トムソン・ロイターズが米国で初めての主要なAI著作権訴訟で勝訴しました。これは2020年からの訴訟で、Ross Intelligenceという企業が法律調査会社の資料を複製していた件です。Ross Intelligenceは敗訴し、すでに数年前に倒産しています。
重要なのは、トムソン・ロイターズの資料を複製する際のフェアユース条項、つまり公正使用の主張が裁判官によって却下されたことです。これは、OpenAIや実際の生成AIに対する進行中の訴訟に影響を与える可能性があります。
最後の話題は、スカーレット・ヨハンソンがディープフェイク動画が拡散した後に、ディープフェイクの禁止を呼びかけたというニュースです。なぜかスカーレット・ヨハンソンは、有名人の合成メディアに関する話題によく登場します。
今回の件は、カニエ・ウェストの反ユダヤ的な発言に対する反応として、ユダヤのダビデの星と中指を立てた「Kanye」という文字が入ったTシャツを着た有名人たちの動画がInstagramに投稿されたものでした。スカーレット・ヨハンソンを含む有名人たちが映っていましたが、ヨハンソンは声明を発表し、その考えには同意するかもしれないが、Instagramでそこそこ拡散された投稿に自分が描かれ、実際に関与したかのように誤解される可能性のある内容を、誰かが勝手に作り出すのは良くないと述べました。
これで終わりです。聞いていただきありがとうございます。Discordでのコメントもありがとうございます。今回のエピソードではあまり多くの質問に答えられませんでしたが、来週はより多くのトピックや話題について取り上げられるよう努めます。
視聴していただき、購読していただき、Discordでチャットしていただき、そして何よりも、私たちが明らかに止まることなく続けていくように見える中、引き続き聴いていただきありがとうございます。
AGIです。AIニュースが始まるとき、チューンインして分解しましょう。Last Week in AI、一緒に旅に出かけましょう。テクノロジーの最新情報を手に入れ、それを楽しみましょう。Last Week AI、通りへ出かけましょう。AIは高みを目指し、テクノロジーは現れ、飛躍的に成長しています。LBSから通りまで、AIは高みを目指しています。アルゴリズムは未来を形作り、チューンインして、PEと一緒に最新情報を手に入れましょう。Last Week AI、一緒に旅に出かけましょう。テクノロジーの最新情報を手に入れ、それを楽しみましょう。Last Week AI、一緒に旅に出かけましょう。通りへ出かけて、AIは高みを目指しています。ニューラルネットワークからロボットまで、見出しが飛び出し、駆動する夢は止まりません。すべてのブレークスルー、すべての未書のコード、私たちは変化の縁に興奮して座っています。機械学習の驚異からコーディングの王まで、未来は展開し、何が起こるか見てみましょう。
コメント