Last Week in AI #206 – Llama 4、Nova Act、xAIによるX買収、PaperBench

26,112 文字

https://www.youtube.com/watch?v=HkcX37HztIE

こんにちは、ラストウィーク・イン・AIポッドキャストへようこそ。いつものようにAIの動向について話し合います。今回のエピソードでは先週の最も興味深いAIニュースをいくつか要約し、議論します。エピソードの説明欄にはタイムスタンプとそれらの記事へのリンクがあります。
私はレギュラーホストの一人、アンドレ・ココです。大学院でAIを学び、現在はジェネレーティブAIのスタートアップで働いています。そのスタートアップは、まあ、間もなく何か面白いことをする予定です。私自身とても興奮しています。なぜなら、私たちはオフラインでこの発表について話していて、おそらく視聴者の皆さんと同じように、あなたが日々何をしているのか非常に興味があります。
間もなく何か見られるといいですね。それをとても楽しみにしています。ええ、そうですね。あまり多くは明かしてきませんでしたが、言えることとしては、私はAIを使って小さなゲームを作る仕事をしていて、人々がゲームを作成・公開し、お互いのゲームをプレイできるプラットフォームを目指しています。
明日、4月8日に、最新の技術状況について大きな発表があります。この録音は少し遅れていますので。そう、火曜日にです。正確です。このエピソードが公開される時点では、ほぼ間違いなく大きな発表をしていますので、聞いている方はastrok.comにアクセスして試してみてください。きっと他の場所でも宣伝するでしょうから、必ず聞くことになると思います。
そういうわけで、基本的にこのエピソードは急いで進める必要があります。アンドレは仕事に行かなければならないので、実際に外に出て、怠け者をやめて働かなければならないのです。では、ツールとアプリから始めましょう。
最初の話題はかなり大きなものです。Metaが最新のオープンソース大規模言語モデル・大規模マルチモーダルモデルシリーズをリリースしました。これらは4つの種類と異なるサイズで提供されています。Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemothと呼ばれるものもあります。
また、WhatsApp、Instagram、Facebook、他のどこでもAIとチャットできる様々な方法でこれをリリースしています。これらはかなり大規模です。参考までに言うと、Maverickは合計4000億パラメータを持ちますが、アクティブなパラメータは170億だけです。これは低スペックデバイスにもより対応できるものとして売り込んでいます。
しかし最上位のBehemothは、まだリリースされておらず訓練中だと言われていますが、合計で2兆近くのパラメータと2880億のアクティブパラメータを持っています。これはGPT-4について当時推測されていたような内容に似ています。エキスパートの混合で、合計で約2兆パラメータ、そして100億以上、おそらく2000億のアクティブパラメータ。わかりませんが、これはGPT-4に関する推測を思い起こさせます。
ところで、このリリースは多くの人にとって期待はずれでした。現在、Llama 4リリースの何が問題なのかについて興味深い議論が起きています。これらは大規模モデルです。
まず良い点から話しましょう。工学的観点から見れば、12ページの文書に記載されているすべてが興味深いです。それがブログ記事と呼ばれるのか技術報告書と呼ばれるのかわかりませんが、Deep Seekが作成するような分厚い50ページのものではありません。
しかし、そこから得られるデータは良いものです。ここでの工学的選択に関するすべてが興味深いです。一般的なアーキテクチャの選択に関しては、Deep Seekからの影響が非常に多いです。非常に多いです。例を挙げると、彼らはFP8精度で訓練しました。
これもDeep Seek V3と同様ですが、Deep Seek V3はもう少し高度な混合精度技術も使用していました。Deep Seekのエピソードでその話をしました。H100 GPUの理論的パフォーマンスはFP8で約1000テラフロップスです。彼らは実際に390テラフロップスを達成しました。つまり約39-40%の利用率を達成していますが、これはこれだけ大規模なGPUフリートとしては高い方です。これは32,000台のH100 GPUを使用しています。
これは冗談ではありません。GPUをこれほど一貫して稼働させることは非常に大きなことです。そのため、工学的観点からは非常に良い兆候です。彼らが行ったいくつかの点が少し特徴的です。一つは、これが生来のマルチモーダルモデルであることです。Deep Seekから多くのインスピレーションを得ているとはいえ、同時にメタの哲学である良いグラウンディング、良いマルチモダリティを目指しています。
彼らはアーリーフュージョンと呼ばれる技術を使用しています。テキストとビジョンのトークンがモデルアーキテクチャの最初から組み合わされ、それらすべてがモデルのバックボーン全体の訓練に使用されます。つまり、モデルは最初からこれら両方のモダリティの結合表現を学習します。
これはレイトフュージョンとは対照的で、レイトフュージョンではテキストと画像などのデータを別々の経路で処理し、モデルの終わり近くでそれらを結合します。より寄せ集め的なやり方です。これはそうではなく、より一体型のものです。
とにかく、ここには多くのことがあります。ScoutとBehemothは同じモデルラインにあるようです。彼らはアーキテクチャの設計選択において同じ選択をしているようです。Maverickはディープクローンのようです。一部の人は、これはDeep Seekが行ったことを複製しようとする最後の瞬間の決断だったのではないかと推測しています。一方、ScoutとBehemothを見ると、それらははるかにGPT-4ミーツミックストライアル型のモデルに近いです。なぜこうなったのかは非常に不明確です。
しかし、私たちが知っていることの一つは、パフォーマンスがあまり良くないようだということです。人々が自分自身のベンチマークを実行すると、少なくとも非常に混合した結果になります。例えば、LMSISでは素晴らしいELOスコアを持つモデルがあるようです。しかし、論文をよく読むと、そのモデルは彼らがリリースしたモデルではなく、LMSアリーナリーダーボード用にカスタム微調整されたものであることがわかります。
これは大きな問題です。これは人々がメタを批判している点の一つです。「あるモデルのベンチマーク結果を見せながら、別のモデルをリリースしている」と。これは評価ゲームのように見えます。なぜ土曜日にこれをリリースしたのか、という奇妙な疑問もあります。これはあなたの主力リリースの一つであるはずなのに、何が起きているのでしょうか?GitHubのリリース日が4月7日から4月5日に一晩で変更されました。
おそらく今週予定されている興味深いリリースに先んじるためかもしれません。ここには多くの問題があります。最後に言っておきたいのは、これらのモデルのパフォーマンスが悪い理由の一つとして、ホスティングの問題が挙げられています。ホストされているシステムが適切に最適化されていないのかもしれません。
モデルの量子化が少し過度であるか不適切であるか、温度やtop pなどの推論パラメータが不適切であるか、またはシステムプロンプトが悪いのかもしれません。もっと微妙なハードウェアの考慮事項も含めて、あらゆる可能性があります。しかし結論として、これは大々的に発表された重要なはずのリリースとしては、今年最大の失敗かもしれません。
数週間かけて実際にどう感じるかを理解する必要があるでしょう。現在は多くのノイズがあり、個人的にはこれらがどれほど印象的なのかについてまだ結論を出していません。しかし、これが私の主な見解です。
そうですね、それは人々の議論やフィードバック、反応についての良い概要だと思います。メタのリーダーシップが少なくとも定量的ベンチマークのゲーム化に向かって押したという推測もありました。M-M-O-U-G-P-Q-Aなどの通常見られる数字、ライフコードベンチなどです。
もちろん彼らはGemini 2 Flash、Deep Seek 3.1、GPT-4よりも優れていると言っています。しかし、あなたが言ったように、人々がこれらのモデルを個人的に使用したり、自分自身のベンチマークで使用すると、「チート」できる利用可能なベンチマークではなく、チートすることなく、あるいは意図的にチートしないようにしようとしていない場合に「誤ってチート」することもあります。
今日では意図的にチートしないようにすることが重要なことの一つです。インターネットをスクレイピングする際に、モデルが訓練データで訓練されていないことを確認する必要があります。そうしなければ、知らずにチートしている可能性があります。または、知らないふりをしているかもしれません。
そう、モデルは良くないようです。これが一般的な反応です。また、あなたが言ったようにBehemoth、Maverick、Scoutについては、Behemothとscoutには16のエキスパートがあります。そのため、ほとんどの作業を行う相当大きなモデルです。Maverickは異なります。
128のエキスパートを持っているため、より大きなモデルですが、アクティブなパラメータの総数は少ないです。そこにはさまざまな理由があると推測できます。彼らはモデルが一般的に少ないハードウェアで実行できるようにしたいのかもしれませんが、Behemothはその例外となるでしょう。また、コストを抑える必要もあります。
メタがここでのビジネスプランをどのように考えているのか私にはわかりません。LLMとの無料チャットは他のものと比較して非常に高価ですが、彼らは依然として製品ライン全体でこれを無料で提供しています。ここではさまざまな推測ができます。しかし、状況としては、他の何かが来るために急いでリリースした可能性があります。なぜなら、これらのビジネスは通常、互いのリリースを何らかの形で知っているからです。
おそらく彼らはもう少し待つべきだったのでしょう。また、これらのモデルのサイズとオープンソースの意味についても多くの疑問があります。他のモデル、Deep Seek V3やR1などの文脈でこれについて話し合いました。あるポイントでは、モデルが非常に大きいため、最初から高価なハードウェアが必要になります。
これはその良い例だと思います。Scoutは彼らの小型モデルとされていますが、Flashのように聞こえますし、27億パラメータモデルのような感じがします。しかしそうではありません。あなたが言ったように、それは170億のアクティブパラメータモデルです。彼らの大きな特徴は、単一のNvidia H100 GPUに収まることです。
それは実際にかなり高級なハードウェアです。数万ドルのハードウェアです。基本的に80GBのHBM3メモリです。このモデルには一つ素晴らしい点があります。それは信じられないほど大きなコンテキストウィンドウです。
1000万トークンです。それは驚異的です。問題は、そのコンテキストウィンドウの長さに関する唯一の評価は、「針を干し草の中から見つける」という評価だけだということです。以前にも触れましたが、これらはかなり浅いものです。モデルが回復した情報をどのように使用できるかについてあまり多くを教えてくれません。ただ、コンテキストウィンドウ内のどこかに埋もれた事実を拾い上げることができるだけを教えてくれます。
悪くはありませんが、十分ではありません。それがLlama 4 Scoutです。Maverickについては、1台のH100 GPUホストに収まると彼らは言っています。ここで「ホスト」という言葉は多くを意味しています。実際には1台のH100サーバーを意味します。おそらく彼らが意味するのはH100 DGXでしょう。
実際、論文ではそう述べていたと思います。それは8台のH100になるでしょう。つまり数十万ドル相当のハードウェアです。「これらのサーバーのうち1台だけに収まります」と言っていますが、それはかなりのハードウェアです。
ちなみに、ScoutはLlama 4 Behemothの蒸留版だと思いますが、Behemothはまだ訓練中です。そのため、Llama 4 Behemothが実際にどのように見えるかはまだわかりません。現時点では、メタが蒸留プロセスで大失敗していない限り、つまり素晴らしいBehemothモデルを持っていて蒸留プロセスがうまくいかなかったのでなければ、Behemothモデル自体もパフォーマンスが低い可能性があるように思えます。
しかし、これらすべてはまだ未確定です。多くの事と同様に、急いだリリースのように見え、この問題の解決にはおそらく数週間かかるでしょう。それでも彼らはオープンソースアプローチに固執していることは注目に値します。
以前のLlamaと同様に、Llama 4 MaverickとLlama 4 Scoutに実際の重みにアクセスするためのリクエストができます。以前と同様に、これらはLlama 4コミュニティライセンス契約の下でライセンスされており、メタが望まないことを行わないと誓約することになります。
それでも、Llamaは多くの研究やオープンソース側の開発において大きな役割を果たしてきたと思います。だからこそ、それは少なくとも称賛に値します。次の話題に移りましょう。Amazonに移ります。彼らはあまり多くのモデルをリリースしていませんでしたが、始めようとしているようです。彼らの最初の行動はNova Actで、ウェブブラウザを制御できるAIエージェントです。
これはAmazonのAGIラボからのもので、これまであまり多くの論文や製品を発表していませんでしたが、これはかなり大きなものに見えます。これはOpenAIのオペレーターのようなものに相当し、「このウェブサイトにアクセスして、すべてのリンク名をスクレイピングして要約してください」などと指示できます。
彼らはこの汎用AIエージェントを持っています。また、Vi Novo Act SDKもリリースしており、これによって開発者はこのVAに基づいたエージェントプロトタイプを作成できるようになります。これは研究プレビューなので、まだ初期段階であり、おそらく完全に完成していません。面白い展開だと思います。
この特定のバリアントのモデルやオファリングはまだあまり多くありません。RopaのComputer Use、OpenAIのOperatorがありますが、そのSDKがあるかどうかは覚えていません。これはその分野における非常に重要な参入となる可能性があります。これはAmazon AGIラボから出た最初の製品です。これは一種の大きな公開です。
多くの情報はありませんが、ベンチマークについていくつか注目点があります。彼らは少なくともScreen Spot Web Textベンチマークにおいて、OpenAIとAnthropicの最高のエージェントよりも優れていると主張しています。これは画面上のテキストとエージェントがどれだけうまく対話できるかを測定するものです。このベンチマークでNova Actは94%のスコアを獲得し、OpenAIのエージェントの88%、Anthropicのクロード3.7ソネットの90%と比較して明らかに優れています。
そのベンチマークでは大きな差があるようですが、それはこのエージェントの能力を一般的に評価するには十分なデータではありません。特に、Web Voyagerはより一般的な評価ですが、Nova Actエージェントのパフォーマンスはそれについて報告されていないため、いくつかの疑問が生じます。
でも、彼らはAlexaを通じて素晴らしい配信チャネルを持っており、それによってこれをかなり速く反復的に改善できるかもしれません。彼らはまた、Anthropicのパートナーシップをはじめとするさまざまな理由により、ハードウェアスタックも改善しています。
たとえ最初から素晴らしいものでなくても、少なくとも有望なハイパースケーラースタック上に座っているので、これはかなり速く改善する可能性があります。また、これは彼らのAlexa Plusという新しいサブスクリプションサービスの計画の一部かもしれません。Alexaはハードウェアだけでなくウェブサイトとしても立ち上げています。
おそらく彼らはこれを製品の一部にすることを考えているかもしれません。他の話題にも進みましょう。次は別の巨大企業による巨大モデルのリリース計画です。今度はAlibabaで、次のフラッグシップモデルQian Wen 3を間もなくリリースする準備をしているとのことです。
記事によると、4月中にも発表される予定で、明らかにAlibabaはDeep Seekや中国で起きている他の多くのホットな活動に対応するために急いでいるようです。私たちは最近の数か月間、Qian Wenについてかなり話してきました。Qian Wen 2.5など様々な小さなリリースがありました。そしてQian Wen 3はおそらく最高のものであり、誰をも打ち負かすことを目指しています。
一つ言えることは、これがLlama 4の迅速なリリースの要因の一つだったかもしれないという推測を見たことです。次は小さな会社、スタートアップのRunwayについてです。彼らは最新のビデオ生成AIモデル「Gen-4」をリリースしました。
これは顧客向けの使用可能なビデオ生成モデルとなることを目指しています。見た感じではかなり印象的です。一貫性のあるビデオが可能で、テキストと画像の両方でプロンプトを与えることもできるなど、最先端のモデルに追いついています。
彼らは企業価値40億ドルでの新しい資金調達ラウンドを行っており、今年3億ドルの収益を目標としています。RunwayはAIビデオ分野の主要なプレイヤーです。次も似たような話です。AdobeがPremier ProにAIビデオエクステンダーを導入します。
Premier Proは彼らの主力ビデオ編集ツールで、これまでPhotoshopにたくさんのAIを統合してきました。これはPremier Proとビデオ編集に導入される初めての主要なAIツールです。将来的には「Generative Extend」が導入され、Adobe Firefly技術によってビデオを最大2秒まで拡張できるようになります。以前にこのプレビューについて触れましたが、今は実際の製品に展開されています。
このような展開は、少なくとも私にとっては、これらの種類のビデオの最初のユースケースとして理にかなっています。これは昔のCodexで動いていたCopilotを思い起こさせます。最初のユースケースはテキストやコードの自動補完でした。自動補完機能はトランスフォーマーモデルにとって自然なものです。これは少し異なりますが、それでも実際のデータに基づいており、少し拡張するだけです。
特にビデオの場合、物理学を多く捉える必要があるため、これらのモデルの多くの問題を解決するための良い方法と思います。また、他にもいくつかの小さな機能が同時に導入されています。クリップのAI検索があり、クリップの内容で検索できるようになります。これは実際に多くの開発者にとってより大きな問題だと思います。
その通りです。100のクリップがあれば、ファイル名ではなくコンテンツで検索できるようになります。また、自動翻訳も導入されています。かなり重要な機能がAdobeから提供されています。もう一つの話題として、OpenAIがChatGPTに推論スライダーと改善されたメモリを追加する準備をしているとのことです。
おそらくテストで推論スライダーというアイデアが観察され始めています。これにより、モデルが少し考える、より深く考えるように指定できるようになり、または自動に設定してモデルに自分で判断させることができます。これはAnthropicも進んでいる方向を一部反映しています。
アプリケーションとビジネスに進みましょう。最初はNvidiaのH20チップについてで、BaiduやAlibaba、Tencentから最近160億ドル相当の注文があったとのことです。これは中国の主要AIプレイヤーがすべて制限されていないH20チップを大量に注文した2025年初頭の一連の出来事をカバーしています。
これはDeep Seekが構築され、Deep Seek V3を訓練する能力を示したチップまたはその変種だと思います。これは大きな問題です。Nvidiaはおそらく、これを実際に行うことができるように制限されすぎないように努力しています。Deep Seekはチャイナ向けのH100の別バージョンであるH800で訓練されました。これらはすべてHopperジェネレーションに分類されますが、中国向けに特化しています。
これはNvidiaから見られる動きです。新たな輸出規制の脅威に対応しています。もしあなたがNvidiaで、数か月後に特定のGPUを中国に販売する能力を制限すると言われたら、「まだできるうちに中国にできるだけ多くのGPUを販売しよう」と考えるでしょう。
そして輸出規制が施行されたら終わりです。そのため、アメリカの顧客よりも中国の顧客を優先する傾向があります。これは過去にも起きており、輸出規制にループホールがある限り、将来も続くでしょう。
現在起きているのは、Nvidiaが決断している状況です。「BaiduやAlibaba、Tencentからの160億ドルの注文に対応するためのチップを作る時間が十分にあるか?輸出規制が発効する前にGPUを準備して販売する時間があるか?そうでなければ、単にこのハードウェアを手元に抱えることになる」というものです。
H20はNvidiaが作れるH100やH200よりも性能が劣ります。そのため、国内市場に販売したり、ノードによっては、Blackwellを作ることもできます。中国の需要に応えるためにH20を作ることを選択すれば、結果的に米国内では市場がないような比較的性能の低いH20チップを抱えることになるかもしれません。
これは大きなリスクであり、彼らは現在それを計算しています。TSMCの割り当ては限られているため、両方を満たすことはマクロレベルでは不可能です。これはNvidiaが中国向けか米国向けかのチップをTSMCに作らせるかを決定しているということです。
これが決断のポイントです。以前にも見てきましたが、結局はこれらの輸出規制がいつ来るかについての内部評価にかかっています。続いて、面白い話と、今週の大きなビジネスストーリーの一つについてです。イーロン・マスクのX(以前のTwitter)が、イーロン・マスクのxAIに330億ドルの全株式取引で売却されました。
その通りです。AIを開発しているxAI会社が、ソーシャルメディア企業のTwitter/Xを数百億ドルで買収しました。Grokはほぼその創設以来Xの一部としてホストされています。Xでサブスクリプションを支払うことでGrokを使用できます。Grok.comも存在すると思いますが、GrokはXを主な居場所としていたようです。ここでの正当化は、TwitterがGrokを訓練するための多くのデータを提供し、深いシナジーを活用できるということです。
興味深いのは、イーロンがXを買収した時に420億ドルを支払ったことです。今回は全株式取引で330億ドルですので、会社の価値は名目上減少しています。様々な留保条件がありますが、生態系内での内部購入のようなものです。
この取引の法的側面は明確ではなく、OpenAIが非営利部門に営利部門を売却しようとした時のイーロンが提起した問題と同様に、公正市場価値が問題になるかどうかはわかりません。その議論の一つは「公正市場価値で売却していない」というものでした。
おそらくこれはより適切だと思います。なぜなら、これは支配の奇妙な問題が少ないからですが、私は法律の専門家ではないので興味深い数字です。とにかく、全株式取引であり、これら二つの最終的な組み合わせはxAIを800億ドル評価することになります。これはかなり大きな額であり、興味深いことにAnthropicの評価額にかなり近いです。
xAIがつい最近まで存在していなかったことを考えると驚くべきことです。これは典型的なイーロンの手法です。xAIは突然現れました。18ヶ月か2年前にですね。かなり驚くべき、典型的なイーロンの動きとして印象的です。記事にはあまり情報がありませんが、大きな数字が目立ちます。
予想通り、これについては様々な憶測があります。多くの人がこの場合の「自己取引」についてミームを作っています。これは二つのマスク企業の間で、片方がもう片方を買っているのです。これはTwitterの購入に関する財務的側面、イーロン・マスクがテスラ株に対して取った融資(現在少し下落している)に関係しているかもしれません。なぜ今この時点で、なぜこの正確な価格設定なのかについて様々な詳細な考えができますが、いずれにせよ、これまでの流れを考えると完全に驚くべきことではありません。
ライトニングラウンドに移りましょう。ソフトバンクがOpenAIの最大の投資家となり、OpenAIの市場価値を3000億ドルに押し上げましたが、大量の負債を伴っています。ソフトバンクは様々なテック企業に多額の投資をしてきた日本の大手投資家で、OpenAIの400億ドルの投資ラウンドのために負債を負い、みずほ銀行から100億ドルを借り入れたようです。
それはかなりの借り入れです。これはこの取引に投資するための1000億ドル、ましてや5000億ドルとも一致しています。詳細が明らかになり始め、彼らは文字通りお金を借りているのです。
これは孫正義氏の大きなリスクです。そこに別の言い方はありません。サム・アルトマンとの関係が様々な形で芽生えています。予想どおり、いくつかの条件が付いています。ある団体に400億ドルを提供すれば、条件が付くのは当然です。
100億ドルの契約は4月中に完了する見込みで、残りの金額は2026年初頭に入る予定です。すぐに実現するわけではありません。しかし、OpenAIが2027年に実現する可能性があると内部で考えている超知能訓練ランについて考えるなら、これは基本的にそのための資本注入です。OpenAIは400億ドル全額を得るために年末までに営利法人に移行する必要があります。
これはOpenAIがその移行を成功させるためのさらなる圧力となります。この移行は多くの法的問題で行き詰まっているようです。これは一種の課題です。ソフトバンクはOpenAIが移行に成功しなければ資金調達ラウンドを200億ドルに縮小するオプションを保持しているようです。これは期限の前倒しです。
以前はOpenAIは最後の資金調達ラウンドから2年の期限がありました。今は年末までにこの移行を完了しなければならないと言われています。これは興味深いことで、サムがこの奇妙な、非営利団体を営利団体が買収するプロセスを完了するためのさらなるプレッシャーとなります。もはや誰が追いつけるでしょうか。基本的には非営利団体を営利団体が買収するということです。
これは私たちの多くが見たことがないような法的・技術的ドラマになるでしょう。真に特異な状況であり、OpenAIについて言えることです。誰もそこにいませんでした。次はDeepMindに関する話題で、これはGoogleのAI部門です。
現在、AI研究のリリースを控えてGoogleに優位性を与えているという報告があります。たぶん先週か2週間前、DeepMindからの研究の一部が競争力があるため、Googleが共有したくないものに見えるというコメントをしました。
現在、元研究者からの報告によると、DeepMindは特に競合他社に利益をもたらしたり、彼らのLLMオファリングであるGeminiに悪影響を及ぼす可能性のある論文のリリースに消極的であるとのことです。知人からも少し聞いていますが、出版に関して多くの官僚主義があります。
最近の出版ポリシーには、戦略的生成AIの研究論文に6か月の禁輸期間があり、複数のスタッフメンバーに出版の利点を正当化する必要があるとのことです。これは効果的に、以前からDeepMindで見られたことでもあります。
特に、チンチラ論文かガトーかどうか覚えていませんが、以前にもポッドキャストで話しましたが、モデルの訓練終了からその発表までの間に丸1年の遅れがあった例がありました。これは早期のGT-3後のモデルの一つでした。したがって、これは実質的に部分的に新しいものであり、部分的には内部で発展した習慣かもしれません。
これは理にかなっています。なぜなら、彼らはOpenAIやAnthropic、中国企業などの競争が激しい分野と競争せざるを得ないからです。しかし、これは確かに興味深いことです。彼らが話した3人の元研究者によると、DeepMindは競合他社に利用される可能性のある論文や、GoogleのGeminiモデルを他と比較して否定的に描く論文を共有することにより消極的だったとのことです。
彼らはあるインシデントについて話しました。DeepMindがGeminiがGPT-4ほど能力がないこと、または安全でないことを示す研究の出版を停止した例です。一方で、政治的懸念から、基本的にOpenAIとの敵対的な応酬と見られる懸念から、ChatGPTの脆弱性を明らかにした論文もブロックしたとのことです。
これにより、企業間の政治的な状況が垣間見えます。これらの企業間にはかなりのライバル関係があり、セキュリティやコントロール・アラインメント側では問題でもあります。とにかく、これがGoogle由来のより多くの証拠を持つ実践であることが分かりました。ちなみに、これは他の企業でも確実に行われています。これはGoogleだけのものではありません。
そうですね、公平に言えば、OpenAIは基本的に発表を停止しました。なので、驚くことではありませんが、DeepMindは長い間かなり独立した、より純粋な研究組織で、アカデミックにはるかに友好的でした。それが確実に変化しています。
次はSMICに関する話題です。中国の主要な半導体メーカーがTSMCに追いつこうとしています。彼らは少なくとも2025年までに5ナノメートルチップの開発を完了すると噂されていますが、旧世代の設備を使用しているため、かなり高いコストがかかり、非常に低い歩留まりであると思われます。
ハードウェアエピソードでもっと詳しく説明していますが、彼らはEUVではなくDUV(深紫外線リソグラフィー)機械を使用することを余儀なくされています。通常、5ナノメートルはDUVからEUVへの移行が見られるノードですが、DUVで行うには解像度が低いため、マルチパターニングという手法を使用する必要があります。
ウェハーの同じ部分を何度も何度もスキャンして、EUVでの1回のスキャンと同じ解像度を達成する必要があります。つまり、リソグラフィーの特定の層の特定のパスに4倍の時間を費やすことになり、出力が遅くなります。
つまり、これらを同じ速度で生産できず、また同時に歩留まりも低下します。どちらも経済的に非常に悪いことです。歩留まりは33%という絶望的なほど低い値になると予想されています。これはTSMCと同じノードよりも50%高い価格に相当します。
中国共産党はこれを大幅に補助金を出すでしょう。中国でのAIチップのリソグラフィーやファブを語るとき、経済は基本的に異なります。なぜなら、これは国家安全保障の優先事項だからです。しかし、これは興味深く、このノードはHuaweiがAscend 910 Cチップを構築するために使用される予定です。
このセクションの最後の話題として、GoogleがバックアップするIsomorphic Labsが6億ドルを調達しています。Isomorphic Labsは基本的に2021年にDeepMindからスピンアウトしました。彼らは生物学的プロセスをモデル化するAIに焦点を当て、主に薬物発見を行っています。
これは彼らの最初の外部資金調達ラウンドです。彼らはDeepMindとGoogleからの支援で多くのことを行うことができました。彼らは現在、Eli LillyやNovartisなどの企業と数十億ドル規模のパートナーシップや研究プログラムを結んでいます。Isomorphic Labsは確かに活発に活動しているようです。
ある意味面白い見出しです。彼らがどのように「外部投資ラウンド」を呼ぶのか疑問です。資金調達ラウンドはThrive Capitalによって主導されています。GVが参加していますが、GVはKFCがKFCと呼ばれるのと同じような呼び方です。KFCはかつてケンタッキーフライドチキンと呼ばれていました。GVはかつてGoogle Venturesと呼ばれていました。
ああ、それはAlphabetですね。はい、Isomorphic Labsの親会社でもありますね。つまり、GVが参加しているのはGoogleであり、既存の投資家Alphabetからのフォローオン資本です。つまり、エンティティカウントによれば、これは3分の2がGoogle領域です。「外部」というのは寛大な言い方ですね。
そうですね、これはThrive Capitalによって主導され、彼らは外部なので、素晴らしいです。誰がどれくらい貢献しているのかわかりませんが、それは面白いと思いました。GoogleあるいはAlphabetは非常に大きく、至るところに存在しています。今日では何が外部とみなされるのかわからなくなりました。
研究と進歩のセクションに移りましょう。まず、OpenAIからの論文があります。彼らが発表していないと言ったことを少し撤回すべきです。彼らは今でも非常に良い研究を発表しています。この論文は「PaperBench:AIがAI研究を複製する能力の評価」と呼ばれています。
これは基本的に聞こえるとおりのことを行っています。AIエージェントがAI研究を複製する能力をベンチマークスイートで評価しています。これは20のICML 2024スポットライトおよび口頭発表論文をゼロから複製します。論文を理解し、コードを開発し、実験を実行する必要があります。
最終的な結果として、最も性能の良いエージェントであるClaude 3.5 Sonnet(スキャフォールディングあり)は平均21%のアプリケーションスコアを達成しました。これはベンチマークに挑戦した一流の機械学習PhDより低いスコアです。また、このベンチマークをオープンソース化して、AIエージェントのAIエンジニアリング能力の将来の研究を促進しています。
このベンチマークの背後にある重要な点の一つは、論文や論文の複製タスクを段階的に詳細な要件を持つツリーに分解する戦略です。非常に具体的な二値的で比較的測定可能な複製結果を持つリーフノードがあり、判断LLMやjudge evalと呼ばれるものが評価できるようになっています。
これらのリーフノードを組み合わせて、葉ノードではないものにし、次のレイヤーがより高いレベルの抽象度で組み合わさっていきます。これにより、これらの論文の部分的な複製に部分的に点数を与えることができます。提出物は新しいセットアップで実行して結果が再現された場合に結果を複製したと見なされます。
採点フェーズの前に再現フェーズがあります。リーフノードで評価されるタスクの種類には、コード開発の実行や結果の一致などがあります。これらは複雑なタスクを分解して客観的に測定できるようにする非常に興味深い方法だと思います。
ここで特に興味深いのは、これがICMLのような最も優れた論文を複製するエージェントの能力を評価するテストを作ることです。これは2024年ICMLカンファレンスから選ばれたスポットライトと口頭発表論文です。これらは本当に優れたものです。
深層強化学習、堅牢性、確率モデルなど12の異なるトピックにわたっています。彼らは実際の論文の著者と協力して、成功した複製に含まれるすべてのことを捉えるために、これらのルーブリックを手動で作成しました。
その後、LLMベースの審査員を使用して、複製が成功したかどうかを評価しました。しかし、その審査員がどれだけ優れているかも確認しました。人間の審査員と比較すると、F1スコアは0.83で、かなり良いです。これらは少なくとも人間がどのように採点するかの合理的な代理となっています。
非常にシンプルなエージェンティックスキャフォールドを持つClaude 3.5 Sonnet Newは21%のスコアを獲得しました。Claude 3.5 Sonnet Newによって成功裏に複製された論文の5分の1以上です。これはかなり驚くべきことです。
彼らはさらに、O1がより良い結果を示す少しチェリーピックかもしれないサブセットについても詳しく説明していますが、それでも非常に興味深い結果です。これが私たちが向かっている方向を示しており、再帰的自己改善が非常に現実的に見え始める最後のフィードバックループを閉じつつあることを示しています。
今日の優れた最先端の論文の21%がこの方法で複製できますが、多くの注意事項があるとはいえ、スケールと時間の経過とともに、それらの注意事項は解消されていきます。これは時代の非常に興味深い兆候だと思います。その通りです。彼らは「イテレーティブエージェント」というセットアップの変種も持っています。
モデルにより多くの作業をさせ、早期に停止させないようにしています。O1 Highでは26%の複製精度を得ています。コンピュート費用が高く、この場合最大36時間与えられ、それで26%の精度です。参考までに、これは印象的です。複製は必ずしも単純ではなく、単に論文を読んでコードが与えられていない場合はなおさらです。
これらの論文の一部は、「シミュレーションベースの推論におけるすべて一つ」、「視覚的な再プログラミングベースのプロンプトのためのサンプル固有のマスク」、「フォワードパスのみによるテスト時のモデル適応」などです。これらはAIカンファレンスで賞を受けるような研究です。
次は「賞の橋を渡る:多様なドメインにわたる検証可能な報酬を持つRLの拡張」という論文です。検証可能な報酬を持つ強化学習は、Deep Seekやこれらの上位モデルがうまく機能した大きな理由の一つです。これらは数学やコーディングにおいて厳密な検証者を持つ強化学習で訓練されました。何をしたかが良いかどうかを確実に知ることができます。
この論文は基本的にそれを医学、化学、心理学、経済学などの多様なドメインに一般化しようとしています。その結果、彼らはより良いパフォーマンスを得ることができ、彼らのアプローチを一般化できると言っています。これは興味深いですね。なぜなら、検証可能な報酬を使って本当に優れたコーディングAIや数学AIを作ることができるかもしれないという古典的なアイデアがあるからです。
しかし、どうやって柔らかい科学に到達するのでしょうか?どうやってこれらをクリエイティブライティングなどでより効果的にするのでしょうか?これはそれを試みたものです。彼らはいくつかの異なる戦略を試しています。ルールベースの報酬を試しています。これらは比較的単純な、キーワードが回答に含まれているかどうかなどに基づくイエス・ノー型の報酬です。
また、出力の内容が正解と一致するかどうかを大まかに測定するためにKAR類似性と呼ばれる類似性の尺度を使用するルールベースのソフト報酬も持っています。これらを試した結果、あまりうまくスケールしないことがわかりました。つまり、あるポイントを超えると飽和してしまいます。
量的ではないこれらのタスクでは約4万の例を超えるとパフォーマンスが低下し始めます。そこで彼らは別の戦略であるモデルベースの報酬を導入しました。これが基本的に論文が扱いたいことです。彼らは70億パラメータのLLMを蒸留して、このモデルベースの検証者、モデルベースの発行、モデルベースの報酬を訓練します。
その仕組みは、まず強化学習を使用して基本モデルを訓練することから始まります。彼らは非常に大きなLLM、非常に高性能なLLMを持っており、それを審査員として使用します。その審査員は非常に微妙な報酬を与えるために使用されます。審査員は非常に大きなLLM、実行するのに非常に高価なものです。それは、訓練されている小さなモデルがこのタスクをうまく行ったかどうかを判断します。実際にはこの小さなモデルを数学とコード、およびより柔らかい科学(経済学、心理学、生物学など)の組み合わせで訓練します。
これがステップ1です。大きなモデルを使って強化学習報酬でそれを行います。その後、新しい基本モデルを取り、先ほどRLで訓練した基本モデルを真実の源として使用します。大きな教師モデルから正確性の判断を提供し、基本的に大きな教師モデルを小さなモデルに蒸留します。彼らはその訓練ループで収集したデータから約16万の蒸留トレーニングサンプルを使用します。要するに、これは巨大な蒸留ゲームです。うまく機能します。
結果は興味深いです。これは、もし数学やコードのような量的データ(正確性を検証できる、コードをコンパイルして実行して動作するかどうかを確認できる、または計算機を使って数学的結果を得ることができる)以外の分野で作業したい場合に強制されるようなことの良い例です。この場合、言語モデルの審査員を使用する必要があり、物事が高すぎないように蒸留方法を見つける必要があります。
これが高レベルのアイデアです。ブレイクスルー論文とは思いませんが、LLMやエージェント、推論モデルを数学とコードの領域から押し出そうとするときに人々が強制されることの種類について、いくつかの可視性を与えてくれます。これは非常に応用的な論文で、深い理論的理解はありませんが、与えられた問題に対する良い結果を達成する方法を示しています。彼らはデータセットと訓練された報酬モデルも研究者が構築できるようにリリースしています。これは非常に重要な問題です。なぜなら、これは数学とコーディング以外でも推論モデルを改善し続ける方法だからです。
推論モデルといえば、次の論文は「複雑なタスクのための推論時間スケーリング:現状と今後の展望」です。これは聞こえるように、推論時間スケーリングの状況についての考察です。もし「推論時間スケーリング」という用語を知らない場合、これはモデルから訓練後により多くの計算を行うことでより良い結果を得ようとすることです。さらなる訓練は行いませんが、それでもパフォーマンスは向上します。これはDeep Seekのr1やo1などの特徴となっています。
ここでこの論文は9つの基盤モデルを様々なタスクで評価しています。また、モデルのパフォーマンスを評価するために、難しい問題のための2つの新しいベンチマークも導入しています。彼らは基本的に様々な分析と結果を持っており、いくつかのケースでは、推論モデルではない基本的なモデルも同じくらい良い結果を出せることを示しています。他のケースでは、推論モデルの方が優れています。一部のケースでは、高いトークン使用量、つまり多くの計算は必ずしも異なるモデル間での高い精度と相関しません。
一般的に、我々はまだ初期段階にあり、混乱があり、解決すべき問題がたくさんあります。この論文は現状をかなり示しています。これは推論時間計算に関する高レベルの議論ではしばしば見過ごされる点です。この分野に詳しい人には明らかだと思いますが、推論時間の計算は訓練時間の計算と同じように代替可能ではありません。
つまり、訓練時間では単純ではないですが、おおよそテキストの自動補完を行い、その結果からバックプロパゲーションを行います。推論時間では、物事はもっと異なります。推論時間の計算を使用する方法の一つは、独立した並行生成に使用することです。同じモデルから通常高い温度で多数の異なる回答をサンプリングします。そして多数の潜在的な応答を得て、何らかの方法でその結果を集約します。それらの出力の平均、または多数決、またはベスト結果の測定などを取るかもしれません。
これらの技術を使用するかもしれません。それが推論時間の計算を使用する一つの方法です。多数の潜在的な出力を生成し、それらの中から選択します。もう一つの方法は、一つの思考の流れがあり、批評モデルがその思考の流れを順番に批評します。より洗練された、一連の思考に投資することを想像しています。
これらは二つの根本的に異なるアプローチであり、他にもたくさんありますが、これらが探求されている二つの主要なものです。これらのアプローチにはそれぞれ多くの異なる構成があります。それが本当にこの論文が扱っていることです。推論時間の計算をさまざまな方法で使用した場合、それがどのように機能するかを示しています。
実際にかなり興味深い論文です。この計算をどのように使用するのが最良かという質問の一部を解決するのに役立ちます。同様の精度を持つモデル間でもトークン使用には非常に高い変動性があるようです。つまり、GPQAで70%を得る傾向のあるモデルを取ると、それが一貫して平均1000の推論トークン、または10,000、または100,000を使用するわけではありません。多くの変動性があります。
これは強くトークン効率を改善する余地がまだ多くあることを示唆しています。高性能なモデルがトークンを過剰に使用していることがあります。彼らは多すぎるトークンを生成し、推論時間の計算に多すぎるコストをかけており、他の方法で最適化できる可能性があります。これは同じモデルに関しても問題のようです。同じモデルでも特定のパフォーマンスレベルに対して非常に変動するトークン使用量を示すことがあります。これは興味深いです。
また、推論時間スケーリングが機能するのは事実ですが、推論時間スケーリングを増やすと、つまり答えを得るために使用するトークン数を増やすと、パフォーマンスが上昇する傾向がありますが、特定のモデルが大量のトークンを出力しているのを見ると、モデルが行き詰まっている兆候である可能性があります。
これは、物事が円を描いているときに、トークン生成と推論時間計算支出の一種のブラックホールとなる傾向があります。そこには多くの興味深い発見があります。彼らは完全な検証者でのスケーリングの継続が一貫してパフォーマンスを向上させることを発見しています。これは推論モデルと従来のベースモデルの両方に当てはまります。
これは興味深いです。なぜなら、タスクについて信頼できるフィードバックを提供できる信頼性の高い検証者がある場合、確かに推論時間スケーリングが機能するからです。しかし、多くのタスクでは、必ずしもこれらの堅牢で常に正しい検証者を持っているわけではなく、それは課題です。トークン効率や推論時間スケーリングがどこに向かっているかに興味がある場合、ここには掘り下げるべき非常に興味深いことがたくさんあります。ちなみに、異なるモデルのトークン使用分布を示す興味深いグラフもあります。
数学のベンチマークでClaude 3.7 SonnetとO1を比較して、使用されるトークンの分布がどのようなものかを見ることは興味深いです。どのモデルが間違った回答を出すときに、正解を出すときと比べて少ないトークンを使用する傾向があるかなどです。とにかく、時間を考慮するとこれ以上詳しく説明する余裕はないでしょう。この論文からは多くの図表や数字、興味深い観察が得られることは確かです。
もう一つ取り上げる論文があります。タイトルは「過剰に訓練された言語モデルは微調整が難しい」です。これが結論です。過剰訓練とは事前訓練のことです。自動補完の最初の基本的な訓練パスを行うとき、理論的に最適な訓練量があることが観察されていますが、それを超えて過剰訓練を行うことでさらに良い結果を得ることができます。一般的な常識では過剰訓練は良いとされています。
この論文が示しているのは「壊滅的過剰訓練」というアイデアで、事前訓練を過度に行い、その後「ポスト訓練」または「指示チューニング」を行って特定のタスクに適応させたり特定の振る舞いをさせようとすると、パフォーマンスが低下する可能性があるということです。これはかなり重要な結果だと思います。
定量化すると、彼らは10億パラメータのモデルOMO-1Bを試しています。これは3兆トークンで事前訓練されました。彼らが発見したのは、3兆トークンで事前訓練すると、2.3兆トークンで事前訓練した場合と比較して、多くの微調整LLMベンチマークで2%性能が低下するということです。これは非常に興味深いです。
つまり、20%多くの事前訓練トークンです。その後、これら二つの異なるモデルを取って微調整すると、より多くのトークンで事前訓練されたモデルのパフォーマンスが2%低下します。この背後のメカニズムは非常に興味深いものであるはずですが、論文自体ではやや曖昧です。
彼らは「進行性感度」というアイデアを強調しています。彼らがこれを測定する方法は、基本的に同じ大きさの修正を加えた場合、より多くのトークンで事前訓練を受けたモデルは元の能力を忘れる傾向が強いというものです。これは以前にも見てきたことです。
モデルを微調整すると、微調整に関係のない他の能力の一部を忘れてしまう傾向があります。これは、多くのトークンで事前訓練されたモデルが、より脆弱になるということを示唆しています。ゲートではより一般的な能力を持っているかもしれませんが、微調整を始めた瞬間、その構造は奇妙な意味でほぼ正規化されていません。事前訓練分布に過剰適合しているようなものです。
彼らはその点について、微調整中の正規化は開始を遅らせるかもしれないが、下流のパフォーマンスを犠牲にすると述べています。これは一種の正規化問題が起きていることを示唆していると思います。より少ないトークンで事前訓練すると、モデル全体の過剰適合が少なくなります。
必ずしも同じデータを複数回通過しているわけではないので、特定のデータに過剰適合しているわけではなく、おそらく訓練データの分布に過剰適合している可能性があります。これがここで起きていることだと思いますが、この角度からそれほど深く議論されているのを見たわけではありません。見逃していたかもしれません。いずれにせよ、非常に興味深い結果であり、事前訓練に大きな影響を与えます。事前訓練は巨大な資本支出の源です。
その通りです。彼らは主に実証的にこれらの現象をこの論文で示し、いくつかの理論的分析も伴いこれが起こっていることを示しています。しかし、あなたが言うように、なぜこれが起こるのかについての正確な理解はありません。これは興味深い現象であり、より深く研究する必要があります。
ポリシーと安全性に移りましょう。まず「AGIへの責任ある道筋」という論文があります。これはそのためのアプローチを提示するものです。これはDeepMindからのもので、かなり公正な一般的なアイデアです。彼らは以前にAGIのレベルという概念を導入しており、これは人間の労働の一部を自動化することから、すべての人間の労働を自動化することなど、一連のレベルとしてAGIを定義しようとするものです。
彼らはこれを拡張し、誤用を防ぐために事前に安全とセキュリティ対策を持つ必要性を強調しています。一般的に多くのことについて説明しています。ジェレミー、あなたが興味深いと思ったことを強調してください。
一般的に、彼らがそれを声に出して言っている事実以外には特に驚くべきことはありません。コントロールの喪失という考えを真剣に受け止めています。ブログ記事について注目すべきは、レポート自体では4つの異なるリスクカテゴリ(誤用、ミス、構造的リスク、不整合)を検討していますが、ブログ記事自体は基本的に不整合に関する彼らの考えについてです。
誤用に関するものもいくつかありますが、これはコントロールの喪失に関するブログ記事です。それが明らかです。DeepMindが世界に伝えたいことは「皆さん、他のことに関しては全員が合意しているようですが、これは本当に重要なことなのです」ということです。
そこには整合性に関するGoogle DeepMindの研究アジェンダに詳しい方には馴染みのある多くの興味深いことがあります。例えば「ディベート」です。超知能AIを互いに議論させ、AIの審査員を使用することで、超知能が不誠実であれば、信頼できる審査員によって不誠実さが検出できるようにします。
それには今ここでは触れない多くの課題がありますが、解釈可能性に関する多くのことがあり、一部はAnthropicの研究アジェンダに似ています。彼らはMONA論文にも触れています。これは以前に取り上げたものです。MONAについての議論をチェックしてみてください。
基本的には、モデルが短い時間枠でのみ推論するよう強制することで、あまりにも遠くまで行き過ぎたり、本当に危険な賢いことをしないようにし、人間にとってより理解しやすいようにするという、パフォーマンスとアラインメントのトレードオフオプションです。
それは興味深いと思いました。個人的に興味深かったのはアラインメントのためのセキュリティ側に関する注記です。彼らは「鍵となるアプローチはモデルを信頼できない内部者と同様に扱うことであり、アクセス制御、異常検出、ログ記録、監査などの緩和策を動機付ける」と述べています。
研究所が改善する必要がある本当に重要なことの一つは、一般的なセキュリティです。制御喪失の観点からだけでなく、国家レベルの活動からも重要です。これらの多くのことがセキュリティに収束しており、それは非常に興味深い方法です。
彼らが発表した論文自体は108ページあります。基本的にはリスク全体とそれを防ぐためのアプローチの大きな概要です。ブログ記事では、これに焦点を当てる他のグループとのパートナーシップも言及しています。彼らはAGI安全委員会を持ち、フロンティアモデルフォーラムと協力しており、Google DeepMind AGI安全コースも公開しています。
YouTubeで興味深いです。明らかにDeepMind内の少なくとも一部の人々は安全性に非常に焦点を当てているようです。次の記事は「このAI予測は嵐の予兆を予測する」です。
これは「AI 2027」と呼ばれるレポートやエッセイを取り上げた記事です。これはいくつかの重要な知識人によって共同で書かれたもので、AIの安全性について心配すべき理由や、これらのことがどのように展開する可能性があるかについてのシナリオを強調しています。これは非常に詳細なレポートなので、あまり深く立ち入りません。
これは詳細な架空のシナリオなので、おそらく詳しく説明することはできません。しかし、安全性について人々がどのように考えているか、なぜそれが非常に重要だと考えられているかについてのアイデアを得るのに興味があれば、これは良い読み物だと思います。
その通りです。あなたが言ったように、「AI 2027」というこの記事は非常に興味深いグループによって書かれています。より有名な一人はダニエル・コタです。Slate Star Codex(現Astral Codex Ten)のスコット・アレキサンダーも参加しています。彼らはAI整合性の世界では有名です。
ダニエル・コヨは、OpenAIを去る前に署名を強要しようとした非常に略奪的な非難禁止条項に署名しないと言ったことで有名です。ダニエルは3〜4年前からのAIの状態について非常に的確な予測を行ったことで知られています。彼は基本的に「私たちは2026年頃にこのような状態になるだろう」と言いました。
彼が書いたものを見てみるべきです。それは非常に驚くべきものです。かなり的を射ています。ここで彼は基本的に2027年までに超知能に到達すると予測しています。彼との会話を頻繁に持っていますが、彼はこれについてかなり一貫しています。
彼が以前に2027年の超知能の可能性を強調しなかった理由の一つは、物事が本当に予測しにくくなるからだと思います。彼らはこれをできるだけ具体的な実験データと理論的結果に基づいて根拠付けようとしました。
政府の対応、民間部門の対応、資本支出の流れなどをマッピングしようとしました。国家安全保障側と中国の図について細かい疑問点もありますが、それは彼らが細かく描写しようとしていたことではありません。これは現実的なシナリオを作り、明確な予測をして、後で振り返って「彼らは正しかったか?」と言えるようにする素晴らしい努力だと思います。
もし今後12か月で彼らが正しいことが判明したら、2027年の実際の予測をどれだけ真剣に受け止めるべきかについて重要な質問をする必要があります。これは非常に興味深い読み物であり、ダニエル・コタ自身が元OpenAI従業員なので、OpenAIの人々がこれについてどのように話すかを熟知しています。
これは確かにOpenAI、Anthropic、DeepMind、これらすべての企業との会話と一致しています。2027年は少なくとも私には十分にあり得ると思います。私も2027年は超知能のいくつかの定義については妥当だと思います。
例えば、彼らはGoogleの優秀なソフトウェアエンジニアのような効果的にソフトウェアエンジニアになれる超知能コーダーがあるだろうと言っています。それは私には十分あり得ます。とても面白い内容なので是非読んでみてください。
次はOpenAIに関する別の記事です。「サム・アルトマンのOpenAI解任の背後にある秘密と誤導」というタイトルです。これについて新しい本が出版されており、この記事はいくつかの詳細を紹介しています。
取締役会とアルトマンの間の緊張関係についてすでに言及したことがありますが、さらに具体的な、実際に嘘が語られていたことや、この出来事につながった有害なパターンに関する詳細があります。かなり詳細な記事です。すべての詳細を知りたい方は、ぜひチェックしてみてください。
これは具体的な内容があるため、実際に興味深いと思いました。当時、OpenAIの非営利取締役会はサム・アルトマンを解任し、実際の理由を説明することを拒否しました。彼らは有名に「一貫して率直ではなかった」という理由で解任されたと述べました。
当時、これを取り上げた際、明確にポッドキャストやその他の場所で「取締役会が非常に明確な理由を示さない限り、人々は混乱し、サム・アルトマンがすべての主導権を握ることになるでしょう」と言ったことを覚えています。なぜなら、当時800億ドル相当の市場価値を生み出し、これらの人々のキャリアを作った男を解雇したのに、説明がないからです。
舞台裏で実際に緊張関係があったことは明らかでした。もしあなたがこの分野にいて、その周辺の人々を知っているなら、おそらくこれらの話を聞いていたでしょう。真剣な、本当に深刻な問題である具体的なことがたくさんあります。
特に、サム・アルトマンが共同安全委員会によって承認されたと主張していたGPT-4の大きなモデルリリースと強化に関して、実際にはそのようなことは起こっていなかったようです。これは取締役会への明白な嘘でした。インドでのGPT-4のインスタンスのリリースに関するすべての問題も同様で、これも承認されていなかったものでした。
また、OpenAIスタートアップファンドについても、サム・アルトマンは取締役会に対して、自分が基本的に所有している、または主要な株主であることを明かしていませんでした。彼はそれを管理していると主張していましたが、同時に、ある程度の分離を主張していました。取締役会は偶然に彼が実際にそれを運営していることを発見しました。彼らはそれがOpenAIによって管理されていると思っていました。
そして、このようなことが何度も繰り返されました。イリヤ・サツケヴァーとミラ・ムラティが舞台裏で実際にこれを推進していたようです。ヘレン・トナーや他の取締役会メンバーではなく、ミラとイリヤが「有害な行動パターンを見ている」と言っていました。政治的な意味ではなく、単に人々に対して率直に嘘をついている人物であり、非常に重要で実質的なことについてです。
彼らは、この問題に影響を受ける人々の一部としか散発的に接触していないことを懸念していたようです。これは私が聞いたことと一致しています。後ほど報告予定ですが、元OpenAI研究者からの批判は、取締役会の機能が基本的に会社を監督するふりをすることだったというものです。
これは本当に非常に難しい問題です。取締役会に頼って、責任ある安全な方法で物事を行い、とりわけ国家的主体が悪いことをするのを防いでいると主張しているときに、このような問題が生じます。
言えることは、これらの申し立てと証拠の実際の強さを考えると、なぜ取締役会がこのような発言をするのにそれほど時間がかかったのか私は完全に混乱しています。もしこれが真実なら、彼らは実際にカードを持っていました。スクリーンショットを持っていました。
彼らはミラ・ムラティのSlackチャットを持っていました。あなたは何をしているのですか?もしあなたの目標がリーダーシップを変えることだったなら、サム・アルトマンにすべての主導権を与える素晴らしい仕事です。サティア・ナデラがサム・アルトマンにマイクロソフトでの仕事を提供できる状況を作り出し、それがサムに主導権を与えた素晴らしい仕事です。
当時もそう見えました。取締役会はこの全体の会話をアルマンに知られたくなかったためかなり秘密にしていましたが、非常に混乱した、おそらく混乱した方法で進めていました。これはそれを裏付けています。
もしこれが真実なら、これはかなり素人じみたものでした。そこには多くの効果的な利他主義の雰囲気があり、誰もがリスク回避的で大きな動きをしないようにしていて、残念ながらそれは文化的に水の中にあるようです。
CEOを解雇するという低リスクなことはありません。特に世界最大の非公開企業のCEOの場合は。大きなことが起こるでしょう。とにかく、私は魅力的な読み物だと思い、間違いなく歴史書に残るものだと思います。
これでこのエピソードを終わります。聞いてくれてありがとう。私たちがastrodk.comで立ち上げたデモを試してくれることを願っています。いつものように、シェアしたり、フィードバックや意見を提供したりしてくれることに感謝していますが、何よりも聞き続けてくれることに感謝しています。今後も聞いてくれるようお願いします。


投稿日

カテゴリー:

投稿者:

タグ:

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です