人工知能:誇大宣伝の終焉か?(AIニュース)

8,684 文字

Intelligence Artificielle: la fin du bullshit ? (AI News)
Dans cet épisode d’AI News, on fait le point sur les limites des modèles d’intelligence artificielle actuels, les promes...

ヤン・ルカンがまた一石を投じました。前にもお話ししましたが、今回彼が引用したのはOpenAIの共同創設者イリヤ・サツケバーです。サツケバーは、より大規模なモデルを追求するという方針が、投資家を引き付けるための不安定な前提に過ぎなかったことを認めています。つまり、データと計算能力を増やしても、性能向上が追いついていないということです。
その一方で、ヤン・ルカンはDino World Modelという新しいアプローチを提案しています。これは、プランニングと推論という根本的な問題に取り組み、状況を一変させる可能性を秘めています。
巨大な言語モデル(LLM)のバブルは、その汎化能力の低さを示す証拠があるにもかかわらず、膨らみ続けています。一方には、新参のAIインフルエンサーやテックブロガーたちがいて、すぐにも超知能が登場するという約束と雇用喪失への不安を煽りながら、プロンプトエンジニアリングの研修を売り込んでいます。もう一方には、AIの破滅を警告する人々がいて、完璧なAIについての荒唐無稽な話でセンセーショナルな話題作りに励んでいます。
夢と約束と科学の否定に長年依存してきた戦略の崩壊を目の当たりにしているのでしょうか。人工知能における誇大宣伝がついに終わり、真の科学への道が開かれるのでしょうか。ここはartificialis、2024年11月24日のAIニュースです。
ヤン・ルカンは人工知能界の重要な転換点を指摘しました。OpenAIの共同創設者イリヤ・サツケバーが、大量のラベルなしデータを使用した事前学習という手法が限界に達したことを認めたのです。かつてスケーリングの熱心な支持者だったサツケバーからのこの告白は注目に値します。
一方、いわゆる人工知能の天才サム・アルトマンは、実際にはバズを生み出す天才ですが、頑なに信じ続けています。彼にとって限界など存在せず、これは投資家たちを引き止めておくための明らかな発言です。
今日、サツケバーは次のように認めています:「2010年代はスケーリングの時代でした。今や我々は発見と驚きの時代に戻ってきています」。AIの巨人たちは、増大するコスト、モデルの巨大さに起因する頻繁なハードウェア障害、そして利用可能なデータの枯渇という課題に直面しています。これらの障壁は、行き詰まりつつある規模拡大競争の限界を示しています。
この状況下で、SheMeta社とPreturingのAI部門長であるヤン・ルカンのような研究者たちが、際限のないモデルの巨大化への疑問を投げかけています。彼によると、本質的な問題は未解決のままです:効果的に推論し計画を立てることができる機械をいかにして作るか。次の革命は、データと計算力の積み重ねからではなく、根本的に新しく、より賢明なアプローチから生まれることが明らかになってきています。
スケーリング則とは、より多くのデータと計算力を加えれば知能が生まれるという単純で誤解された考え方です。この神話は、自らの約束の重みの下で崩壊し始めています。
スケーリング則は、AIの破滅を警告する人々の恐れとAIインフルエンサーたちのマーケティング的な約束の両方を育んできました。破滅論者たちはテック企業の巨人たちに対する抵抗者を装っていますが、面白いことに、彼らは常にテック企業の物語を踏襲しています。
元OpenAI社員のレオポルド・アセンベナーは、あるエッセイで、数千億ドル規模のクラスターによって2027年までに超知能が実現すると予測しています。これは彼の投資会社の顧客を引き付けるのに便利な予測です。そして不思議なことに、このシリコンバレーの物語はフランス語圏でも増幅されています。
彼の「状況認識」と題された200ページの報告書は、超知能の想定される危険性について同じ主張を繰り返しています。スケーリング則は、今のところ期待外れに終わっているように見える知能の爆発的な増加という幻想を助長しています。
しかし、これはAIの安全性を説く人々の好む論拠であり続けています。彼らは、スケーリング則が超知能がまさに私たちの扉を叩こうとしていることを証明していると確信しています。「人工知能は2017年にトランスフォーマーモデルを発見した時点で解決済みだ」という主張は、魅力的に聞こえるかもしれませんが、科学的な現実の前では通用しません。
スケーリング則の限界は益々明らかになり、汎化や抽象的推論といった基本的な問題は依然として完全に未解決のままです。
デリオ・アミコは「Anthropic」で、2-3年以内に人間に匹敵するAGIが実現すると約束し、ハラリはさらに進んで、2028年にはAIが米国大統領選挙を指揮すると想像しています。しかし、これらの壮大な予測は、詳しく見ると急速に崩壊します。
莫大な投資にもかかわらず、GPT-4やGeminiのような言語モデルは、バージョンごとの進歩が最小限に留まり、停滞しています。幻覚、あるいは作話と、モデルの学習範囲を明らかに超える課題は、完全に手の届かないところにあります。データと計算力を追加するだけでは、もはや十分ではありません。
Information誌は最近、OpenAIから漏洩した情報を報じました。それによると、OpenAIの次期主力モデル「Orion」は、期待されていたほどの性能向上は見られないとのことです。莫大な投資にもかかわらず、このモデルはGPT-4と同程度の性能しか持たないとされています。
さらにOrionは、プログラミングなどの分野ではその前身を体系的に上回ることができず、言語能力の向上に限定されているようです。OpenAIは既に、性能向上の低下に対する解決策をTest Time Compute(TTC)技術を使用したPreview 01モデルで試みています。
このアイデアは、モデルに解答を出す前に中間段階を経て解決策を反復できるようにすることです。このモデルは、計画立案タスクで印象的な成果を示しました。例えば、ブロック操作の演習では、Preview 01は97.8%の成功率を達成し、Claude 3.5の54.8%を大きく上回りました。
一見印象的な結果に見えますが、詳細を掘り下げると、それほど印象的ではないことがわかります。「LLMs Can Plan」という論文では、20年以上前に開発されたシンプルなツールが、Preview 01が40秒以上かかるところを、わずか数ミリ秒で100%の成功率を達成することを示しています。この比較は、その性能を大きく相対化します。
Preview 01のTest Time Computeは、折れた足にばんそうこうを貼るようなものです。LLMのいくつかの失敗を避けるのに役立ちますが、汎用知能への鍵からはほど遠いものです。したがって、性能向上は限定的であり、合成データの使用は偏りを増幅させ、エラーループのリスクを生み出しています。
使用されているベンチマークは、巨大なモデルの記憶に対して脆弱な、単純な対象最適化を測定することで、スペクタクルな性能の幻想を作り出しています。アンヌ=マリー・クマレクがLe Temps紙で指摘しているように、これらのモデルに推論能力を帰属させることは、科学的な現実というよりもマーケティングの主張です。
これらのベンチマークを超えて、高度な汎化や分布外サンプルへの頑健性といった課題に取り組む必要があります。これらは現在の人工知能にとって、まだ大きく手の届かない課題です。
これらの巨大な言語モデル(LLM)は、どれほど印象的であっても、汎化能力はゼロに近いものです。その推論能力は統計的予測に基づいており、学習時に見た内容に基づいて、最も可能性の高い文章の続きを予測します。しかし、この手法には限界があり、既知の範囲を超えるとすぐに明らかになります。
フランソワ・シャレが挙げた簡単な例を見てみましょう。「10kgの鋼と1kgの羽、どちらが重いか」という質問をChatGPTの初期バージョンにすると、同じだと答えます。なぜなら、「1kgの鋼と1kgの羽、どちらが重いか」というトリック質問がインターネット上に広く存在し、したがって学習データに含まれているからです。
しかし、質問を少し言い換えたり、数字を変えたりすると、完全に間違える可能性があります。これは、これらのモデルが高度なパターンマッチング(スキーマの対応付け)を行っているに過ぎず、学習データに十分似たパターンが存在しない場合、その性能は急激に低下することを示しています。
これらのモデルは事前に学習したパターンに従いますが、本当に新しいタスクに対する汎化に苦心します。「Errors of Autoregression」という論文は、具体的な例としてシーザー暗号を挙げています。これはアルファベットの文字を一定数ずらしてメッセージを暗号化する方法です。
ChatGPTに鍵が3や5の暗号文を解読するよう求めると、うまく解読できます。これは異なるメッセージに対してこのタスクを汎化できているような印象を与えます。印象的ですよね?しかし、4、9、13など異なる鍵で試してみると、エラーが急増します。なぜでしょう?それは、鍵3と5が学習データに頻繁に現れる一方で、他の鍵は現れないからです。これは明らかに汎化の限界を示しています。
フランソワ・シャレはこれを非常に分かりやすく説明しています。これらのモデルは事前に定義されたタスクで輝くことはできますが、それは人間のような汎化能力や思考能力を反映しているわけではありません。
トリック・ミューレンとイーフ・モーは「より大きな規模ほど、より多くの不正が可能になる」と述べています。私はこれを次のように言い換えたいと思います:モデルとデータの規模を膨らませることで、記憶能力は増幅されますが、推論能力は向上しません。
したがって、これらのテストは記憶に対して耐性がなく、機械の知能を真に評価することはできません。「Alice in Wonderland」のような研究は、基本的な推論しか必要としない単純なタスクにおいても、現在のAIモデルの限界を明らかにしています。
AIWテストは、大人の人間にとっては些細な質問を投げかけます。「アリスにはn人の兄弟とm人の姉妹がいます。アリスの兄弟は何人の姉妹を持っていますか?」この単純さにもかかわらず、このタスクは基本的な論理関係を理解する能力がモデルにないことを明らかにします。
正しい答えを提供する代わりに、彼らは文法的には正しく書かれているものの、完全に間違った答えを生成します。さらに悪いことに、明示的なヒントを与えられても、誤りを修正することができません。
しかし、さらに悪いことがあります。LLMは複雑なタスクには成功するのに、より単純なタスクで失敗することがあり、これは根本的な一貫性の欠如を示しています。私たちのLLMやチャットボットは、真の理解や汎化ではなく、記憶とパターンマッチングに依存しています。
この根本的な限界は、その使用法と、私たちがそれらをどのように認識すべきかについて重要な意味を持ちます。LLMが汎化と推論に失敗する一方で、ビデオ生成モデルは時間的一貫性と最も基本的な物理法則の遵守に苦心しています。
一見印象的なAIによる動画生成も、詳しく見ると直ぐにその限界が見えてきます。SoraやRunwayのようなモデルは、短いシーケンスを生成しますが、腕のサイズが変化したり物体が消えたりといった明らかな矛盾が頻繁に見られます。これらの欠陥は、言語モデルの作り話の視覚的な等価物であり、重大な欠陥を示しています。
「How Far is Video Generation from World Models: The Physical Law Perspective」という論文によると(これは次回の「5分で1本の論文」で取り上げる予定です)、これらのモデルは慣性や運動量保存の法則といった基本的な物理法則を学習することができません。この論文は、この inability がモデル自体とその学習方法に起因していることを示しています。
データをいくら追加しても、モデルをどれだけ大きくしても、彼らは決して物理法則を学習することはできません。莫大なリソースを持ってしても、これらのモデルは統計的相関を利用しているだけで、汎化能力は持っていません。彼らは高次元での補間を行う機械であり、物理世界の複雑さを理解できるシステムではありません。
その間、OpenAIのような企業は、単純なプロンプトから映画を作れると約束してエンターテインメント業界に革命を起こすと喧伝しています。人工知能の進化の速さを考えると、完全な映画の生成がすぐそこまで来ているという話を数ヶ月前から至る所で耳にします。
しかし、これらの主張は全て、これらのモデルが世界モデルになり、物理世界をモデル化できるようになるという能力に基づいています。残念ながら、彼らにはそれができません。
実は、問題はさらに深刻です。これらのモデルは、動画や画像といった単純化された表現から現実世界の複雑さを理解しようとしています。LLMの場合はさらに悪く、テキストだけに基づいています。一連の記号の中から次の単語を予測することだけで、機械がどうやって世界を理解できるでしょうか?
本当に知的な人工知能に向けて前進するためには、盲目的にモデルのサイズやデータ量を増やすだけでは不十分です。私たちのアプローチと評価ツールを見直し、人工知能をより真摯な科学にするために、方法論的な基礎を再考する必要があります。
したがって、AIの評価は依然として課題であり、フランソワ・シャレは遠慮なく言います:現在のベンチマークは、モデルの全体的な汎化能力ではなく、特定のタスクを記憶し最適化する能力を測定しているに過ぎません。
ここでARCの出番です。ARC(Abstraction and Reasoning Corpus)は、汎化能力をテストするために設計されました。ARCのタスクは前例のないものであり、記憶ではなく基本的な概念に基づく推論を必要とします。つまり、近道も不正もできません。
各タスクでは、10色のいずれかを取ることができるグリッド上で、トレーニングシーケンスとテストシーケンスの2つのセットを提案します。システムは、提供された例に基づいて、各ピクセルの完璧な出力を推測しなければなりません。
ARCのウェブサイトには良い例があります。トレーニングシーケンスでは、形の空白部分を黄色で埋めるというタスクを見ることができます。テストシーケンスは、候補プログラムが予測すべき入力を提供します。
ARCをユニークにしているのは、各タスクが完全に新しいことです。システムもその作成者も、何が来るか事前に知ることはできません。これは真の適応能力のテストです。モデルは、記憶されたデータに頼ることなく、これまで見たことのない環境で考える能力を証明しなければなりません。
結果は明白です:Claude 3.5は21%の成功率で頭打ちになっており、GPT-4も5-9%に留まっています。一方、人間は97-98%を達成します。プログラム探索のようなアルゴリズム的アプローチでさえ、50%の平均スコアで言語モデルより優れた性能を示します。
なぜでしょうか?単純に、ARCは繰り返しのパターンや記憶に騙されないからです。各テストは前例のないものであり、アルゴリズムは少数の例から本当に学習し理解することを強いられます。
シャレは2024年に100万ドルを賭けたARC Prizeでさらに踏み込みます。この挑戦は人工知能の現在の限界を打ち破ることを目指しています。ルールは厳格です:ソリューションは自律的で、GPU上で12時間以内に動作し、完全に新しいタスクを解決しなければなりません。
実際、ARCは本質的な問題を投げかけています:AIモデルは本当に汎化できるのでしょうか?今のところ、答えは明らかにノーです。言語モデルは、学習したパターンを超えて考えることができない洗練された模倣ツールに留まっています。
ARCは現在の人工知能の限界を明らかにしています。このハードルを越えるには、私たちの方法を見直し、人工知能における優先順位を再定義する必要があります。
最近の有望なアプローチの一つは、Test Time Training(TTT)と呼ばれるもので、これは「Surprising Effectiveness of Test Time Training for Abstract Reasoning」という最近発表された論文で探求されています。
Test Time Training(TTT)とTest Time Compute(TTC)の主な違いは、そのアプローチにあります。TTTは推論時にモデルのパラメータを直接調整し、特定のタスクにより適応するようにします。これは、リアルタイムでの小規模な学習セッションのようなものです。
一方、TTCは、モデル自体を変更することなく、結果を改善するために推論時に追加の計算を実行します。つまり、TTTは毎回積極的に学習するのに対し、TTCは既に学習したことをより活用するだけです。
結果は明らかです。従来のモデルが完全に崩壊する中、TTTは特定のタスクでの精度を6倍に向上させました。80億パラメータのモデルで、ARCの公開検証で53%の成功率を達成し、これは現時点での絶対的な記録です。さらに良いことに、プログラム生成技術と組み合わせることで、この数字は61.9%まで上昇します。ただし、人間は90%以上の性能で依然としてリードしています。
TTTは、十分に調整されたモデルと、変換によって強化された明確な例を用いた学習データの準備、そして各タスクに個別に適応する能力に基づいています。まるで毎回独自のテストを解くかのように、戦略を調整します。
しかし、革新はここで止まりません。LLMのもう一つの問題は、プランニング能力の欠如です。これはまさにDino World Modelが代替案を提案している点です。
数週間前、私はヤン・ルカンの講演に参加し、彼がDino World Modelに関する研究について発表しました。Dino World Modelの詳細を説明する論文が最近公開され、その結果はロボット工学とプランニングに魅力的な展望を開いています。
AIニュースでは、この新しい進展について少し掘り下げてみましょう。ただし、「5分で1本の論文」でDino World Modelに完全に焦点を当てたエピソードを制作する予定です。
Dino World Modelの中核はDino V2、巨大な画像データベースで事前学習されたモデルに基づいています。ちなみに、Dino V2については「5分で1本の論文」でエピソードを制作しましたので、興味のある方はそちらをご覧ください。
Dino World ModelはDino V2から抽出された表現を利用して、その行動の結果を正確に予測します。Dino World Modelの特徴的な点は、その革新的なアプローチです。強化学習のような大量のフィードバックに基づくのではなく、可能な行動に応じた視覚的表現の進化に焦点を当てています。
この手法は、これらの学習されていない表現を使用して、初期状態から目標状態への最適な経路を探索します。Dino World Modelは、物体の操作や移動などの複雑なタスクで、既存の手法を56%上回る精度を達成しています。ゼロショットプランニングでは、ナビゲーションタスクの性能を45%向上させています。
Dino World Modelは汎化能力のおかげで優れた性能を発揮します。あるタイプの迷路で学習させると、前例のない構成に適応します。立方体を見せると、問題なく円柱を操作します。この多用途性は、現在の固定的なモデルの限界を超えています。
したがって、Dino World Modelは、より自律的で適応的、効率的なロボットと手法への重要な一歩を記しています。
以上がAIニュースでした。人工知能を再定義するアプローチを概観してきました。現在のモデルの限界は明らかに実在しますが、さらに前進するためのアイデアは豊富にあります。超知能は明日には実現しませんが、各進歩が私たちを何か大きなものに少しずつ近づけています。
もちろん、この人工知能への探求に興味を持たれた方は、コメントをお願いします。チャンネル登録して最新情報をお見逃しなく。また近日中に新しいAIニュースでお会いしましょう。artificialis でした。また会いましょう。
artificialis では、シンプルに飾り気なくAIを解説します。「5分で1本の論文」は、余計な話なしで最新の科学論文を解読する、あなたの定期購読分です。物事を深く理解し、先入観を打ち破ることがお好みなら、「5分で1本の論文」のプレイリストへのリンクはここにあります。あるいは、何も理解せずにプロンプトエンジニアリングを学ぶための0円の電子書籍を買うこともできます。選択はあなた次第です。

コメント

タイトルとURLをコピーしました