この新しいAIは正直怖い: リアルタイム自己学習！

4,234 文字

Sakana AIが言語モデルの学習と適応の限界を打ち破りました。彼らの新しいAIは非常に高度で、新しいタスクに対応するためにリアルタイムで自己再プログラミングができます。再トレーニングも追加データも必要なく、即座に適応します。これは画期的な進歩であり、すべては彼らの革新的なTransformer squaredモデルのおかげです。後ほどこの動画では、Deep Seekの最新のオープンソースモデルがOpenAIのフラッグシップモデルに勝っている様子をご紹介します。数十億ドルの資金ではなく、中級スマートフォンの価格に近い予算でこれを実現しています。
どのようにしてこれを実現したのでしょうか？ご覧ください。これはAIのルールブックを書き換えるような革新です。
まず、Sakana AIについて見ていきましょう。彼らは自然からインスピレーションを得たアルゴリズムと超柔軟なシステムを専門とするAI研究所です。最近、Transformer squaredと呼ばれる言語モデルを発表しました。信じられないかもしれませんが、私たちがよく知っている（そして必ずしも好きとは限らない）時間のかかるファインチューニングプロセスなしで新しいタスクを学習できます。
通常、大規模言語モデル（LLM）を新しいタスクに適応させたい場合、LoRAのような特殊な技術が必要です。LoRAは低ランク適応であり、モデルのパラメータの一部のみを調整することで、すべてを最初から再トレーニングするのと比べて時間とコストを節約できます。しかし、Sakanaのアプローチはさらに一歩進んでおり、モデルが推論中に自身の重みを動的に再構成することを可能にします。
これは、新しいものを見るたびに自己調整する機械のようなもので、新しい要件ごとに別個の大規模なトレーニングセッションを必要としません。では、Transformer squaredはどのようにしてこれを実現しているのでしょうか？
簡単に言えば、特異値分解（SVD）と呼ばれる線形代数の手法を使用して、モデルの重み行列を、数学、コーディング、言語理解などの異なるスキルを表す小さなコンポーネントに分解します。トレーニング時に、Sakanaの研究者たちはこれらのSVDコンポーネントからいわゆるZベクトルを開発し、新しいプロンプトが入力されたときにモデルが特定のスキルのダイヤルをリアルタイムで上下に調整できるようにします。
システムは関連するスキル領域をチェックし、適切なZベクトルを選択して、それらの調整をベースモデルに適用します。そして瞬時に最適化された応答が得られます。大規模なファインチューニング段階は必要ありません。彼らはこの全体的なプロセスを特異値ファインチューニング（SVF）と呼んでいます。
実験では、Transformer squaredをLLaMA 3とMistral LLMsに適用し、通常のLoRAベースラインと結果を比較しました。Sakanaのブログによると、この新しいアプローチは数学、コーディング、推論、視覚的質問応答などの多様なタスクでより良いパフォーマンスを達成しています。そして動的に自己調整するため、単純により柔軟です。
もう一つの興味深い発見は、これらのZベクトルが同様のアーキテクチャを持つモデル間で移動できることです。LLaMA 3で訓練されたZベクトルのセットがあれば、その知識の一部をMistralで使用できる可能性があります。ただし、各ターゲットに新しいZベクトルを作成した場合に最高のパフォーマンスを発揮します。また、コードはGitHubでオープンソース化されているので、興味があれば直接調べることができます。
より大きな視点で見ると、この1年間、誰もが推論時のLLMのパフォーマンスを改善しようと躍起になってきました。拡張されたコンテキストウィンドウでより多くを記憶できるようにするか、大量の追加データを必要としない独自の方法で訓練するかのいずれかです。アイデアは、これらのモデルを実世界のアプリケーションでより効率的かつユーザーフレンドリーにすることです。
SakanaのTransformer squaredの場合、このテーマにシームレスに溶け込んでいることがわかります。企業ユーザーは既存のLLMを新しい問題に素早く適応させることができます。これは、より速い開発、より低いコスト、そして専門的なデータを扱うためのよりプラクティカルなアプローチを意味します。
しかし、今日のショーはこれだけではありません。Sakanaの発表に続いて、Deep Seekという中国のAIスタートアップがDeep Seek R1というモデルをリリースしました。これも高度な推論時のカスタマイズを扱いますが、異なるアプローチを取っています。Sakanaの方法が特異値分解と動的な重み調整に焦点を当てているのに対し、Deep Seek R1はオープンな推論と堅牢な思考連鎖プロセスに重点を置いています。
Deep Seekによると、彼らの新しいモデルはOpenAI o1（OpenAIのフロンティア推論LLM）のパフォーマンスに匹敵しながら、コストは90〜95%も安価で実行できるとのことです。これは驚くべき削減です。
Deep Seek R1について詳しく見てみましょう。これはDeep Seek V3と呼ばれる専門家モデルの混合に基づいており、チームは全体をMITライセンスの下でオープンソース化しています。彼らはR1を構築しただけでなく、それを使用して複数のLLaMAとQuenモデルを蒸留し、数学などの領域でのパフォーマンスを大幅に向上させました。例えば、彼らのQwen 1.5b蒸留は、特定のベンチマークではGPT 4oやClaude 3.5 Sonnetのような大きなモデルをも上回りました。
蒸留というのは、通常、強力な教師モデルを使用して、より小さなまたは専門化されたモデルのトレーニングを導き、より効率的な方法で知識を転送することを意味します。Deep SeekはR1で大規模にそれを行ったようです。
R1の強さを実際に示すために、そのパフォーマンスメトリクスを見てみましょう。AMI 2024数学テストで79.8%を達成し、MAF 500で97.3%を記録しました。これはOpenAI o1の同じテストでの96.4%をわずかに上回っています。R1のコーディング能力をテストしたとき、Code Forcesで2029のレーティングを記録し、人間のプログラマーの96.3%を上回りました。また、MMUテストで90.8%の精度を記録し、これはo1の91.8%にわずかに及びません。
これらのタスク全体で、トップティアモデルとほぼ同等のパフォーマンスを達成しており、しかもほとんど無料で提供しています。自前のハードウェアがあり、ローカルで実行したい場合は特にそうです。
コストの面は本当に注目に値します。Deep Seekによると、OpenAI o1モデルは入力トークン100万個あたり約15ドル、出力トークン100万個あたり驚異の60ドルかかります。一方、R1は入力100万個あたりわずか0.55ドル、出力100万個あたり2.19ドルです。つまり、多くのクエリを実行したいスタートアップや大企業でも、月々の請求書に大きな差が出る可能性があります。一部のプロジェクトでは、これが完全なゲームチェンジャーとなり、よりオープンなイノベーションを促進する可能性があります。
もちろん、Deep Seekのチームは直接統合用のAPIも提供していますし、Hugging Faceでモデルの重みを取得して自分で実行することもできます。さらに、ChatGPTの代替として機能する「Deep Think」と呼ばれるものもチャットプラットフォームに用意しています。
正直なところ、オープンソースAI空間がここ1、2年でどれだけ変化したかを考えると、すべてが非常に驚くべきことです。
では、Deep SeekはR1をどのように構築したのでしょうか？これは、Deep Seek r10と呼ばれるものの進化版で、監督データを一切使用せず、純粋に強化学習で訓練されました。このゼロステージシステムは、数千回のRL（強化学習）ステップを通じて試行錯誤から学習することで、高度な推論テクニックを習得しました。AIIM to 2024のようなタスクで大幅に改善し、パス率を15.6%から71%に向上させ、多数決投票を使用すると86.7%まで上昇しました。
しかし、開発者たちは問題解決が上手くなる一方で、モデルの言語使用が、まあ、乱雑になることを発見しました。時々言語を混ぜたり、読みにくいテキストを生成したりしていました。そこで、監督付きファインチューニング（SFT）と強化学習を組み合わせたマルチステージアプローチを追加し、高度な推論能力を維持しながらテキストを改善しました。
完成時には、Deep Seek R1は数多くのベンチマークでOpenAI o1と1対1で互角の性能を達成しました。
SakanaのTransformer squaredとDeep Seek R1を比較すると、AIの未来が高額な再トレーニングなしで即座に適応するモデルへとシフトしていることは明らかです。Transformer squaredはその場で重みコンポーネントをファインチューニングし、Deep Seek R1は試行錯誤学習を通じて高度な推論で優れています。どちらもコストを削減し、柔軟性を高めています。
GoogleのTitansなどのツールも適応型AIを推進しており、私たちはリアルタイムで進化し知識を拡大するシステムに向かっています。SakanaのコードはGitHubにあり、Deep Seek R1はHugging Faceにあるため、開発者が実験とイノベーションを行うには絶好の時期です。これらのブレークスルーは単なる改善ではなく、よりスマートでアクセスしやすいAIの舞台を整えているのです。
この解説が楽しめたら、ぜひチャンネル登録をお願いします。コメント欄にもあなたのこれらのAIブレークスルーについての考えを書いてください。視聴ありがとうございました。また次回お会いしましょう。