「大規模」AIトレーニングをトレントのように変える技術の登場!

2,082 文字

This BREAKS AI Monopoly!!!
INTELLECT-2 is a groundbreaking 32-billion-parameter language model developed by Prime Intellect. What sets it apart is ...

世界中のボランティアGPUを集めて強化学習で訓練された320億パラメーターのモデル。これが、Prime Intellectという会社による新モデル「Intellect 2」です。これは世界初の、強化学習を用い、グローバルに分散された許可不要のGPUメカニズムで訓練された320億パラメーターモデルです。
これはかなり驚くべき成果です。昔のPetalsというプロジェクトを覚えている方もいるでしょうが、これは非常に大規模なモデルでありながら実際に使用可能なものです。単なる研究プロジェクトではなく、すぐに使えるモデルです。ベンチマーク結果も非常に良好だからです。
この新モデル「Intellect 2」はPrime Intellectという会社から登場しました。彼らの主な目標は、分散型のグローバルな強化学習トレーニングが可能かどうかを検証することでした。これは320億パラメーターのモデルですが、すでにお気づきかもしれませんが、これはより大規模なモデル構築にも貢献できるでしょう。
YouTubeの説明欄にリンクを貼っているこのページで、進捗状況を確認できます。ご覧のように、トレーニングは100%完了しています。強化学習の報酬、平均シーケンス長(生成量)、そして世界各地から参加した異なるGPUの貢献度が確認できます。
このグローブを見れば、どの国から誰が貢献したのか、もし企業なら何という企業かなど、このモデルに関するすべての情報がここに表示されています。これが可能だったのは、彼らがグローバルにこのモデルを効率的に訓練する方法を持っていたからです。
トレントを使ったことがある方なら、インターネット上で分散的にファイルを共有する難しさをご存知でしょう。ファイルを取り込み、検証用のハッシュが必要で、データが破損していないことを確認し、余分なものが追加されていないことも確認する必要があります。特にデータを転送する際には改ざんが起こりうるため、これらの対策は非常に重要です。こうした問題はすべて、彼らが内蔵しているフレームワークによって処理されています。
彼らはPrime RLと呼ばれる完全に非同期の分散強化学習のためのオープンソースライブラリを持っています。これは彼ら独自の耐障害性のある分散トレーニングフレームワーク「Prime」の上に構築されています。簡単に言えば、こういう構造です。GPOトレーニングワーカーがあり、トップロックバリデーターがあり、そして計算リソースがあります。これがこれを送信し、これがこれを送信するというように、全体として分散強化学習トレーニングインフラを提供しています。
このモデルについては、Quentoアーキテクチャの上に構築されています。これはQWQの320億パラメーターモデルをベースモデルとし、彼らのPrime RL強化学習トレーニングフレームワークを使用しています。彼らが使用したデータセットは、検証可能な数学とコーディングのデータセットで、彼ら独自の「Intellect 2 RLデータセット」です。
ベンチマークに関しては、このモデルはQWQと互角です。この新しい分散強化学習という方法で訓練されたにもかかわらず、モデルサイズの観点からも非常に優れたモデルとなっています。QWQ 320億パラメーターモデルとIntellect 2 320億パラメーターモデルをAMI24で比較すると、このモデルはこのカテゴリーの他のどのモデルよりも優れています。
Qwen R1 Distillionや、DeepSeek R1、さらには彼らが使用したベースモデルであるQWQ 320億パラメーターモデルと比較しても、AE25ではQWQ 320億パラメーターモデルと同等です。Live Codebenchでは、現時点でローカルモデルの使用におけるゴールドスタンダードであるQwen R1 Distillionパラメーターモデルよりも優れています。
GPQAにおいてもこのモデルは優れていますが、Evilでは優れていません。モデル作成者によれば、おそらくこれは多様なトレーニングデータの不足によるもので、彼らが純粋に数学とコーディングに焦点を当てていたためだと言っています。
このモデルはすでにHugging Faceで利用可能で、GGUFモデルとしても入手可能です。Ollama内やLM Studio内で使用したい場合は、直接アクセスして使い始めることができます。しかし私にとって最も重要なのは、誰かが世界中から様々な人々のコンピューティングリソースを集めて分散トレーニングを始め、320億パラメーターのモデルの構築に成功したということです。かつてはごく限られた資金力のある大規模な研究所だけが構築できたものが、今日ではPrime Intellectという会社のおかげで実現しています。
AIの真の分散化についてどう思うか、またトレントやブロックチェーンとの並行点が描けるか、ぜひ教えてください。また別の動画でお会いしましょう。ハッピープロンプティング。

コメント

タイトルとURLをコピーしました