Macを5台使ってAIスーパーコンピュータを構築した

18,873 文字

I built an AI supercomputer with 5 Mac Studios

Get NordVPN 2Y plan + 4 months extra + 6 MORE months extra: It’s risk-free with Nord’s 30-day money-back guarantee! I ju...

1, 2, 3, 4, 5台のMac Studio。これらを接続して、超強力なAIクラスタを形成します。なぜでしょう？私が見つけられる最大で最強のAIモデルを実行したいからです。あらゆるものを投入し、私の目標は最大のものを実行することです。llama 3.1 405Bモデルです。このモデルは恐ろしいものです。通常、私たちの家よりも高価なサーバーを使用するクラウド内の超強力なAIクラスタで実行されますが、今回は5台のMac Studioでやってみます。
できるでしょうか？わかりませんが、挑戦してみましょう。コーヒーの準備はできていますか？さあ、始めましょう。そして、このビデオのスポンサーであるNordVPNに感謝します。はい、彼らは私にAIで遊んで、皆さんにクールなものを見せるためにお金を払っています。素晴らしいことですね。後ほど彼らについてもっと話します。
まず明確にしておきたいのは、AIクラスタ用に5台のMac Studioを購入したわけではありません。まあ、私ならやりかねませんが、Network Chuck Studiosでは、ビデオ編集パイプラインをPCからMacに切り替えています。これがいい考えだと思うかどうか、下にコメントしてください。私たちは皆同意すると思いますが、これらの美しく強力なマシンが到着したとき、「まだこれらを彼らに渡せない、まず自分で遊びたい」と思いました。
そして、XO Labsというソフトウェアを見つけました。新しいベータ版ですが、AIクラスタリングに特化しています。これをご覧ください。あらゆる種類のコンピュータハードウェアを使用できます。Raspberry Pi、予備のラップトップ、4090を搭載した超強力なゲーミングPCなどを接続し、それらにAIモデルを実行させることができます。
リソースを共有するのです。実際にはかなり簡単にできます。このビデオでやり方をお見せしますが、まず5台のMac Studioを開封する必要があります。正直に言うと、これが私のこのビデオで一番好きな部分でした。新しいテクノロジーを開封し、新しいハードウェアを箱から出すことで喜びを感じるのは何なのでしょう。ネットワークスイッチやルーターでも、それは私を幸せにします。
あなたも同じですか？とにかく、箱を開けました。美しいです。一度だけ匂いを嗅ぎました。素晴らしい香りでした。しかし本題に入る前に、まずAIクラスタについて話しましょう。なぜ今これをするのか？私はすでに専用のAIサーバーを持っています。名前はTerryです。このビデオで彼を構築しました。彼は素晴らしいです。スタジオでローカルAIモデルを実行できるようになり、クラウドと通信したり、Open AIのようなちょっと怖い巨大企業にChatGPTなどを実行してもらう必要がありません。すべてローカルで行われ、彼らは私のデータを取得しません。
しかし、2台の4090 GPUを搭載したTerryを構築する必要があったのは、AIモデルの実行がリソース集約的だからです。今、あなたがこの動画を見ているコンピュータは、おそらく瞬時にAIモデルを実行できます。O lamaをダウンロードして、LAMA 3.2 1Bを実行すると、非常にうまく動作します。
ChatGPTのように会話できますが、ChatGPTのような感じはしません。それほど賢くありません。すぐにその違いに気づくでしょう。違いは驚くほど大きいです。ChatGPTの品質を得るには、より大きく洗練されたローカルモデルを使用する必要があり、ここであなたのラップトップでは不十分です。より大きいと言うとき、私は主にパラメータと呼ばれるものについて話しています。
LAMA 3.2 1Bについて触れました。分解しましょう。これは比較的小さなモデルで、1Bは10億、10億パラメータを表します。AIのコンテキストでパラメータを考えると、それぞれが学習された知識を表します。各パラメータはニューラルネットワークにおける数値または重みです。
それらはモデルが予測を行うのを助け、それがモデルが行っていることです。あなたが話しかけるとき、それはあなたが言っていることに基づいて応答がどうあるべきかを予測します。パラメータを学習された知識と考えることができ、モデルがより多くのパラメータを持つほど、より多くのパターン、関係、ニュアンスをデータから学習できます。本質的には、より多くのパラメータを持つほど、より賢くなります。
LAMA 3.2のような10億パラメータモデルは、単純なタスクに適しています。会話でき、基本的な文章の補完ができ、要約もできます。CPUでも実行できますが、GPUの方が良いでしょう。しかし、推論と事実の正確さは弱いです。
LAMA 3.2を基準として使用していますが、もっと低いパラメータモデルもあり、より馬鹿になりますが、それらには用途があります。Raspberry Piで実行したい場合、より良いパフォーマンスが得られます。Tiny Llamaと呼ばれるものがあると思います。実際に見てみましょう。これがTiny Llamaです。かなり可愛いですね。
Tiny Llamaは実際に11億パラメータモデルですが、量子化のおかげで（これについては後で話します）、より少ないリソースで実行できます。638メガバイトのVRAM、VRAMとは何でしょう？これはビデオRAMです。これはコンピュータの一般的なメモリやRAMではなく、GPUが持つメモリです。
そして、はい、ローカルAIについて話すとき、GPUが重要です。持っていれば、生活はより良くなります。Tiny LlamaのようなLLMをCPUで実行できないという意味ではありませんが、推論や会話は遅くなります。もちろん、上に行くこともできます。
LAMA 3.2を基準として、各モデルに必要なVRAM、つまりどのようなGPUが必要かについての推奨事項を示します。LAMA 3.2 1Bパラメータには、4ギガバイトのVRAMが推奨されます。CPUも使用できますが、遅くなります。LAMA 3.2 3B、3ビリオンパラメータには、6ギガバイトのVRAMが必要です。つまり2060 GPUを考えてください。Lama 3.1 8B、8ビリオンパラメータには、10ギガバイトのVRAMが必要です。それは3080 GPUになります。Microsoftの4、14ビリオンパラメータには、16ギガバイトのVRAMが必要です。それは3090になります。そして、現在私のお気に入りのローカルAIモデルであるLAMA 3.3 70B、70ビリオンパラメータには、現在、それを実行できる消費者向けGPUはありません。
48ギガバイトのVRAMが必要です。私がそれを実行するには、2台の4090を使用する必要があります。そして、もっとクレイジーなことをしましょう。もう一つ上に行くと、llama 3.1 405B、405ビリオンパラメータがあります。ちなみに、気になることがあるかもしれません。llama 3.2から3.1、そして3.3、再び3.1へと飛んでいるのを見ましたね。何が起こっているのでしょうか？これらは新しいデータで訓練され、いくつかの新機能を持つモデルの異なる世代です。しかし、LAMA 3.2 1Bが新しいからといって、LAMA 3.1 8Bよりも知的であるとか、より良い推論を持つということではありません。
話を戻して、405Bを実行するには、1テラバイトのVRAMが推奨されます。信じられないことです。これはAIクラスタで、普通のGPUではなく、NVIDIAのH100やA100を使用することになります。これが私のクラスタで目指すものです。現在市場で最高のGPUである4090を考えてみてください。24ギガバイトのVRAMがあります。そのモデルを実行するには、42台の4090が必要になります。
ちなみに、LLMの実行について少し知っている方のために、これらの数字は少し不自然に見えるかもしれませんが、それは多くのものがすでに量子化を含んでいるからです。それは何でしょうか？量子化は別のビデオになるかもしれません。今はやりませんが、大きなモデルを小さなGPUに収めるものだと知っておいてください。
もちろん、コストがかかります。より小さなGPUに収めるために、一部の精度を減らす必要がありますが、彼らは精度を維持しようとする方法でそれを行います。モデルが量子化されているかどうかは、特定の表記を見ると分かります。例えば、FP 32は完全な精度で、変更がありません。FP 16は半分です。半分の精度と言っても、悪いという意味ではありません。精度の損失は0〜2%程度です。
しかし、整数ベースの量子化に入ると、ここが私たちにとって楽しい部分です。なぜなら、消費者向けGPUで実行できるからです。最初の大きなものはINT8です。これによりモデルは4倍小さくなり、精度の損失は約1〜3%です。ただし、これは大きなアスタリスク付きで言います。それは、彼らがどのようにモデルを量子化するかによって異なります。異なる方法があり、それらの異なる方法によって損失を減らそうとする方法が変わります。
繰り返しますが、それは別のビデオですが、INT4に下がると、それは実際に行きたい最低限のものであることを知っておいてください。これはFP 32モデルの8分の1の大きさですが、損失はかなり大きく、10〜30%です。複雑なタスク、コーディングや論理的推論、創造的なテキストで劣化に気づくでしょう。これ以上下がると、正気を失います。アルカム・アサイラムのようなものです。
こちらの多くのモデルは実際にINT8を使用して自分自身を小さくし、消費者レベルのGPUに収まるようにしています。INT4は私がLAMA 3.1 405Bで使用しようとしているものです。私自身が量子化するわけではありません。誰かがすでにそれを私のために行っています。私はただそれを実行しようとしているだけです。しかし、その量子化があっても、これは大変な注文です。
では、5台のMac Studioでこのモデルを実行するには、42台の4090が必要なのに、どうすれば良いのでしょうか？新しいMシリーズのMacには裏技があります。それは統合メモリまたは統合メモリアーキテクチャと呼ばれるものです。
ほとんどのシステムでは、システムメモリとVRAM、つまりGPUメモリがあります。新しいMacはそれを行いません。すべてに対して1つのメモリプールがあり、それによって何かクールなことが可能になります。Macを手に入れることができます。例えば、私のMac Studioでは、それぞれに64ギガバイトのRAMがあります。これは共有RAMで、GPUに使用できます。私の考えでは、64掛ける5。
それは何になるでしょうか？GPUに使用できる320ギガバイトのRAMです。そしてそれはRAMの量だけでなく、転送も関係します。典型的なシステムでは、システムメモリとGPUメモリの間でデータを転送する必要があります。統合メモリでは、転送はありません。すべてそのメモリを使用しているだけです。
これらのMax Studioの1台は2,600ドルで、これはコンピュータ全体の価格です。4090 1台だけで、ゲーミングPCの一部だけで1,600ドルかかり、Macの方がGPUに使用できるRAMがはるかに多いです。電力効率が非常に高いことも言及しておきます。4090対Mac Studioの消費電力は驚異的ですが、リンゴとリンゴの比較ではなく、AppleとPCの比較です。
つまり、4090ゲーミングPCとMac Studioを直接対決させると、PCが毎回勝ちます。4090のようなNvidia GPUは専用のテンソルコアを持ち、CUDAに最適化されています。それは何を意味するのでしょうか？これらは、AIモデルが長い間最適化されてきたものです。
SER Maxは今まではAIマシンとして考えられていませんでした。NVIDIAだけでした。ですから、誰かが新しいモデルを作るとき、彼らはそのモデルをNVIDIA GPUで実行するために作っています。より良い時間を過ごすでしょう。今、AppleはMLXまたはMachine Learning Accelerationと呼ばれるものを持っており、私はそれをXO labsで使用することになりますが、サポートのため、Kudaはまだ勝っています。
さて、ここに来ました。テストする準備ができました。5台のMax Studioがあります。これらが仕様です。M2 Ultra、それぞれ64ギガバイトのRAM、統合RAMです。最初に解決すべき大きな問題は、これらのMacをどのように接続するかです。それらはクラスタ化され、多くの通信を行うことになります。これは多くの帯域幅を必要とします。私たちのシナリオでは、内蔵の10ギガビットイーサネット接続を選びました。
ここにはUnified XG6 POE 10ギグスイッチがあり、これら5台のMacを接続しています。しかし、これが私たちの最大のボトルネックになります。理想的ではありません。10ギグは多く聞こえますが、AIネットワーキングでは通常、非常に高速な接続があります。毎秒400ギガビットについて話しています。
実際、昨年Juniperとのビデオを作成しましたが、彼らは毎秒800ギガビットの接続を出す予定でした。私の10対彼らの800です。そしてそれだけではありません。AIネットワーキング、特に企業向けAIネットワーキングでは、イーサネットやTCP/IPで見られるようなネットワークオーバーヘッドの多くを排除します。
多くの状況では、GPUからGPUへのアクセスを行い、OSのオーバーヘッドの多くをスキップしますが、私たちの場合、Max Studioがあり、TCP/IPスタック全体を通過する必要があります。これが非常に重要な理由は、私たちのMacにEXOソフトウェアをインストールすると、使用するモデルを取ります。例えば、llama 3.2 8Bを選んだ場合、個々のMacにモデル全体をダウンロードするわけではありません。実際にはダウンロードを分割します。AIモデルを実行するとき、各Macはジョブの一部を実行します。しかし、効率的なコミュニケーションに依存する良いチームのように、彼らは前後に多くの会話をします。非常に大量のデータです。
実際、テストしている間にそれを見てみようと思います。使用している電力量と帯域幅を追跡します。私のMac Studioでより多くの帯域幅を得る方法があり、それはThunderboltです。Alex Ziskin、彼の名前の発音方法だと思いますが、最近見始めた別のYouTuberが、多くのM4 Mac miniでこれを行いました。Thunderboltは強力です。直接PCIEアクセスと最大40ギガビットの帯域幅が得られるからです。
理想的には、クラスタ化したい5台に達すると、接続が限られており、すべてをデイジーチェーンすることはできません。この問題を解決する方法は、Thunderboltハブまたはブリッジを使用することです。それが彼がしたことです。しかし、それでもいくつかのボトルネックがあります。ちなみに、Thunderboltとイーサネットのパフォーマンスを比較するこのビデオを見るべきです。
将来のNetwork Truckからこんにちは。実際には10ギグが大きなボトルネックだったので、Thunderboltをテストすることになりました。そして、それだけです。しかし今、私たちはついにXOをインストールする段階に来ました。以下にプロジェクトへのリンクを記載し、MacにXOをインストールする方法をデモします。Linuxについては、ドキュメントがありますが、インストールはほぼ同じです。
実際には、Macの方が難しいバージョンだと思います。Python 3.12がインストールされていることを確認したいことがいくつかあります。今すぐそれをやってみましょう。Pythonバージョンを管理するためにPI ENVを使用するのが好きです。そしてPI ENVで、Python 3.12をインストールして、すべてのMacでこれを行います。
ちなみに、ホームアシスタントを起動させましょう。実際にスマートプラグを使用して、5台のMacすべてで使用している電力量を測定しています。現在、ベースラインでは、すべての5台のMacで46ワットを引いています。信じられないでしょう？Python 12がインストールされました。PI EMVのグローバルとして3.12を設定します。
pythonバージョンで素早く確認しましょう。おそらく端末を更新する必要があります。source .zshrcを実行します。もう一度試してみましょう。完璧です。最初に行うのは、M1 Mac用のMLX機械学習アクセラレーションをインストールすることです。PIP Install MLXで行います。
これはMAC展開に非常に特化したことに注意してください。非常に迅速であることに注意してください。ちなみに、PIPがインストールされていないことがわかった場合、X code-select –installコマンドでPIPとすべての必要なものをインストールできます。MLXがすべてのMacにインストールされました。今度はXOをインストールする時間です。これが最も簡単な部分になります。
彼らのリポジトリをクローンするためのgit cloneコマンドを取得するだけです。私のすべてのMacでそれを行います。そのXOディレクトリに移動し、「pip install -e .」コマンドを使用して、コーヒーブレイクを取りましょう。それをしている間、XOについて知っておくべきいくつかのクールなことがあります。
まず、XOを実行するとすぐに見ることになりますが、Macは魔法を通じて、つまりネットワーキングを通じて互いを発見します。しかし自動的に互いを発見し、クラスタにあることを認識します。XOは私たちのためにGUI、ウェブインターフェースも起動し、見て、遊んで、いくつかのLLMをテストすることができます。
LLMについて言えば、彼らはChatGPT互換またはOpenAI互換APIも持っています。つまり、ベータ版で、まだ比較的新しいにもかかわらず、XOを実際に使用したい場合、OpenAI APIを使用する他のものに統合することができます。それは私が使用する多くのツールです。
実際、ファブリックプロジェクトを運営するDaniel Meslerに連絡を取りました。私は毎日ファブリックを使用していて、「ねえ、XO labsをこれに追加できますか？」と彼に聞きました。彼は「はい、やります」と言いました。実際、このビデオを見る頃には、おそらくすでにそこにあるでしょう。インストールが完了したようです。これは非常にMac特有です。
ディレクトリをlsすると、現在XOディレクトリにいます。configure_mlx.shというスクリプトがあります。このスクリプトを実行すると、XOを実行するためにMacを少し調整します。各Macでこれを実行します。パスワードを入力しなくて済むように、前にsudoを入れたいかもしれません。
いくつかのことをしていることに注意してください。正直に言うと、何をしているのかわかりません。そして今、XOを実行できるポイントに来ました。最初のMacで実行してみましょう。XO、XO、XO、XO。そして、後ろにもう一つあります。5台あります。別の端末にアクセスできません。どこにいますか？ああ、ここにいます。XO、これが見えますか？すぐにXOは、クラスタに5つのノードがあることを発見しました。
自動発見です。実際には、それらを素早く停止したいと思います。各マシンをどのように評価するかを見てほしいです。ここでXOの1つのインスタンスだけを実行します。1つのクラスタです。ここで26.98テラフロップを取得したことに注意してください。GPU貧困側よりGPUリッチ側に近いです。ここに私の4090のパフォーマンスを示します。
通常、私はここ辺りですが、残りのクラスタの実行を開始すると、他のノードを発見します。そして今、もう一つを操作すると、それを見ることができます。2つのノードを発見し、下にもその接続を示しています。そして、それは私のテラフロップを倍増させます。現在は1つだけを操作し、1台のMacの基本パフォーマンスを得るためにLLMをテストしましょう。
1つのクラスタに戻りました。GUIにアクセスしたい場合、ポート52415になります。これは10.72.1.169用です。ここでブラウザを起動します。左側でモデルを選択できることに注意してください。選択するだけではダウンロードされません。例えば、7Bをクリックすると7Bを実行しますが、1Bをクリックして入力を開始すると、ダウンロードが試みられます。
「やあ、調子はどう？」と入力してみましょう。今ダウンロードしています。クールですね、動作しています。そして、ここにパフォーマンスがあります。私たちのために文書化しています。注目したいのは、毎秒のトークン数です。「コンピューターについての怖い話を教えて」と言ってみましょう。平均して約117トークン/秒です。これは小さなモデルで、これらのMac Studioの1台で問題なく実行できます。今テストしたいのはネットワークのボトルネックです。
他の4台のMacをクラスタに導入し、ジョブを分割すると、何が起こるでしょうか？どのようになるでしょうか？今それをやってみましょう。実際にここでモデルを削除し、他のMacを追加します。それらが表示されるのを見てください。2台、3台あります。クラスタリングは非常に簡単です。4台と5台のノードです。テストしてみましょう。
今、モデルをダウンロードするために話しかけ始めます。ダウンロード中です。各マシンにモデル全体をダウンロードしているようです。それについて間違っていたかもしれません。あるいはバグかもしれません、わかりません。しかしいずれにせよ、クラスタが機能しているのがわかります。明らかに各マシンでダウンロードしています。
前と同じプロンプト「コンピューターについての怖い話を教えて」をしてみましょう。ワオ、帯域幅の制限は大きいです。以前の117に対して29トークン/秒です。速度は私たちの友達ではありません。予想していました。より興奮しているのは、持っているRAMの量と、より大きなモデルを実行できることです。
ほら、コーヒーブレイクの時間です。このブレイク中に、スポンサーであるNordVPNについてお話ししたいと思います。早送りボタンをクリックする前に、彼らがこのようなビデオを可能にしていることを知っておいてください。彼らに愛を示してください。現在VPNを使用している3つの方法をお伝えします。
1つ目は、少しの匿名性を得るために使用しています。ウェブサイトにアクセスするとき、多くのウェブサイトはあなたの公開IPアドレスを使用してあなたを識別します。彼らは異なる追跡技術を使用します。本質的に、インターネット上を歩き回るとき、あなたは足跡を残し、彼らはそれを追跡しています。NordVPNを使用して自分を隠し、ウェブサイトに自分が別の人であると思わせることもあります。
IT関係者が素早く自分のオンラインアイデンティティを変更するための素晴らしいツールです。2つ目、たくさんの映画を見ます。日本のNetflixはアメリカのNetflixと見た目が違うことをご存知でしたか？イギリスや他の地域も同様です。しかしNordVPNを使用すると、素早くイギリスや日本に自分を置くことができ、突然Netflixはあなたが日本にいると思い、日本のNetflixを表示します。これは以前聞いたことがあるかもしれませんが、私のプロデューサーのAlexが信じられないことをしました。彼はLetterboxというアプリを使用しています。実際、Alex、ここに表示してください。このアプリは映画を検索するとき、その映画をどのストリーミングサービスで見ることができるかを示します。
しかし彼はすべての国のすべてのストリーミングサービスを追加しました。なので、映画を見たいとき、以前はアメリカで利用できない場合は単にレンタルしていましたが、今ではVPNをオンにして場所を変更するだけです。そう、Apple TVなどでもNordVPNを実行できます。
3つ目は、家から離れているとき、デバイスを使用する際に自分自身と家族を保護するためにVPNを使用します。そして、はい、それには変なWiFiネットワークへの接続も含まれます。多くのVPN批判者は、ほとんどのウェブサイトがHTTPSであるため、インターネット上でVPNは必要ないと言います。これは、あなたとウェブサイトサーバー間の接続が安全であることを意味します。
それはインターネットの多くの部分で当てはまります。素晴らしいことです。しかし、SSLを持っているものの良いウェブサイトではないサイトにアクセスした場合はどうでしょうか？暗号化されていても関係ありません。人々がこれを行う方法の一つは、タイポスクワッティングと呼ばれるものです。あなたのウェブサイトをタイプミスします。例えば、Netflixの代わりにnetfilx.comと入力するかもしれません。理想的な世界では、そのようなサイトは存在しないはずですが、悪い人々がこれらのウェブサイトを購入し、Netflixのような外観のサイトを作ります。
しかしNordVPNには、脅威保護プローブなどの機能があり、あなたが訪問しているウェブサイトが悪いときに警告してくれます。また、広告からも保護してくれます。広告は最悪です。これを除いては。これは素晴らしいですよね。私は自宅や会社のネットワークで広告をブロックするために多くの努力をしていますが、外出時には広告が私たちを見つめています。NordVPNをオンにすると、広告をブロックします。
そう、2025年においてもVPNを使用することは非常に有効です。強くお勧めします。私はいつも使用しています。以下のリンクをチェックしてください。nordvpn.com/networkchuck。この新しいQRコードをスキャンしてください。QRコードは安全ですか？わかりません。スキャンして、NordVPNを入手し、安全かどうかを確かめるために再度スキャンしてください。もちろん、私のリンクを使用すると、特別なお得な情報が得られます。何を待っているのですか？これをチェックしてください。実際には新年の大幅割引プラスで4ヶ月追加です。月額3ドルで手に入れるつもりです。
とにかく、このビデオのスポンサーとなり、このようなことを可能にしてくれたNordVPNに感謝します。AIクラスタリングに戻りましょう。それではThunderboltがどうなるか見てみましょう。今、私のThunderbolt接続をしに行きます。Thunderbolt接続完了です。
これらのホストをどのように接続したか？ここでビデオをお見せします。基本的にはスポークハブ状の接続をしています。1台のMacが他のすべてのMacに接続されています。明らかに理想的ではない状況です。このマシンがボトルネックになりますが、毎秒40ギガビットのネットワーキングを実現しています。ここに素敵なThunderboltブリッジがあります。
Thunderboltネットワーキングは、通常のTCP/IPベースのネットワーキングやイーサネットほど高度ではありません。高度な設定で髪を引っ張りたくないので、これが私にできる最善の方法です。すべてに静的IPを割り当てました。XOはデフォルトで最速の接続を選択するはずです。それを見てみましょう。
確かに、bridge0 Thunderboltが監視されていることがわかります。すべてを実行する前に、1台のホストをテストしたいと思います。1台のホストのパフォーマンスはすでに知っています。まず2台でテストしましょう。2台のホスト間のThunderbolts接続ができました。非常に高速なはずです。プロンプトを入力して楽しみましょう。
少し速くなりました。以前の10ギガビットネットワーキングでは約50トークン/秒でした。かなりの違いです。3台目を追加しましょう。パーティーに参加してください、友達。同じプロンプトをやってみましょう。以前よりは良いですが、Thunderboltでもボトルネックにぶつかっていることに注意してください。なぜThunderboltが良いのか、帯域幅が多いことは明らかですが、PCIEへのより直接的なアクセスも持っています。
オーバーヘッドが少なく、より直接的です。チームを追加しましょう。入ってきてください、皆さん。5台のクラスタができました。どうなるか見てみましょう。実際それは悪くありません。待って、あなたは今言ったことと今言っていることが矛盾しています。これを試してみましょう。すべてのホストが使用されています。
このプロンプトを試して、ネットワーキングの様子を見てみましょう。帯域幅の使用量は基本的に同じです。予想通りですね。より大きなモデル、LAMA 3.3 70Bをテストしましょう。実は私のお気に入りのモデルです。Deep Seek R1がちょうど出ましたが、まだ試していません。Thunderbolt接続を切断し、最初のテストで10ギガビットを実行します。
1台のホストだけでXOを実行し、LAMA 3.3 70Bを実行しています。かなり良いはずです。これは量子化モデル4ビットで、すべてを実行できるはずです。パフォーマンスを見てみましょう。ここにホストがあります。RAMの使用量を見てください。クレイジーになって、最初のトークンまでの秒数が少しかかっています。そしてGPUが始動します。
最初のトークンまで15秒かかりました。ちょうど読み込まれただけで、パフォーマンスはそれほど良くありません。ただ、これの後にllamaをテストすると言っておきます。何らかの理由で、llamaのモデルの方が良いです。彼らが何をしているのかわかりませんが、パフォーマンスが良いようです。実際に良いのかどうかはわかりません。このナンセンスを止めましょう。
2台で70Bを試してみましょう。同じ質問をします。メトリクスを見てみましょう。ダウンロードの一部を他のホストに行う必要があります。メモリが使用されています。予想よりも悪くありません。ネットワーキングをチェックしましょう。
今、ネットワーキングのテストです。以前よりも帯域幅を使っていないような気がしますが、私だけでしょうか？面白いですね。すべて追加しましょう。5台全部がパーティーに参加しています。モニタリングを設定し、質問をします。パフォーマンスを見てみましょう。もう一つダウンロードする必要があります。2分です。殺してください。
正直、これがこのビデオを作る上で最も苦痛な部分です。また、あなたがこれを使用する予定なら、モデルがダウンロードされるのを待つことが最も苦痛でしょう。このビデオは時間がかかりすぎました。1日でこのビデオを終わらせると予想していました。いいえ、いいえ、いいえ。愚かなチャック。
願うなら、そして来ると思いますが、GitHubでいくつかのプルリクエストを見ました。ローカルでモデルをホストし、それらをダウンロードできるようにするものです。ネットワーク全体にモデルを分散することは素晴らしいですが、モデルがローカルにあれば、毎回Hugging Faceからプルする必要がなければ、はるかに高速になるでしょう。
ついに試すことができます。ここに潜入しましょう。やあ、それは実際に悪くありません。すべてのホストを使用しており、毎秒15トークンです。メモリ使用量は良好で、GPUがすべてのホストに分散されています。これで満足しています。世界で最速ではありませんが、しっかり機能しています。これが好きです。ネットワーキングをテストしましょう。
ネットワークモニタリングを設定しました。もう一度XOを起動し、5つのノードを立ち上げてテストしてみましょう。そしてネットワークトラフィックがクレイジーになるのを見てみましょう。はい、ここに来ました。ネットワークトラフィックがすべてのホストに分散されていることがわかります。
面白いのは、iftopが狂っているだけなのか、Dev2が私のコンピュータを示していて、私が最も帯域幅を受信しているように表示されていることです。ちょっと変ですが、累積を見ると、毎秒64メガビット、これはバイトです。そして、毎秒約10トークンを取得しています。Thunderboltをテストしましょう。前と同じように2台のホストをテストします。
2台のホストがクレイジーになるのを見てください。パフォーマンスは、Thunderboltを使用していますよね？はい。Thunderboltを使用していますが、パフォーマンスはまあまあです。スワップを使用していませんよね？スワップRAMがないということは、RAMが不足した場合、ハードドライブ、つまりSSDからRAMスペースを借りることになります。これはパフォーマンスが低下します。RAMは非常に高速です。だからこそ高価なのです。チームをテストしましょう。
5台のホスト、Thunderboltブリッジ、70B。どうなるか見てみましょう。ヘイ、それは悪くありません。実際、毎秒11トークンで満足しています。すべてに分散されています。この帯域幅の問題を解決できれば、素晴らしいでしょう。XO labsがどのように解決するかわかりませんが、私たちは持っているハードウェアに左右されています。何か賢いことを考えるかもしれません。
ネットワーキングをチェックし、最後のテストに移りましょう。405Bを実行できるでしょうか？このビデオの最初に、405Bが最大で最強のモデルだと言いました。Deep Seek R1が出たばかりで、推論においてO1を上回るパフォーマンスを持つとされているローカルモデルです。彼らの最大のモデルは671Bで、これは巨大です。
いいえ、それは実行できません。大きすぎます。Thunderboltでの実行が好きなのは、ネットワーキング側で、ホストが独自の小さなプライベートネットワークにいるため、私と通信していないことが明らかだからです。Thunderboltブリッジ接続の完了です。面白い質問をしてみましょう。準備、スタート！
まだ毎秒10トークンです。ネットワーキングを見てください。面白いですね、あまり見えませんね？それは奇妙です。Thunderboltブリッジを使用していないのですか？間違いなくその方法で接続されています。私は正気を失っているのでしょうか？これらのインターフェースを監視していますよね？進捗が見えないのに、なぜスケールが19メガビットまで上がっているのでしょうか？おそらく私が何か間違っているだけでしょう。ちょっと奇妙です。
それはもういいでしょう。70Bは実行できることがわかっていますが、今度は最大で最強のモデルを実行したいと思います。最初に10ギグで実行できるか見てみましょう。このモデルを実行するのに少し時間がかかりました。モデルをダウンロードするには、非常に大きいからです。そして、はい、何かを言えばクリックできるというのは素晴らしいことです。
上の405Bに移動したとき、ここにあるのが見えますね。クリックするとすべてのホストにダウンロードを開始しますが、永遠にかかりました。そして終わっても、まだバグっぽかったです。信頼できませんでした。ローカルにダウンロードしてローカルで実行したいと思いました。しかし、それには、まだ含まれていない機能を可能にするプルリクエストを見つける必要がありました。それをやって、チェックアウトしました。
現在そのブランチにいます。下を見ると、ローカルの405B 4ビットモデルがあることがわかります。1台のホストでこれを実行しようとは思いません。自滅するでしょう。実際、何が起こるか見るために面白半分にやってみるべきでしょう。1台のホストを実行しています。ちなみに、モデル全体をダウンロードする必要がありました。おそらく200ギガ近くで、それを各ホストに置きましたが、Hugging Faceからダウンロードするよりもはるかに効率的でした。
「物語を教えて」と言うと、RAMが読み込まれます。あぁ、あぁ、叫ぼうとしています。そしておそらくスワップが見えるでしょう。間違いなく見えるはずです。ここにスワップを見てください。50にいます。スワップが来ます。そこに行きました。ハードドライブのスペースをすべて使用しようとしています。最終的には機能するかもしれませんが、20ギガのスワップを使用しています。使いたくありません。
ハードドライブのスペースがほとんどなくなっています。今すぐ停止したいです。出て行ってください。おそらくタイムアウトになるでしょう。下がるかどうか見てみましょう。良かった。それは怖かったです。だからこそ私たちはそれをしないのです。しかし、すべてのホスト間でRAMを共有すれば、少し良くなるはずです。
今すぐそれを実現しましょう。クラスタを実行させましょう。まだ10ギグイーサネットを使用しています。すべてのホストが稼働しています。各マシンでモデルが実行されています。実際、コマンドの特別なバージョンを実行する必要があります。推論エンジンとしてMLXを指定する必要があります。
これを自動検出して実行するはずですが、間違えないようにしたいと思います。アクティブになりました。モニターして何が起こるか見てみましょう。これが私たちの目標でした。最近のニュースを無視すれば、最大で最強のモデルを実行することです。行きましょう。すべてのRAMが一杯になるのを見てみましょう。
下のマシン、左下のマシンが一杯になっています。スワップに到達せずに、すべてのノードに分散し始めるといいですね。ここで一杯になっていますか？はい。今は右上のマシンを使用しています。スワップはまだ非アクティブです。このマシンを一杯にしています。まだテキスト生成を開始する段階には至っていません。
左上を一杯にしています。モデルをメモリに読み込むのに時間がかかっています。ほぼこの巨大なものを完全に分散させる段階に来ています。永遠にかかっています。均等に分散スワップ。そのネットワークエラーが気になります。しかし開始しました。言葉を発しましたが、スワップメモリが使用されているのはまだ見ていません。
ページを更新して再度試してみましょう。モデルは読み込まれたままになっているはずなので、もう一度待つ必要はありません。1段落で。行きましょう。何か生成してください。行きましょう。動いています。最初のトークンに5秒しかかからず、毎秒0.8トークンという驚異的な速度です。しかし、私たちはやりました。最大で最強のモデルをローカルハードウェアで実行しています。通常はデータセンター全体が必要なものを、ここで実現しています。遅いですが、やりました。
ザッカーバーグ、マスク、負けましたね。あなたたちは必要ありません。あなたたちのモデルを使っていますが。毎秒0.5トークンで動作しています。Thunderboltの方が速いでしょうか？見てみましょう。このナンセンスを止めます。Thunderboltを接続しました。今すぐXOを実行しましょう。MLXバージョンを実行する必要があります。
5つのノード、Thunderboltで実行します。どうなるか楽しみです。現在RAMに読み込まれていないので、少し時間がかかるかもしれません。RAMが狂ったように使用されています。ここに来ました。一度にすべてを一杯にしてほしいです。このモデルを読み込むのにとても時間がかかります。コーヒーブレイクです。
しばらくコーヒーブレイクを取っていませんでした。すべて読み込む前にタイムアウトします。はい、タイムアウトしました。もう一度試してみましょう。GPUがスパイクしています。何かが起きていますが、すべてのGPUを使用していません。再び、ボトルネックはネットワーキングです。これら5台のMac Studioのグラフィックプロセッサ間に本格的な接続があれば、どのような体験になるか知りたいです。
パフォーマンスは良くなりません。毎秒0.6トークンです。そこで止まっています。しかしRAMに関しては、これはサポートされており、非常にエキサイティングです。非常に遅いですが、エキサイティングです。ネットワークアクティビティを確認しましょう。時間を下げましょう。ネットワーキングは、多くの帯域幅を使用していません。ただそうではないのです。老人よ、寝かせましょう。あなたは遅すぎます。
ただ、すぐに見せたいのはllamaのパフォーマンスです。llamaは、おそらくマシン上でローカルにAIモデルを実行する最良の方法の一つです。どんなマシンでも、インストールは非常に簡単です。llama listと入力し、現在インストールされているものを確認します。llamaは実行されていません。
Russdeskを使ってGUIに素早く移動しましょう。Linuxを使っていないことを忘れていました。これがMacを愛する理由の一つです。時々、Linuxを使っていないことを忘れます。70B 3.3を実行します。ダウンロードに時間がかかります。42ギガですが、これがどれだけ良いかがわかるでしょう。ダウンロード中です。
Fabricプロジェクトの作成者であるDaniel Mislerと話していました。彼は素晴らしい人で、大好きです。彼にテキストを送り、「XO Labsのサポートを追加してください。Fabricでテストしたいです」と言いました。彼はそれをやりました。Fabricを更新しましょう。ここにあります。かなり速く行きます。見てください。速いです。
モデルは間違いなく読み込まれています。スワップはありません。GPU使用率です。フルGPUを使用しています。ここでXOに関して言えば、MacでのMLXパフォーマンスがそれほど高くないのかもしれませんが、Mac以外のコンピュータでは異なる結果になるでしょう。実際にNvidia GPUを実行しているものです。私のビデオ編集者のPC、Nvidia GPUを持っているものをこれらのMacに置き換えています。
これらの余分なコンピュータをすべてクラスタ化する別のビデオを作るべきでしょうか？教えてください。しかし、うまく動作しています。明らかに、405Bのような大きなモデルを実行しようとしても、うまくいかないでしょう。しかし、このモデル、私のMax Studioの64ギガRAMで、夢のように実行されています。これはかなり驚くべきことです。70Bモデルは素晴らしいです。
Deep Seekの新しいモデルを試してみる必要があります。彼らも70Bを持っています。マシンにどれだけスペースがあるか見てみましょう。はい、スペースがあります。これを試してみましょう。さらに42ギガです。その間に、Fabricを実行します。これをテストしてみましょう。やあ、調子はどう？スワップを使用せずに、Deep Seekを実行しています。
Mac Studioでこれは素晴らしいことです。Fabricをこのブランチに更新しました。これを試すのがとても楽しみです。ちなみに、XOはChatGPT互換APIを使用しているため、DanielはFabricをXOに実装できます。それはコマンドではありません。セットアップを実行しましょう。
XOをやります。少なくとも実態があることを確認しましょう。すべての設定をやります。これらのホストのそれぞれが自分の小さなAPIを実行し、私はメインのものから実行します。「物語を教えて」とEchoします。それをFabricにパイプします。うまくいきません。あっ、ここで動いています。いいえ。ここで動いていますが、ストリームして欲しいです。ストリームはサポートしていないかもしれません。
あっ、動き始めました。これは素晴らしいです。Fabricとこれを使用しています。とても素晴らしいです。それはとても素晴らしいです。Daniel、本当にありがとう。テストしてみましょう。何かが起こっています。ああ、はい、Fabric。物語を取る時間ですが、ここに来ました。ああ、それは短い物語でした。何かを要約させてみましょう。
Bleeping Computerに行きましょう。このテキストをすべて取って、ペーストし、要約します。ブーム。多くのテキストを送信しており、それが始まりました。ああ、これは素晴らしいです。はい、これは持っています。とにかく、これはとても素晴らしいです。このビデオを終わらせましょう。長すぎました。
XO Labsは非常にクールです。興奮しています。MacとMLXについては、まだやるべき作業がたくさんあると思います。現在、ネットワーキングはまだボトルネックですが、Nvidiaベースのクラスタでどのようなパフォーマンスになるか分かりません。見たいかどうか下にコメントしてください。また、Exo LabsでRaspberry Pi AIクラスタを作ることも考えていました。
それを見たいかどうか教えてください。以上です。次回お会いしましょう。