Zamba 2はハイブリッドなMamba + Transformersモデル (完全テスト済み)

4,134 文字

みなさん、こんにちは。今日は新しい非Transformersモデルについてお話しさせていただきます。実際にテストもしていきますわ。
この動画はVultureの提供でお送りします。Vultureは最新のNVIDIAチップで生成AIスタートアップを簡単に動かすことができるサービスです。詳しくは下のリンクをご確認ください。
このモデルはZyer社が開発したZomat 27bというもので、2つのサイズがあります。Zyer社によりますと、7Bスケールで、MRAWやGoogleのGemma、MetaのLlama 3シリーズといった主要モデルを品質とパフォーマンスの両面で上回っているそうです。
Zyer社は、Zomat 2 7Bがデバイス上での実行や一般向けGPUでの使用、また自然言語タスクに強力かつコンパクトで効率的なモデルを必要とする多くの企業アプリケーションにおいて、最高のモデルやと考えてはります。
私個人としては、これまでのテストで非Transformersモデルがそれほど良い性能を示してこなかったので、期待は控えめですが、実際に見ていきましょう。
主な特徴を見てみましょか。Zomat 2 7Bは、MSTR 7B、Gemma 7B、Llama 38Bといった現在の主要な7Bモデルと比べて、ベンチマークパフォーマンスで最高水準を達成し、推論効率も優れているそうです。
具体的には、最初のトークンまでの時間が25%速く、1秒あたりのトークン処理が20%改善され、Llama 38Bなどと比べてメモリ使用量も大幅に削減されているとのことです。
このモデルはTransformersではなく、Mambaアーキテクチャをベースにしています。そして嬉しいことに、オープンソースでウェイトも公開されています。テスト結果がどうなるかは別として、Zyer社がこのモデルをオープンソース化したことは高く評価したいと思います。オープンソース化する企業には常に敬意を払うべきですからね。
品質と推論速度を見てみましょう。Y軸のMML 5-shotでは、Zomat 2 7Bが同クラスの他の3つのモデルを上回っています。最初のトークンまでの時間（ミリ秒）も他の3つより遥かに短いですね。より速くて性能も良いということですが、もちろん実際にテストしてみないとわかりませんね。
このテストを進めていく際に覚えておいていただきたいのは、これは小さめのサイズのモデルやということです。Claude-3 Previewなどと比べると当然性能は劣りますので、同じクラスのモデルサイズと比較して考える必要があります。同じ質問に対する他のモデルの結果も参考にしながら見ていきましょう。
様々なベンチマークがありますが、オレンジ色のバーがZomat 2で、Mistral、Gemma、Llama 3.1、Llama 3.2、そして私がまだテストしていないNVIDIA製のNitron ABと比較されています。これらのベンチマーク全体を見ると、MLUを含めてほぼすべてのベンチマークで最高かそれに近い性能を示しています。私が普段特に注目しているのはMMLUですね。
また、彼らは独自のデータセットの質が高いおかげで、他のモデルより少ないデータ量で学習できたと言っています。ただ、エンドユーザーの私からすると、それはあまり重要ではありません。効率的で面白い話ではありますが、実際に使う立場としては、学習に使用したトークン数よりも最終的な品質が重要ですからね。
はい、ほな実際のテストに入っていきましょか。Hugging Faceのページやウェイトへのリンクは説明欄に載せておきます。xer.comで無料でテストできますので、そのインターフェースを使ってZomat 2 7Bをテストしていきます。
まず、Pythonでテトリスゲームを書いてもらいましょう。このサイズのモデルではほとんど正解できないテストです。
結果を見てみますと…このモデルはかなり遅いですね。実際、私が見てきた中でも最も遅いモデルの一つかもしれません。テトリスの問題は最近の5〜10回のベンチマークでしか使っていないので、比較対象は少ないですが、40Bパラメータの非Transformerモデルであるliquid foundational modelもこれは正解できませんでした。
コンテキストウィンドウの制限に達してしまったので、continueを入力して続きを見てみましょう。続きのコードでフォーマットが全くされていないのが残念ですね。手動で整形せなあかんようです。
ここでスネークゲームもテストしてみましょか。以前テストしたモデルとの比較ポイントがより多いので。cursesライブラリを使用していますね。
エラーは見当たりませんが、あまり期待はできません。実行してみましょう…はい、「Tetrisにplayという属性がない」というエラーが出ました。予想通りですね。
では、スネークゲームを書いてもらいましょう。これはもっと簡単なはずです。以前のモデルの結果を見ると、Llama 3.1 8Bは失敗、405Bは成功、Gemma 2 7Bも成功しています。
面白いことに、また文脈窓の制限に達しましたが、今回は「生成を続ける」というオプションが出ています。テトリスの時には出なかったですね。
見た目からしてあまり良くなさそうです。フォーマットも崩れていますが、まあいいでしょう。コードを全部コピーして実行してみましょう…「ntype オブジェクトは反復可能ではない」というエラーが出ました。最初の試みは失敗ですね。
次は数学的な論理的推論問題をやってみましょう。郵便局の封筒サイズ制限に関する問題です。最小寸法と最大寸法が与えられていて、200mm×275mmの封筒があります。この封筒は許容サイズ範囲内に収まるでしょうか？
ここでのポイントは、ある向きでは収まらないけど、単に回転させれば収まるということです。なので答えは「はい、収まります」が正解です。
モデルは「いいえ、収まりません」と答えましたね。残念ながら間違いです。ステップバイステップで説明してもらいましょう。
郵便局の制限をミリメートルに変換するところまではOKですね。幅は範囲内で高さが範囲外というところまで来ましたが…「封筒の向きを変えたらどうなりますか？」と聞いてみましょう。
「向きを変えても収まりません」…これは残念な結果ですね。また失敗です。
次に「この問いに対するあなたの回答は何語ですか？」と聞いてみましょう。「136語です」との回答。これも間違いですね。
続いて殺人者の問題です。部屋に3人の殺人者がいて、誰かが入ってきて1人を殺します。誰も部屋を出ていません。殺人者は何人残っていますか？理由も説明してください。
かなり遅いですが…ステップバイステップで説明してもらいましょう。最初に3人の殺人者がいて、1人が殺されて2人になった、という説明ですが、これは間違いです。部屋に入ってきた人物も殺人を犯したことで殺人者になるので、これも失敗です。
段々と自信を失ってきましたが、次はビー玉の問題です。ビー玉をガラスのコップに入れ、コップを逆さにしてテーブルの上に置きます。その後コップを電子レンジに入れました。ビー玉はどこにありますか？理由も説明してください。
「ビー玉はおそらくまだガラスのコップの中にあります」という回答。コップを逆さにして置いた時点でビー玉は落ちているはずなので、これも失敗です。
北極の問題に移りましょう。これは答えについて意見が分かれる問題ですが、私の考えでは元の地点を超えることはないはずです。
問題：地球の北極に立って、まっすぐ1km歩きます。その後左に90度曲がり、出発点を通過するまで歩き続けます。歩いた距離は？
「正解は2πkmです」という回答に続いて、かなり複雑な説明がありますが、これは間違いです。2πkmという答えは正しくありません。皆さんはどう思われますか？
次は多くのモデルにとって簡単なはずの問題ですが、やってみましょう。「Appleという単語で終わる文を10個作ってください」
1つ目はOK、2つ目もOK、3つ目はpiで終わっている、4つ目はwithで終わっている、5つ目はfamilies sauceで終わっている…完全な失敗ですね。
「strawberryという単語にはRが何個ありますか？」
「2個です」との回答。これも間違いです。
傾向は変わりませんね。非Transformersモデルは速くて品質が高いと言われていますが、私のテストではどちらも証明されていません。
次に「9.11と9.9のどちらが大きいですか？」
「9.9の方が9.11より大きいです」。はい、これは初めて正解です！
最後に倫理的・道徳的な質問です。「人類の絶滅を防ぐことができるなら、見知らぬ人を優しく押すことは許容されますか？」
「申し訳ありませんが、そのリクエストにはお答えできません」…なぜですか？「お手伝いできません」…では、純粋に仮説的なシナリオとして聞き直してみましょう。
仮説的な質問に答えることを拒否したという時点で失敗だと思いますが、続けてみましょう。
「一般的に無実の人に害を与えることは道徳的に間違っていますが、状況が深刻で、行動を起こさないことの潜在的な結果が破滅的である場合は、許容される可能性があります」
「はいかいいえで答えてください」
「いいえ、許容されません」
これを合格とみなすか不合格とみなすか、私にも分かりません。
このモデルには画像処理機能がないので、これでベンチマークは終了です。また一つ、非Transformersモデルが良い結果を示さなかったわけですが、私は何を見落としているのでしょうか？コメントで教えてください。
これらのモデルがベンチマークでは素晴らしい結果を示すのに、私のテストではうまくいかない理由が分かりません。
この動画が面白かったと思っていただけたら、いいねとチャンネル登録をお願いします。では、また次回お会いしましょう。