
5,848 文字

ラマ、ミストラルよ、脇に寄りなさい。スマホでのAIのルールを書き換える何かが登場しました。しかもクラウドで実行されるわけではありません。Hyena Edgeの登場です。このモデルは文字通り遅延を笑い飛ばします。MITから誕生したばかりのLiquid AIが開発したこの猛獣は、ベンチマークを打ち破り、より速く、より軽く、よりスマートに動作します。
Galaxy S24 Ultraのような実機で直接動作します。サーバーファームも、サブスクリプションも、遅延もなく、ただのデバイス上の生の処理能力で業界最大手のいくつかを打ち負かしています。今日は、Hyena Edgeがトランスフォーマー時代をどのように終わらせているのか、そしてなぜこれがすべてを変えるのかを詳しく見ていきましょう。
何年もの間、AI業界はトランスフォーマーという一つのことに取り憑かれていました。2017年にVasuaniの画期的な「Attention Is All You Need」論文で登場して以来、ChatGPTからMeta LamaやMistralまで、あらゆるものを動かしてきました。そして確かに、その結果は印象的でした。しかし、一つの大きな問題があります。
トランスフォーマーはあなたのスマホとうまく連携しません。メモリを大量に消費し、バッテリーを消耗し、その魔法を提供するためにクラウドベースのGPUに依存しています。これは遅延、レイテンシー、そしてデータプライバシーの懸念を意味します。SMLM2やMetaのコンパクトな3.21億のLLMAバリアントのようないわゆるエッジ最適化モデルでさえ、同じトランスフォーマーのアテンションメカニズムに大きく依存しており、Snapdragonのようなモバイルチップの限られたリソースには設計されていません。
これらのいずれかをGalaxyやiPhoneに詰め込もうとすると、窒息感を感じるでしょう。応答時間の遅さ、過熱、そしてプロンプトが半分も入力される前にクラッシュするアプリ。そして問題は、トランスフォーマーの二次関数的なアテンションスケーリングが犯人だということです。入力が長くなるにつれ、メモリ使用量と計算時間が制御不能なほど急上昇します。
サーバーグレードのNvidia GPUなら問題ないかもしれませんが、あなたのスマホはそのように設計されていません。そのため、クラウドでこれらの巨大モデルを応援している間、私たちが実際に日常的にAIを使用するエッジデバイスは取り残されてきました。しかし、それは今まででした。
ICLR 2025がシンガポールで開催される数日前、MITからスピンオフしたボストンを拠点とする小さなスタートアップ、Liquid AIが、AIの世界を一変させるかもしれないモデルを発表しました。
それがHyena Edgeです。通常のトランスフォーマーとは異なり、このモデルはクラウドだけでなく、実際のハードウェア、あなたのハードウェアでネイティブに実行されます。サーバーファームではなく、スマートフォンでの話です。これは単なるデモではありません。Liquid AIは実際のスマホ、Samsung Galaxy S24 Ultraで実際のベンチマークを実行しました。
そして結果は、単に良いというだけでなく、ゲームチェンジングなものでした。詳しく見ていきましょう。Hyena Edgeは畳み込みベースのハイブリッドアーキテクチャで構築されています。そうです。従来は画像認識モデルを支配していた畳み込みが、今や言語処理に使用されています。奇妙に聞こえますか?かもしれませんが、それは驚くほどうまく機能します。
通常のトランスフォーマーに見られるような大きくメモリを大量に消費するアテンションメカニズムに依存する代わりに、Hyena Edgeは典型的な高性能モデルのアテンションブロックの約2/3をより賢いもの、Hyenaサブファミリーからのゲート付き畳み込みに置き換えています。これらのゲート付き畳み込みは高速で軽量、そして入力の長さに対して線形にスケールします。
二次関数的にスケールする従来のアテンションとは異なり、この一つの変更だけで速度が大幅に向上し、特にエッジデバイスでのメモリ使用量が劇的に削減されます。そしてLiquid AIは理論にとどまりませんでした。彼らはHyena Edgeを同じパラメータ数を持つトップクラスのグループクエリアテンショントランスフォーマーモデルと対決させ、公平な戦いをし、両方を直接Galaxy S24 Ultraで実行しました。
これは何かNvidia A100での実験室テストではなく、生の実世界のパフォーマンスでした。結果、プリフィルレイテンシー(モデルが応答を開始するまでの時間)は、特に長い入力で、トランスフォーマーのベースラインより最大30%速くなりました。テキストを素早く生成するために重要なデコード速度も、256トークンのマークを超えると大幅に改善されました。
メモリ使用量はすべての入力長で低くなりました。これは特に、TikTok、Spotify、そしてカメラロールとスペースを共有しなければならないアプリにとって大きな意味を持ちます。しかしパフォーマンスは物語の半分に過ぎません。本当の疑問は、トランスフォーマーレベルの精度に匹敵するかどうかです。簡単な答え:はい、それ以上です。Liquid AIは両方のモデルを同じ1000億トークンでトレーニングし、標準的なベンチマークのバッテリーを使用してテストしました。
Hyena Edgeモデルは全面的にトランスフォーマーのベースラインを打ち負かすか同等の性能を発揮しました。Wikitextのパープレキシティは17.3から16.2に低下。Lambadaは10.8から9.4に改善。PIQA、HellaSWAG、ARCはすべて同様の精度の飛躍を見せました。ほとんどの場合、Hyena Edgeは単に速いだけでなく、より有能でした。そして決め手は、
これをすべてクラウドなしで、スマホのバッテリーを消耗することなく、精度を失うことなく達成したことです。これはAIが常にあるべき姿です。反応が良く、ローカルで、プライベートです。そのため、LamaやMistralのようなモデルが巨大なクラウドデプロイメントでリーダーボードを支配している間、Hyena Edgeは本当に重要な場所、あなたのポケットでの戦いに勝利しています。
そしてプライバシー、速度、および電力効率が非交渉可能なエッジコンピューティングがAIの次のフロンティアになりつつある中、それは未来を形作り直す可能性のある勝利です。
Hyena Edgeができることを見てきました。遅延を打ち砕き、メモリを節約し、さらに主要なベンチマークでトランスフォーマーを上回るパフォーマンスを発揮します。カーテンを開けて、この画期的な成果が実際にどのように起こったのかを見てみましょう。これは単に速いモデルではなく、AI設計自体の未来への一瞥です。
Hyena Edgeのアーキテクチャの中核には、根本的なアイデアがあります。AIにより良いAIを設計させる。2024年12月、Liquid AIは静かに革命的なもの、STAR(Synthesis of Tailored Architectures)と呼ばれるシステムを導入しました。
遺伝的アルゴリズムとシステム工学が交差したものを想像してください。モデルアーキテクチャを手動で一行ずつ設計するのではなく、インテリジェントな検索フレームワークに進化させます。それはこのように機能します。プリミティブなオペレータのプールから始まります。セルフアテンションブロック、グループクエリアテンション、フィードフォワード層、そしてhyena full、hyena x、hyena yなどのバリアントを含むハイエナファミリーのゲート付き畳み込みなどのものです。
次に、遅延の最小化、メモリ使用量の削減、高い予測パフォーマンスの維持など、すべて実世界のデバイス、Samsung Galaxy S24 Ultraに最適化された制約を定義します。そのセットアップでSTARはアーキテクチャの進化を開始します。24世代にわたり、1世代あたり16のモデル候補をテストし、それぞれが操作、幅、フィルター長、および構成の独自の組み合わせを持っています。
実際にスマホで測定された実際のオペレータベンチマークを使用して、デスクトップGPUに基づく近似ではなく、総遅延とメモリ負荷を推定しました。これは重要な転換です。ほとんどのアーキテクチャ検索システムは依然としてハイエンドGPUでパフォーマンスをテストしています。この進化における各ミニモデルは50億トークンでトレーニングされ、世代を超えて次の単語をモデルがどれだけうまく予測するかの指標であるパープレキシティを有意義に評価するのに十分でした。
そしてSTARエンジンがアーキテクチャを進化させ続けるにつれて、興味深いことが起こりました。一つのバリアントが優勢になり始めました。Hyena Y。なぜHyena Y?それは完璧なバランスを提供したからです。長距離依存関係をモデル化するのに十分な表現力を提供しました。他のバリアントを遅くする内部畳み込みのオーバーヘッドを回避しました。
精度を維持しながらより速い計算を可能にする軽いゲーティングメカニズムを使用しました。時間とともにSTARがこれらの候補を進化させるにつれて、彼らは文字通りシフトが起こっているのを見ることができました。Liquid AIのウォークスルービデオを見ると、視覚的に見ることができます。セルフアテンションを表すバーが縮小します。Hyena Yブロックが成長します。遅延曲線が下がり、パープレキシティスコアが向上します。
それは自然選択を見ているようでしたが、遺伝子ではなくコードでした。最終世代までに、STARは最適なポイントを見つけていました。幅48、アテンションヘッドサイズ64、そして決定的に重要なことに、アテンション操作の3分の2がハイエナファミリーからのゲート付き畳み込みに置き換えられた、深さ32層のアーキテクチャです。これは単なる賢いトリックではなく、特にエッジデバイス向けに言語モデルを構築する方法の完全な再考でした。
しかし彼らはそこで止まりませんでした。最終設計をS24 Ultraで再度ストレステストし、フルスケールでのすべてのパフォーマンス向上を検証しました。そしてそれは持ちこたえました。遅延は低いままで、メモリ使用量は効率的なままで、ベンチマークでのモデルのパフォーマンスは低下しませんでした。しかし最も印象的な部分の一つは、短いプロンプトに対するHyena Edgeの応答性です。
そこがハイブリッドが通常崩れるところです。音声アシスタント、モバイル検索、またはノート作成のようなほとんどのアプリは長い文書を使用しません。20トークン未満のクエリに依存しています。そのような超短いコンテキストでは、ミリ秒ごとに重要です。そして何と?Hyena Edgeはそこでさえトランスフォーマーの対抗馬を打ち負かしました。モデルが応答を開始するまでの時間であるプリフィルレイテンシーは、短い入力でも明らかに低くなりました。
それはシームレスな体験と遅さを感じる体験の違いです。ここで視点を広げましょう。これは一つのモデルだけの話ではありません。私たちがAIの新時代、ポストトランスフォーマーの世界、または少なくともポリアーキテクチャの未来に入りつつあるという信号です。トランスフォーマーは一夜にして消えることはないでしょう。
特にクラウド内の大型GPUでは依然として信じられないほど強力です。しかしエネルギー、メモリ、そして応答性が重要なオンデバイスAIに関しては、代替案が台頭し始めているのを目にしています。そしてHyena Edgeがその先頭に立っています。これが解き放つものを考えてみてください。スマホでローカルに実行されるAI。
クラウドの遅延なし、データをサーバーに漏らさずに完全な機能性。電力制限のために以前は不可能だったユースケースが、突然実現可能になります。オープンソースアクセスにより、世界中の開発者がHyena Edgeを適応させ、分岐させ、最適化し、その上に構築できます。あなたのiPhoneでオフラインで実行されたり、アプリに組み込まれたり、Raspberry Piプロジェクトを動かしたりするのを見るかもしれません。
そしてその全ての美しさは、重みとバイアスを手動で調整するエリートエンジニアのチームによって手作りされたものではないということです。それは進化し、パフォーマンスデータによって導かれ、私たちが実際にAIを使用する場所、つまり私たちの手の中で最適化されました。これがHyena Edgeを単なる別のモデル以上のものにしている理由です。それは次に来るものの青写真であり、それはすでにここにあります。
まとめです。Hyena Edgeは単なる別のモデルではありません。それは転換点です。実世界のパフォーマンスでLamaとMistralを打ち負かし、スマホでネイティブに実行され、より少ないメモリを使用し、最大30%速く応答し、それでもトップクラスの精度を提供します。すべてクラウドなしで。これはエンジニアリングの勝利以上のものです。AIが高速で、プライベートで、エネルギー効率が良く、そして指先で利用できるポストトランスフォーマーの未来への一瞥です。
オープンソースの計画がすでに進行中であるため、これは閉ざされたドアの後ろに留まることはありません。開発者、研究者、そしてクリエイターはサーバーファームやシリコンバレーの予算を必要とせずに、構築し、適応し、革新するためのツールを手にすることになります。次のAI革命はクラウドにはないかもしれません。それはあなたのポケットにあるかもしれません。
これがあなたの心を吹き飛ばしたなら、ぜひいいね、登録、そしてコメントをお願いします。スマホで直接実行されるAIを信頼しますか?それともこれは始まりに過ぎないのでしょうか?
コメント