
20,184 文字

ようこそ、9月のAIの動向へ。今回は特別な回になりますが、それについては後ほど説明します。私はヤコブ・サエル、会社の創業者です。この夏がもたらしたものに本当にワクワクしています。ちょっと休憩を取って8月の回はスキップしたんで、同じ時間で2倍の量の材料を扱うことになりましたな。AIは止まることを知りませんからね。
一緒にいるのはドゥースです。
はい、みなさんこんにちは。ドゥースです。Z アルファのAI研究者で、AIの動向ウェビナーの司会をしています。さあ、始めましょうか。
その通りです。今回は特別な回です。なぜなら、会社として5周年を迎えたからです。Z アルファ、5年間よく頑張りました! ウェビナーの5周年ではありませんが、それにはまだ数年かかります。
たくさんの話題がありますね。速報ニュースや、右上に小さな果物のマークがあるのは昨日出たばかりのニュースです。それについてすぐに掘り下げていきましょう。ニュースやゴシップ、リリースされたモデルなど、ここ数週間は本当に豊作の季節でしたな。
いつものように、人気度の指標やソーシャルメディアのモニタリングに基づいて厳選したトップ10の研究論文もあります。知っておくべき重要な研究論文やと思います。
さて、昨日の速報ニュースから始めましょうか。部屋に象がおるみたいなもんですわ。噂を追いかけてたんですが、昨日の夕方6時ごろにようやく出ましたな。
そうですね、新しい超強力なOpenAIのモデルが出ました。驚いたことにGPT-1ではなく、o1と呼ばれています。
ドゥース、GPT-4の「O」と同じ「O」なんでしょうか?
さあ、オムニ(Omni)のOなのか、誰にもわかりませんな。
このo1は推論において非常に強力なモデルです。トリックは何なんでしょうか?
まあ、あんまり深入りはせんとこ。秘密やからね。ただ、このモデルがどうやって推論を改善しているかについてのヒントはいくつかありますわ。
基本的には、強化学習の目的関数を持つ全く新しい訓練パラダイムです。モデルは行動を起こす前により多く推論するように訓練されています。すぐに答えを出すんじゃなくて、まず考えてから答えを出すんです。
これは研究としては新しくありませんわな。Chain of Thought(思考の連鎖)は約2年前からありますからね。本質的にはChain of Thoughtを行っているんです。数ヶ月前のこの番組でも、System 2 AttentionやDo Attentionなど、答えを出す前に推論や反省をするような関連する手法を紹介しましたな。
オンラインで紹介したのはノーアン・ブラウンでした。ノーアン・ブラウンにインタビューしたことがありますが、彼は強化学習の達人です。ポーカーやSTOなど、強化学習を使ったゲームに関する研究をたくさんしています。だから、強化学習が実際にレシピの大きな部分を占めているんやろうなと思います。
これらのグラフを見ると、特に数学の分野でどれだけ進歩したかがよくわかります。非常に競争の激しい数学のベンチマークで、正解率が13%から、まあ、内部のAGI達成モデルでは83%に上がっています。私たちが手に入れたプレビューモデルでは56%です。つまり、まだリリースされていないさらに強力なモデルがあるということですな。
Ph.D.レベルの人間の回答に匹敵する科学的な質問にも非常に強いです。コーディングでも優秀ですが、すべてに優れているわけではありません。GPT-4のような汎用モデルではないんです。
だから、メールの要約にGPTモデルを使っているだけなら、このモデルを使っても大して改善されないかもしれません。
これは新しいスケーリングアップのパラダイムのアイデアですな。通常の意味でのスケーリングではありません。パラメータ数でもないし、トレーニングデータのサイズでもない。モデルサイズでもないし、トレーニング期間でもない。実際には、計算コストを企業から顧客に移しているんです。考える時間が長くなればなるほど、より多くのトークンが生成されます。顧客として、そのトークンに対して支払うことになると思います。
実際、これまでで最も高価な出力トークンになると思います。得られないトークンに対してもお金を払うんですからね。
まず、そのモデルは思考トークン4つに対して回答トークン1つの比率で訓練されていると報告されています。そして、100万出力トークンあたり60ドルくらいだったと思います。参考までに、GPT-4は30ドルくらいですからね。
だから、数学やPh.D.レベルの問題にだけ使うのが、本当にお金に見合う価値があるんじゃないでしょうか。
このスケールのx軸が対数スケールであることに注目したいんですが、思考にかかる時間を表しています。でも、パフォーマンスは線形なんです。対数スケールでは線形ですが、それでも上がり続けられるという事実は新しいことですな。
どうやって機能するのか、あまり情報はありませんが、OpenAIの開発者向け記事で見つけました。メインのブログ記事ではなく、このモデルを他のワークフローに統合する人向けのものです。基本的に、モデルが行っていることは、Chain of Thoughtとほぼ同じような内部モノローグを持つことです。問題、タスク、入力について考えて、より良く解決するためです。でも今回は、これを私たちに見せないことにしたんです。
実際に得られるのは、モデルが舞台裏で考えたことのモデル生成サマリーのようなものです。それがより良い結論に達するのにも明らかに役立っています。
開発者の断片的な情報や研究者のインタビューから、強化学習モデルがあることが分かっています。GPT-4の報酬モデルよりもはるかにスケーリングされていますが、それでも技術的な情報はほとんど公開されていません。論文もありません。でも、モデルカードはあります。これは巨大なものですが、今月のトップ10論文の中に、OpenAIではない別の研究グループがこのモデルがどのように機能するかを正確に説明している論文を発見しました。お楽しみに。
そうですね、とてもエキサイティングです。Twitterではみんながこれについて大騒ぎしています。
AIの全く異なる側面に触れるニュースもありました。マリオ・ドラギによる欧州の競争力の未来に関するレポートが今週公開されました。
基本的に結論としては、欧州はうまくいっていないということです。生産性、競争力、イノベーションの面で、アメリカや中国に後れを取っています。
このドラギの計画は、巨額の投資イニシアチブを開始することを目的としています。実現できるかどうかわかりませんが、イノベーションを促進するために7500億から8000億ユーロを費やすことを提案しています。
間違いでなければ、これは一般的な技術に関するものですが、AIが欧州が追いつくチャンスがある分野であるというヒントが明らかにあります。
データセンターは欧州にとって失われましたが、AIはまだチャンスがあります。彼は基本的に、宇宙に穴を開けている欧州の企業が、そうしなければアメリカに行ってしまうのではないかと恐れているんです。それが起こるかもしれませんね。
ドラギの主張を示すために、ここに最近の欧州のAIニュースの選択があります。
ドイツのハイデルベルクを拠点とする欧州の自律型AI champion、Alfaが先週、新しい大規模言語モデルの生産を停止すると発表しました。費用がかかりすぎるし、作っているものは競争に追いついていないからです。今はドイツの企業向けのコンサルティング会社に転向しています。
同様のニュースで、フィンランドの欧州AIチャンピオン、Silo up AIは、実際にGPTのスカンジナビア言語の代替品を構築していました。それはAMDチップを搭載したフィンランドのスーパーコンピュータクラスターで行われていたんですが、すぐ後にAMDが会社を買収しました。
まあ、もう欧州の会社ではないんでしょうね。まだそうだと主張していますが、Googleもそうですよね。まさにその通りです。
そして、元DeepMindとMetaの研究エンジニアたちによって設立された、大いに期待されていたフランスのスタートアップ、Ashまたは英語で言うHは、すでにトラブルに巻き込まれています。
7月か6月に取り上げましたね。2億ドルのシード投資を受けて、5人の男たちが2億ドルを手に入れたんです。でも、その収益をどう分配するかで意見が合わなかったみたいです。誰も何が起こったのかわかりません。運営上の意見の相違があったんでしょうが、彼らはまた辞めてしまいました。
2ヶ月か夏休みの間に急激に上昇して落ちるなんて、かなり劇的ですわ。夏休みの間に考えが変わったんでしょうね。
まあ、幸いなことに欧州にとってすべてが暗いわけではありません。まだMistralがいます。後でクールなリリースのセクションで出てきますよ。
欧州のチップスタートアップ、Graph Coreもソフトバンクに売却されました。投資家が投入した金額よりも少ない金額でね。ドラギさんはやることがたくさんありそうです。
iPhoneイベントはどうだったんですか?
ああ、先週でしたね。iPhoneでApple Intelligenceが発表されました。
このツイートが本当にうまくまとめています。世界中の誰もが指先でAIを手に入れられますが、欧州では、デジタル法委員会や責任者が、私たちが十分に責任を持てると判断するまで待たなければなりません。この技術を使えるようになるまでね。
この2つのツイートの対比が、言うべきことすべてを表しています。フォトショップで加工されたのか、たまたまそうなったのか。アルゴリズムが正確に知っているんでしょうね。
Graph Coreはもはかつてのホットなチップスタートアップではありません。まだ残っているのはありますか?
まあ、NVIDIAがAIに関するニュースを独占していますね。2週間前に最新の四半期決算を発表しましたが、昨年の同じ四半期と比べて収益が2倍以上になったと思います。
かなり素晴らしい財務結果ですね。その報告書の興味深い詳細は、実際に彼らの収益の約半分が、彼らが何らかの形で投資している4つの大手テック企業から来ているということでした。おそらくMicrosoft、Amazon、Google、そして4番目は誰でしょうか。多分Anthropicでしょうか。後でGPUの大規模な新しいクラスターの立ち上げについて触れますよ。
でも、真剣な競合他社もいます。例えば韓国では、2つの非常にエキサイティングなAIチップアクセラレータスタートアップが、サムスンとSK HXの投資の下でNVIDIA代替品を開発しています。
シリコンバレーを拠点とする企業もたくさんあります。Groobviously(おそらくGroq)は、非常に高速な推論サービスを立ち上げて大きな話題を呼びました。実際にはチップを販売しているわけではありませんが、多くのLLM型ワークフローで非常に高速な推論ができれば大きな違いが生まれるでしょう。
最近、そのサービスを構築するために6億4000万ドルという相当大きな投資を受けました。Cerebrasは、彼らにそれができるなら私たちにもできると考え、実際に現時点で最速の推論サービスを立ち上げました。これはLlama 7B-8Bモデルだと思いますが、彼らのハードウェアで1秒あたり1,800トークンを処理できます。かなりすごいですね。
Groqの2倍以上速いと思います。Groqからの反応も見ましたが、「もう少し絞り出せる」と言っていましたね。まあ、実際の性能は変わってくるでしょうけど。
数日前にはSambanovaも同様の推論サービスを立ち上げました。Cerebrasほど速くはありませんが、かなり速いです。AIハードウェア側ではたくさんのことが起こっていますね。
もっと分析的な側面では、私たちの研究を更新しました。四半期ごとに、AI研究論文で異なるAIハードウェアベンダーがどれだけ言及されているかをカウントしています。業界の動向を把握するには非常に良い方法です。
NVIDIAが引き続き支配的で成長していることがわかります。ちなみに、縦軸も対数スケールです。いくつか興味深い展開がありますね。まだ非常に低い数字ですが、Huaweiが急速に成長しています。
もちろん、Appleもニューラルエンジンで本当に採用されています。特にPyTorchが動作するようになってからですね。
Googleは今、研究論文にTPUという言葉を必ず入れるように全エンジニアに要求しているんでしょうね。そこで増加が見られます。
ここに他の大きなNVIDIAの顧客がいます。イーロン・マスクがxAIでColossus スーパーコンピューターをオンラインにしたと発表しました。10万個のH100ですよ。それはたくさんの計算能力ですね。
それにはいくらかかるんでしょうか?使用するのは確かに高価でしょうね。後でもう少し触れますが、NVIDIAの報告書にある4社の1つを構成するのに十分な金額だと思います。
夏の真ん中に出たLlama 2は、もう何世代も前のことのように感じますね。AIハードウェアに関連して本当に興味深いグラフがあります。
非常に詳細な表があって、そのサイズのモデルを良質なものにするにはどれだけの労力が必要かを示しています。実際に研究論文で、非常に詳細なものです。
ここでは訓練中の失敗をタップしていますが、ほとんど常にGPUの故障です。1万個のGPUレベルでスケールアウト訓練をしている場合、エラーなしに訓練が完了する可能性はほぼゼロです。
NVIDIAがこれほど支配的でありながら、こんなに欠陥のあるハードウェアを生産できるのは本当に驚きです。
小規模なハードウェアスタートアップからは、Groqが突然チャートに登場しているのが見えます。ライトブルーのラインですね。Cerebrasも研究者に彼らのハードウェアを使わせるのに本当に良い仕事をしています。
これらの企業の商業的成功は、ある程度研究採用と相関していることがわかりますね。
スタートアップと資金調達に関しては非常に長いリストがありますが、ハイライトだけを取り上げましょう。
通常のエピソードでは何十億ドルもの資金調達が左右に並んでいますが、ここで最も重要で印象的なのは、元OpenAIの主任科学者であるイリヤが始めた新しい会社です。
非常に興味深い名前の「Safe Superintelligence」という会社で、彼はすべてのGPTリリースの背後にある頭脳だったと説得したようです。10億ドルの投資を集めました。
両方ともまだ存在しないものですね。超知能もまだ存在せず、安全なAIも完全には存在していません。彼の計画は、そのお金を使ってそれらのものを発明することです。製品の計画はないんですよね。
他に興味深いものは何がありますか?
コード領域のAIスタートアップへの多くの投資がありました。基本的に、開発者がはるかに生産的になるためのサポートツールです。
Curarについてオンラインで大きな話題になりました。これはAnysphereのものですね。他にもMagicやCodiumなども相当大きな投資を受けています。
他に何が見えますか?
いくつかのAI企業の採用がありました。Character AIとCovariantはどちらも折りたたまれ、よく知られたレシピで大手テック企業にチームを送り込み、投資家に損害賠償を支払いました。
他にも、Sakana、Contextual、Gleanなどが良好な資金調達ラウンドを行いました。
新しい欧州のプレイヤー、Black Forest Labsもありますね。これは基本的に、Stable Diffusionを構築した完全な創業チーム、あるいは完全なエンジニアリングチームです。今は Black Forest labsという新しい会社を立ち上げました。
イーロン・マスクが一種の検閲のない画像生成器を作るのを手伝ったと思います。来る選挙に備えてください。
モデルのリリースもたくさんありましたね。
どこから始めましょうか。一部はかなり遠い過去のように感じます。8月中旬だったと思いますが、夏の初めのように感じます。
でも、そのすべてのGPU時間とNVIDIAへのお金が、Groq 2のリリースに結実しました。これはもうHugging Faceの購読者向けにライブになっていると思います。
かなり競争力のあるモデルですが、この可視化が本当に良いですね。ランク付けを示しています。50の数字では私にはあまり意味がありませんが、このグラフは意味を伝えてくれます。
この表をスキャンする前に言っておきますが、通常最も性能の良いモデルはClaude 3.5です。彼らは最先端だとは主張していませんが、それでも非常に良いモデルです。この会社がいかに急速に成長したかを示していると思います。明らかにトップタレントを持っていますが、それでも良い成果物を生み出しています。
オープンソースですね。オープンソースといえば、初期のLLMの頃からHermesを知っていますが、実際のデータ、指示データ、そして最近では選好データでファインチューニングを本当に上手くやっています。
Hermes 3が最新で最高のものです。Llamaのすべてのサイズ、7B、13B、70Bパラメータ向けですね。
一貫してベースモデルに匹敵するか、わずかに上回るパフォーマンスを示しています。寛容なライセンスだと思うので、これは出力の簡潔さを気にするようなアプリケーションで使うのに本当に良いでしょう。
また、より難しい数値ベンチマークでもかなり良い成績を収めています。
Jumbaもありますね。これはトランスフォーマーモデルではないんですよね?
そうです、我々が取り上げた新しい系統の一つで、Mambaです。AI2のものだと思います。彼らには2つのバリアントがあります。
これらのモデルは通常、この注意メカニズムがないため、より高速な推論が可能です。そのブログ記事でも、「私たちは速い、トランスフォーマーには匹敵できない」というところを強調していました。
でも、性能面でもLlamaや他のオープンソースの代替品に匹敵します。だからこのモデルは、そのような種類のモデルで遊びたい人向けです。最先端に近いとは思いませんが、そうしてマーケティングもされていません。
クールな言語モデルのリリースだけでなく、マルチモーダルモデルもありますね。最も注目を集め、ファンの証言を得ているのはQ2だと思います。720億パラメータのマルチモーダルモデルで、かなり多くのベンチマークでGPT-4を上回っていると思います。
かなり驚くべきことですね。実際の使用でも、人々はかなり肯定的な報告をしています。
テキスト、ビデオ、音声を扱いますね。音声も扱うんでしょうか、それとも視覚だけですか?
VLはVision and Languageの略だと思うので、視覚と言語だけですね。
そしてオープンソースですね。
次に、Microsoftから53.5という、はるかに小さなモデルがあります。高品質のデータで訓練されており、これもかなり競争力があります。
実際にはリリースされたモデルのファミリーで、ここでハイライトしているのはビジョンバリアントです。明らかに、今ではすべての大規模モデルのリリースに画像入力を扱うための画像エンコーダーがパイプラインに組み込まれています。
最後に、2日前にMistralが初のマルチモーダルモデルであるMM-Stralをドロップしました。
典型的なMistralのやり方で、マグネットリンクをTwitterにドロップしただけで、それがマーケティングキャンペーンのすべてでした。モデルの能力についてのブログ記事はまだありません。
彼らが主催したプライベートイベントからのスクリーンショットや写真を見ましたが、Qwenと同じようなラインで比較していました。そんなに良くはないようですが、重みは手に入れられるので、人々は使えます。
はるかに小さいですね。7倍くらい小さいです。
結局のところ、Mistralのおかげで欧州もそんなに悪くないんですね。これが彼らの夏の成果です。
Hの人たちがパリの通りで会社の立ち上げ方について言い争っている間に、Mistralは実際に4つのかなり印象的なモデルを提供しました。
2日前にもう一つ出ましたね。これらは8月か、多分7月の一部だけのものだと思います。
ここでMistral Nemoが見えます。これはNVIDIAが提案した蒸留テクニックで、合成データとすべてのトリックを使用して、120億パラメータのモデルを得ています。これは寛容なライセンスです。
一方で、Large 2は彼らの独自のモデルです。
同じ日に、他のタスク、特にコード生成用のCodstralと数学問題用のMathstralという、より特化した2つのモデルもドロップしました。
すべてのベンチマークで、サイズに比べて他のオープンソースの代替品と比較してかなり良いパフォーマンスを示しています。
Large 2は一般的な言語モデルですが、コーディング能力についてもかなりマーケティングしていることに気づきました。ブログ記事の大部分がコーディング能力についてでした。
かなりクールですね。Mistral NemoはこのMM-Stralの新しいモデルのバックボーンになっています。
生成的な大規模言語モデルだけでなく、埋め込みモデルもあります。これらはLLM arenaではなく、主にMT-benchで測定されています。
私たちは誇らしげに、最初のオープンモデルをリリースしたことを発表できます。まだトップには到達していませんが、トップ10に入っています。ここにいるZeta ALAチームに拍手を送りましょう。
NVIDIAが持っているGPUの1000分の1程度でNVIDIAに勝つのはかなり挑戦的ですが、それでも立派な成果だと思います。
モデルだけでなく、トップ10のこのリーダーボードで、トレーニングについてより詳細に見ることができる唯一のモデル、あるいは数少ないモデルの1つかもしれません。
私たちの生産努力のほとんどで、人々に連絡を取り、彼らがこれらのモデルをどのようにトレーニングしたかについて非常に明確ではありませんでした。
このモデルに関する私たちの焦点は、これらのモデルがどのようにトレーニングされているか、どのようなデータが必要か、そのデータをオープンソース化し、モデルを開発するために使用した他の評価トリックを示すことでもありました。
私たちのウェブサイトにブログ記事があり、これを自分で行う方法の完全なレシピが書かれています。来週には皆さんもそこにいられるでしょう。
希望的には、私たちはすでにさらに進んでいるでしょう。作業中です。
トップ10の中で、私たちはGPUが最も少ないわけではありませんが、最もGPUが少ない方だと思います。
さて、まだ私たちのことを聞いたことがない人のために説明しますと、5年前にAI研究者向けのプラットフォームを構築することから始めました。論文を整理し、新しい情報を発見し、arXivの大量の情報に追いつくためのプラットフォームです。
その結果、論文を見つけたり、整理したり、他の人と共有したり、推薦を受けたりできる、かなり広く使われているプラットフォームが出来上がりました。
それ以来、私たちは大きく進化し、現在の主な事業は、特に知識集約型のハイテク企業向けに、そのプラットフォームを独自の知識のために展開することです。
私たちは、独自で機密性の高いデータに対応したマルチテナントのRAGとエージェント型AIプラットフォーム全体を構築しました。
もしそのようなものに興味があれば、ご連絡ください。来週の年次大会で興味深い製品リリースを発表する予定ですが、まだそれについて詳しくは話しませんね。
もちろん、このウェビナーを作成し、次の研究セクションで議論する論文を選択するためにも、私たちのプラットフォームを使用しています。
先月は非常に多様なトピックが見られました。すべてを取り上げることはできませんが、AIが他の分野でも使用されているのが明確に見えます。
下の方に計算生物学、分子設計、医療画像処理が見えますね。これは基本的に、大規模な研究所やAI for Scienceからの大きなリリースのすべてです。非常に急速に成長しています。
私たちのコレクションは主にこれらの大規模言語モデルとビジョンモデルに焦点を当てていますが、AIで構築できるものについてより野心的な、より探索的な論文もいくつかあります。
では、トップ10リストに移りましょう。これは私たちのトップ10で、リストは我々のブログでも見つけることができます。もちろん、Zeta ALAの共有タグとしても。ビデオのリンクは最後に提供します。
では、詳しく見ていきましょう。この論文、Kaliには本当にワクワクしました。
Kaliは基本的に2つのアイデアの組み合わせです。1つは情報検索におけるColbertのアイデアで、単語レベルでの埋め込みを使用した単語レベルでの検索と遅延相互作用を行います。もう1つはマルチモーダルな大規模生成モデルです。
この論文は、情報検索の方法を全体的に変える可能性を約束しています。
プライベートドキュメントに対する従来の生成AIの方法は、例えばPDFがある場合、まずPDFに対してあらゆる種類の前処理ステップを行います。バイナリ形式からテキスト形式に変換し、文や小さな段落にチャンク分割します。チャンク分割の方法は本当に重要です。
そして、そのテキストに対してあらゆる種類の自然言語処理を行い、最終的にはこれらのチャンクを埋め込みます。
この論文は全く異なることを行っています。ドキュメントの画像、つまりページの実際のビットマップを視覚言語モデルに投げ込み、基本的に画像からパッチを取り、それらのパッチの視覚的埋め込みを検索インデックスに保存するだけです。
このグラフを見ると、PDFのインデックス作成の従来のアプローチと比較して、このデータセットで7秒かかるところが約1/3秒しかかからないことがわかります。
でも、どうやって検索できるのでしょうか?そこがColbertの美しさです。
基本的に、クエリは言語です。つまり単語です。これらのクエリからの単語埋め込みが、すべての視覚的埋め込みと比較されます。そして、それらは基礎となるマルチモーダルモデルによって整列されているのです。
インデックスから、これらのクエリパッチに整列された画像パッチを取得します。
明らかに、これのために微調整されていますよね?
はい、Colbertの方法で、かなり大規模な合成データセットを使用して微調整しています。
驚くべきことに、それが機能します。本当によく機能します。これを見てください。
完全に明確にするために言いますが、これは彼ら自身が構築したベンチマークです。他の人々がまだこれを複製する必要がありますが、このベンチマークでは、基本的にKaliが下の方に平均スコア81で見えます。
対して、ドキュメントごとに単一の埋め込みを行うCLIPベースのモデルは roughly 17から50くらいです。より伝統的なスパースおよび密な検索方法は65前後です。
著者の一人であるManuel Feとのインタビューを行いましたが、彼が特に誇りに思っているのは、このシフトタスクです。BGEモデルの73.2%に匹敵する結果を出していますが、このシフトタスクは完全に非視覚的なのです。
これは完全にテキストベースの検索タスクなのに、これらの画像パッチで同じ結果を得ることができるのです。
かなりエキサイティングですね。
このような architecture に関するハイプが多く、ソーシャルメディアやGitHub、あらゆる場所でライブラリが次々と登場しています。
Colbertと同じ欠点があるのは明らかですが、この段階では、埋め込みの量子化とプロダクション化に必要な最適化のレベルにはまだ達していないと思います。
正直なところ、これは最初のプロトタイプです。非常に新しいアイデアです。Manuel Feとのインタビューがすぐに公開される予定です。
さて、Kaliの次は、リストの次の論文も情報検索に関するものですね。
はい、この論文を読むのはかなり楽しかったです。Router Retrieverと呼ばれています。
前提は、エキスパートのミックスの技術を正確に使うわけではありませんが、異なる埋め込みモデルを持ち、どのエキスパートがより適しているかに応じて、単一のクエリを異なる方法でエンコードするというアイデアです。
異なるエキスパートに向かう異なるクエリの例は何ですか?
彼らはBEIRベンチマークを基礎として使用しています。そこには金融ドメイン、Wikipediaの記事、MS Marcoのようなより一般的な情報があると主張しています。
彼らが行っているのは、これらのデータセットのトレーニングセットでエキスパートを微調整することです。基本的に、各ドメインに1つのエキスパートを作成しています。Wikipediaに関するすべてのデータをグループ化して、そのドメインに1つのエキスパートを作成します。
そして、各エキスパートはパイロット埋め込みのコレクションを作成します。これらのパイロット埋め込みは、トレーニングされたデータセットの中心点のようなもので、そのエキスパートがこのドメインで本当に優れていることを示しています。
Contrieverのようなベースエンコーダでクエリをエンコードすると、このクエリが埋め込み空間のどこに位置するかが分かります。
そうです、最大のドメインオーバーラップがどこかを見ています。
例えば、金融規制について尋ねる場合、おそらくFQAエキスパートにより近くなるでしょう。そのため、ベースエンコーダと混合して、そのエキスパートを使用して埋め込みを生成します。
この表では、トレーニングされたドメインでかなり良いパフォーマンスを示していますが、興味深い洞察もいくつか見つかっています。
エキスパートを追加するだけでより良い結果につながることがわかりました。
彼らがこのエキスパートのミックスを行う方法は、トレーニングする必要があるネットワークを通過させる古典的な方法ではありません。
これはある種のバイパスで、モデルをエンコードし、持っているエキスパートの数に関係なく、このプロセスを同様にスケールできます。
彼らは、エキスパートを追加するだけで通常はより良い結果につながることを発見しました。
もちろん、モデルを取って、同じモデルですべてのデータセットで微調整することもできますが、ご存じの通り、これは非常にトリッキーで、しばしば破滅的な忘却につながります。
データセットとトレーニングサンプル数を制御することで、このモデルが効率性とこれらの例の消費の点で最高のパフォーマンスを示すことを示しています。
明らかに、このメカニズムはエンジニアリングされたものだと見ることができるため、まだギャップがあります。
最良のエキスパートまたはオラクルエキスパートへのギャップ、つまり「これが最良の埋め込みだ」と言うルーティングまでには、まだいくらかの不一致があります。
NDCGで1.7ポイントから7ポイントの差がありますが、すべてのデータセットでトレーニングしたり、MS Marcoで一般的なモデルを使用するよりもはるかに優れていることを示していると思います。
素晴らしい研究ですね。
次に移りましょう。スライドに少し問題がありますが…これはGoogle DeepMindの人々によるモデル…いや、論文ですね。
「大規模言語モデルのテスト時の計算を最適にスケーリングすることは、モデルパラメータをスケーリングするよりも効果的である可能性がある」…聞き覚えがありますね。
このGoogleの研究者グループは、約20ページの論文を書き、OpenAIの最新のStrawberryモデルがどのように機能するかを非常に詳細に説明しています。
o1モデルを分析したわけではなく、彼ら自身の実験に基づいています。
基本的に、モデルのトレーニングにどれだけ投資するか、そして推論中に出力空間の探索にどれだけ投資するかという、この全体の連続体を調査しています。
推論中に出力空間を探索する方法にはどのようなものがありますか?
もちろん、モデルに異なる出力を生成させ、それを並行して行い、最良のものを選ぶことができます。
そのためには、その出力の可能性を評価する一種の別のモデルが必要です。
これは既に一種の強化学習のようなセットアップで、生成モデルが作成しているものを評価できるモデルがあります。
そのセットアップができれば、大きく展開できます。この論文を読んで、すべての異なるバリエーションを理解する必要があります。
Chain of Thought(思考の連鎖)のようなものは、その非常に端にあるものにすぎません。パスの一種のプレフィックスを作成し、そこから生成を再開するだけです。
図を覚えていれば、これはそれらの反復の1つのようなものです。
そして、評価モデルにそこから検索を行わせることができます。Tree of Thought(思考の木)を思い出させますね。
そうですね、他のモデルの出力を批評する言語モデルがある批評モデルのようなものです。
もちろん、これをトレーニング中にも使用する評価モデルと組み合わせると、これらのモデルはある種のエンドツーエンドでかなり良くなります。
基本的に、彼らは同じような改善グラフを示しています。推論中の計算予算を増やすと、対数スケールでかなり線形な改善が得られます。
また、合理的に良い小さなベースモデルがある場合、このような種類の推論時スケーリングを使用することで、モデルが14倍大きなモデルを凌駕できることを示しています。同じ計算量が同等にトレーニングに費やされた場合と比べてです。
オープンソースにとってはかなり良いですね。
その通りです。非常に興味深い読み物です。チェックしてみてください。
これはより技術的な論文ですが、すぐにすべての大規模言語モデルに採用される可能性があると思います。
ご存じの通り、おそらくトランスフォーマーの注意メカニズムがアーキテクチャのスケーリングのボトルネックです。シーケンスの長さに対して2乗のオーダーです。
非常に賢い人々がGPUを調整して、少し助けようとしてきました。
最初のものはFlash Attentionで、既に2倍から4倍速くなりました。
次にFlash Attention 2があり、さらに2倍速くなりました。
そして今、Tri Dao…彼はディープラーニングを動かすナッツ・アンド・ボルツの天才です。Kel Wizardですね。彼らは、Flash Attention 2が最新世代のNVIDIA GPUでパイプラインを35%しか埋めていないことに気づきました。つまり、H100 GPUの65%がある種のメモリの混乱でアイドル状態だったのです。
基本的に、この Flash Attention 3 で、ハードウェアの利用率を75%まで戻すことに成功しました。説明するのに3時間くらいかかる技を使っています。付録にはGPUのマシンレベルの命令の説明が含まれています。これがどのように機能するかを説明しています。
私の予測では、1ヶ月以内にみんなが使うようになると思います。
さて、もう少し流動的な、システム指向の認知科学的な論文に移りましょうか。
はい、これはかなり野心的な論文だと思います。背後にあるアイデアが気に入りました。この論文は、エージェントシステムの自動設計と呼ばれるフレームワークを提案しています。
メタエージェントを持つ1つのアルゴリズムを実装しています。このメタエージェントは、基本的に問題を解決するエージェントのためのアイデアを見つけ、コードを実装し、そしてそのエージェントをタスクで評価しようとします。
興味深くて、このアイデアの新しい点だと思うのは、これらのモデルをすべて保存し、将来のエージェントを構築する際の参照として使用することです。
つまり、AIエンジニアであるアシスタントがいて、いくつかのエージェントを書き、そしてこれらのエージェントがどのようにパフォーマンスを発揮し、より洗練されたデザインでより洗練されたエージェントをどのように構築できるかについて、時間とともに経験を蓄積するようなものです。
ここでの議論は、すべてのAIの進歩は元々非常に手作業で特徴を抽出していたが、ここでのアナロジーは、プロンプトは非常に手作業で、タスクのために設計されているということです。
しかし、最終的に検索空間を効率的に探索する方法があれば、モデルは正しい解決策を見つけることができるはずだ、ということです。
彼らの論文には、Pythonがチューリング完全であるため、解決策を見つけるまでPythonを動作させるだけで良いというコードがあります。
実際に彼らの信用に値するのは、…これはプロンプトです。メタエージェントに提供する典型的なプロンプトが見えます。「あなたは専門の機械学習エンジニアです。このコードを書きます。LangChainのようなフレームワークを使用して、このドメインでこの問題を解決します。」入力出力の例など、実際にエージェントを作成するために行うことです。
また、「枠にとらわれずに考える」「革新的であれ」などの部分も気に入っています。
彼らがベンチマークしたのは、いくつかの数学タスクと読解タスク、そして悪名高い難しいARC(抽象的推論コーパス)タスクです。
この図では、このエージェントが反復を重ねるごとにより良いエージェントを構築していく様子が見えます。最初はこのデータセットが何についてのものかを理解しようとし、数エージェント下の方で、精度が上がるブレイクスルーがあります。
例えば、ここではChain of Thoughtが役立つことがわかります。モデルが最初に試していなかったにもかかわらずです。そして動的メモリを追加し、そのようなすべてのものを追加していきます。
このミニAIが、どのように…Voyagerやツール探索者など、そのような作品とのアナロジーも見ることができますが、そこではツールの範囲しかありませんでした。ここでは、ツールとしてエージェントを持つことができ、過去に構築したすべてのエージェントも持つことができるのです。
まあ、明らかに、これらの超マルチLLMエージェントワークフローを構築する際、手作業で書くわけではありませんよね。
別の論文やリリースで、1000のエージェントが一緒にマインクラフトの世界で一種の経済システムと社会を発展させたものがありました。それもスクリプト化されていませんでした。純粋に創発的なものでした。
これもAIエージェントの別の使用例で、最初は気づきませんでしたが、同じ著者の一部が関わっています。
これはソーシャルメディアでかなり話題になりました。ある種のフリークアウトで…「AIサイエンティスト」と呼ばれ、自身で論文を書くというものです。
しかし、聞こえるほど印象的ではありません。彼らはこれをアイデアとして提案していますが、「研究を解決した」という意味ではありません。
彼らが提案しているのは思考実験です。実験ですね。
はい、論文を生成するかなり詳細なパイプラインが見えます。
まず、明らかに「トランスフォーマーモデルがある」とか「拡散モデルがある」といったインスピレーションを与えます。
そしてモデルはそこから始め、ベースラインを改善するための新しいアイデアを見つけようとします。
実際に作業を行います。コードを書き、実験を行うのです。
まず、この追加が新規性があるかどうかをチェックします。論文をチェックするAPIにアクセスがあります。
新規性があれば、後で触れる別の部分に進みます。
価値があると判断されれば、コードを書き、コードを実行し、コードを修正し、バグを修正し、デバッグし、実験を行い、結果を得て、論文を書き、レビューに出し、そしてバグを発見し、戻ってバグを解決しようとしますが、結果がもはや…そんな感じですね。
実際、あなたの言う通りです。彼らはいくつかのケーススタディを持っていて、「コードにバグがあり、原稿にもバグがあった」ということを確認しています。
また、彼らが導入しているのは、この種のモデル論文評価者です。レビュアーは依然として研究者の一部です。
彼らは、このレビュアーが査読者1であることを発見しています。ほとんどのモデルが非常に楽観的すぎると彼らは言っています。つまり、あるべきほど厳しくないということです。査読者2ではありません。
全体的に、人間のアノテーションとかなり相関した結果のパフォーマンスを示しています。
彼らはICLR 2022のオープンレビューデータを使用し、人間が論文を受理する場合にモデルも受理するようにプロンプトを調整できることを示しています。
しかし、彼らは、このパイプライン全体で基本的にこれらのスコアを得ることができ、過去に構築した論文を使用して、さらに改善し、より良い論文を作成することができることを示しています。
実生活でやるのと似たようなものですね。
しかし、彼らが示している制限の1つは、これを初期段階のキャリアを持つ研究者と比較し、3つのかなり興味深い論文のケーススタディを行っていることです。
彼らは、「非常にナイーブで、おそらく成り立たないことから説明を引き出している」と言っています。
アイデアをブレインストーミングするのに役立つ青い部分が気に入っています。しかし、実行部分はまだそこまで達していないと言えるでしょう。
いくつかのアイデアを引き出すには良いですが、論文を書いたり、レビューしたりするのに使用することはないでしょう。
これは作業を行う論文ですが、アイデアを生み出すのは誰でしょうか?
リストに載せなかった論文ですが、先週出たばかりです。
スタンフォードで大規模な科学研究が行われ、実際に新しい研究アイデアを生成しました。
この質問「LLMは新しい研究アイデアを生成できるか?」への答えは「はい」で、NLP研究者のグループと同じくらい良いことがわかりました。
LLMは創造性において優れていましたが、実現可能性において人間の研究者に匹敵しませんでした。
大きなアイデアはありますが、前の論文がまだ実行できないかもしれないものですね。
リストの終わりに近づいています。これはGoogle DeepMindからの非常に大きな論文で、より計算科学に興味がある人、特に薬剤発見と新しいタンパク質の創造に興味がある人向けです。
Googleは Alpha Proteo というシステムを発表しました。これは Alpha Fold のフォローアップ作業の一種です。Alpha Fold を使用してトレーニングデータを生成し、これはさらに効率的なタンパク質の生成モデルです。
これもまた、生成器と批評家のセットアップの一種です。批評家は特に重要です。なぜなら、多くの分子を生成できますが、薬剤発見を本当に行うには、それらを研究室に持ち込む必要があり、そこでの失敗は非常に高価だからです。
この論文の主張は、これらのシリコン内プロトタイプを実際に研究室で機能する分子に変換する際に、非常に高い成功率を達成できるということです。
特定のタスクでは最大88%の成功率です。
この種の化合物や薬剤発見に興味がある人のために、「Generative Hierarchical Material Search」という非常にクールな論文もあります。これは同様のことを行っていますが、グラフニューラルネットワークを使用して、実際に太陽電池や他のバッテリー材料などの新しい化合物のための異なる結晶構造を生成しています。
これは言及するだけにしておきましょうか。
そうですね、LM-AI と Contextual AI による Open Model ですね。
残りの論文については、主なアイデアだけを示しましょう。
ここにあるのは、クローズドラボが専門家モデルのミックスを作成するために行ったすべての作業を複製することに他なりません。
これは、Dolma など、OLMo が使用したのと同じデータセットを使用したオープンな再現です。
実際に、この論文で気に入っているのは、最初は混合オープンではありませんでしたが、トレーニングされた方法は開かれています。
この論文は研究論文で、どのハイパーパラメータを使用するか、設計の選択などについて、彼らが行ったすべてのアブレーション研究があります。
70億の総パラメータのうち10億のアクティブパラメータを持ち、かなりパフォーマンスが良いです。
明らかにそのレンジのすべてを上回っていますが、DeepSeek や Llama 13B のような大きなモデルさえも上回っています。
この表が、専門家のアーキテクチャの混合をどのように設計するかについて彼らが導き出したすべての洞察と結論を示しています。詳細なトリックです。
これはより新奇性のある素晴らしい論文です。本当に衝撃的なことは何もありませんが、この研究者グループは基本的に、Doom のゲームエンジンとして機能するネットワークをトレーニングすることに成功しました。
AIエージェントを使用して何百万回も Doom をプレイし、そこから画像を収集し、そしてプレイヤーのアクションに条件付けられた次の画像を生成するために安定拡散モデルを微調整しました。
人間のプレイヤーは、実際の Doom エンジンとこのニューラルなものの違いを見分けることができませんでした。
最後になりましたが、これは Meta Reality Labs からの別のビジョンモデル、基盤モデルです。
人間の視覚中心のタスクのための基盤モデルです。姿勢推定、体の部分のセグメンテーション、姿勢検出、表面の法線などを想像できますね。
トリックは実際に、以前に取り上げた DINO とかなり似ています。
Meta はただ技術を見つけ、それを拡張し続けています。良質なデータ、手動でキュレーションされた高品質なフィルタリングなどです。
そして明らかに、うまくスケールできるアーキテクチャです。この… 疑わしいデータセットで事前トレーニングするために MAE エンコーダーを使用しています。
3億枚の人間の写真の独自データセットと言っていますが、どこで見つけたのかわかりませんね。Meta からでしょうか、分かりませんが。
多分オープンモデルかもしれませんね。かなり良いパフォーマンスを示しています。数字は手元にないですが、論文で確認できます。多くのタスクでほぼ最先端の性能を発揮するオープンモデルです。
さて、これでリストは終わりです。いつものように、ちょっと変わったもので締めくくりましょう。陰謀論です。あなたのお気に入りの陰謀論は何ですか? 果物に関する噂があったようですが。
ここ数週間、今日に至るまで、GPTが「いちご」の「ち」の数を数えられないという大騒ぎがインターネット上であったことに気づいたかもしれません。激しく議論されていましたね。
はい、OpenAIはそれを受け入れただけでした。私の陰謀論は、これがStrawberryモデルに至る世界最高のマーケティングキャンペーンだったということです。
でも、陰謀論に興味があるなら、週末にこれを試して、この考えを治してみようと思います。
Senseという雑誌に、チャットボットが陰謀論を信じるのをやめるよう人々を説得するのに役立つという面白い記事がありました。週末にそれが効くかどうか、私も興味があります。また、それが陰謀論を信じるのをやめさせるだけでなく、陰謀論を作り出すのも止められるかどうかも気になりますね。
さて、これで私たちの番組は終わりです。次のイベントは10月のAIの動向ではありません。それもここで行われますが、次のイベントは「Transformers at Work」です。
4回ここサイエンスパークで行ってきたので、5周年を記念して何か違うことをしようと思いました。
「Transformers at Work」は来週の金曜日ですが、カリフォルニア州バークレーからライブ配信されます。かなり素晴らしい8人の素晴らしい講演者のラインナップがあります。
THEOの論文のDalla、Cerebasのナタリア・バサ、GoogleでのLLM検索作業について話すYunaiなど、他にも多くの人がいます。
そこでパーティーを開きますので、近くにいる方はぜひお越しください。そうでない方もオンラインで視聴できます。すべてをストリーミング配信します。
金曜の夜に予定がない方は、ここでは午後10時からだと思います。
はい、でも録画されますので。録画されます。
ということで、いつものように素晴らしい週末を過ごし、発見を楽しんでください。ありがとうございました。
コメント