
32,214 文字

みなさん、ThursdAIへようこそ。私はWeights & BiasesのAIエバンジェリスト、アレックス・ヴォヴです。本日の司会を担当します。これが2024年の最後のThursdAIショーとなります。とても楽しみにしています。なぜなら、ショーの冒頭から朝方に出たばかりのオープンソースの大きなニュースがあるからです。ご存知の通り、私は速報ニュースが大好きなんです。
共同ホストのウォルフ(Raven所属)も一緒です。
「みなさん、こんにちは。クリスマスか、あるいは皆さんがお祝いする行事を楽しく過ごされたことを願っています。」
メリークリスマス、みなさん。今年はクリスマスとハヌカが同じ日でした。私の地域では今日が2本目のろうそくの日です。また、Weights & Biasesからの共同ホストのウィーブにも感謝したいと思います。Weights & Biasesには、この1年間ショーを主催させていただき感謝しています。実は3月で2周年を迎えます。このスペースで私たちと一緒にいる、カラフルなウィーブのハンドルネームの方々、ぜひフォローをお願いします。このショーがスペースやXなどで続けられているのは、この方々のおかげなのです。
今日は音声のみのフォーマットで、ビジュアルはありません。スペースでの配信に慣れている方々、そして来週や来年に車の中で聴いている方々、未来から聴いているみなさん、ThursdAIへようこそ。楽しんでいただければと思います。今年の印象的な発見について、複数のゲストの方々にお話しいただく予定です。実際、このエピソードの最後には、みなさんとの対話の時間も設けたいと思います。
ここで強調しておきたいのですが、AIにとって素晴らしい1年でした。私にとって2年目のショーとなりますが、昨年の振り返り放送を聴き直してみました。私たちが経験している加速度的な進歩は、信じられないほどのものです。昨年と比較するのは本当に難しいです。また、ショーでの昨年の予測も振り返ってみました。これについては後半で話しますが、来年の予測をするのも本当に難しいですね。ショーに参加される方々は、毎週の最新情報や最先端の情報、オープンソースの最新動向などを知りたい方々ですが、彼らが番組で予想したことは、実際に起きたことと比べるとかなり控えめなものでした。これは面白い現象です。
そして、これからさらに多くのことが起こります。番組をサポートしていただける最良の方法は、私たちのストリームを再共有することです。世界中に私たちの電波が届くよう、ぜひ協力をお願いします。ライブで聴いている方は、コメント欄の下部で参加していただき、ショーの進行中にコメントをお願いします。会話を進めていきますので、スペースのリンクを共有して、より多くの人々が見つけて参加できるようにしていただければと思います。
また、このショーは録画され、編集された後にThursdAI.newsや各種ポッドキャストプラットフォームで配信されます。AIに興味を持ち始めた友人たちへの新年のプレゼントとして、このエピソードを送っていただければ嬉しいです。面白く、洞察に富んだ内容だと感じていただけたら、ぜひシェアしてください。
ここで、友人のニストンを紹介させてください。
「やあ、ニスト」
「やあ、実はサム・オルトマンのあの発言が本当に面白かったよ」
「クリスマスはどうだった?カナダではハヌカやクリスマスを祝わないの?それとも1ヶ月前に祝うの?覚えてないんだけど」
「いや、状況によるね。数年前は付き合っていた女性がユダヤ教徒で、その前はキリスト教徒だったから、両親は実際にクリスマスツリーを飾ったりしたよ」
「なるほど、状況に応じてってことだね、いいね!」
さて、みなさん、これで始める準備が整ったと思います。ただし、会話を通じて他の方々も参加される予定です。いつものようにTL;DRフォーマットで進めていきます。話すべきことすべてに触れていきます。実は年末の週なので、あまりニュースはないだろうと思っていました。OpenAIの12日間のプレゼントは終わり、Googleの人々は休暇中で、リリースサイクルも終了しています。多くのニュースは期待していませんでしたが、実際にはたくさんあります。
まずTL;DRセクションで全体を見ていき、その後詳しく話し合います。そして番組の後半では、1年間のTL;DRを試みたいと思います。年間の振り返りをして、今年の重要な出来事を確認したいと思います。週ごとに進めていると、この1年でどれだけ多くのことが変化したのか、大きな視点を見失いがちですからね。
ニスト、ウォルフ、私がリンクを送ったので、一緒に進めていけると思います。それでは、2024年最後の週のAIニュースのTL;DRを始めましょう。今日話すすべての内容を見ていきます。
オープンソースから始めましょう。大きな速報ニュースがあります。実は2つの速報があります。まず、QuenチームがクリスマスプレゼントとしてQwen QVRをリリースしました。Qwen QUILLという300億パラメータほどのモデルを覚えていますか?今回のQwen QVRは720億パラメータの視覚推論モデルです。私たちが知る限り、これは最初で唯一のオープンソース視覚推論モデルです。Qwen Vision 7をベースにしていると思われます。
ウォルフがテストを行ったので、これについて話し合いましょう。Apache Licenseでオープンソース化されていると思います。もしかしたらQuenチームの方々も参加できるかもしれませんが、時差があるので難しいかもしれません。
また最近、Cog Agent 9Bもリリースされました。Cog Agentは、スクリーンショットからマシンを制御するための優れたツールの1つでしたが、いくつかのタスクでCloud Computeを上回る性能を示しています。これについても簡単に触れたいと思います。
そして、Good FireがEmberをリリースしました。これはメカニスティック解釈のAPIです。Golden Gate CLAを覚えていますか?これはLlamaなど他のモデル向けの同様のものです。特徴を見つけて制御できます。実際の作業はオープンソースではありませんが、AnthropicがGolden Gate CLAで行ったような特徴の発見と制御を自分で試せることは、とても素晴らしいと思います。EmberのメカニスティックインタープリテーションAPIについて話したいと思います。
そしてオープンソースの最大のニュースは、昨日そして今朝リリースされました。DeepSeek(中国のWell Brosとして知られる)がDeepSeek version 3のプレビューをリリースしました。これは巨大な6580億パラメータのモデルで、256のエキスパートを持つMoEモデルです。各パスで8つのエキスパートが活性化され、1つが共有されるので、各パスで9つのエキスパートが活性化されます。実行には8台のH200が必要な巨大なMoEモデルですが、これがオープンソースです。
これは速報ニュースボタンを押したくなるようなニュースです。おそらく後で使うことになるでしょう。このような大規模なオープンソースがClaude 3.5を複数のベンチマークでしのぎました。これは基本的に「家庭用のClaude」とも言えます。実際には誰も実行できませんが、これは驚くべきニュースです。オープンソースが技術的にGPT-4、Gemini、Claudeに追いついたのです。そして600万ドルのコストだったことが分かっています。これは本当に驚くべきことです。
今週はオープンソースから素晴らしいリリースがありましたので、ショーの大部分をこれに割きたいと思います。
次に大手企業に移りましょう。OpenAIのo3については、おそらくショーをフォローしている方々はご存知でしょう。先週のThursdAIでは、Visionについて話し、ツール使用についても触れました。そして金曜日、OpenAIの12日間のリリースの最終日に、彼らは爆弾を投下しました。基本的にAGIと呼べるものでした。OpenAIはライブストリームで、サム・オルトマンが登場し、「o3」と「o3 mini」と呼ぶ新しいモデルの初期評価をリリースすると発表しました。
これらの評価は、少なくとも私のフィードや、おそらくショーを視聴している多くの方々のフィードで、私たちの集合的な思考を完全に覆すものでした。なぜなら、誰もこのような結果を予期していなかったからです。ショーにも出演したことのあるArc AGIの社長グレッグ・コムラッドが現れ、このモデルが基本的にArc AGI賞を獲得したと発表しました。確か75%だったと思いますが、正確な数字は覚えていません。RGI半公開評価で87.5%を記録し、これは本当に驚くべき結果です。
詳細な評価には入りたくありませんが、基本的にo3は、OpenAIのo1の後継となる新しい推論モデルで、絶対的に驚異的な評価結果を示し、多くの人々にこれがAGIなのではないかと考えさせるものでした。実際、金曜日にo3について生放送で反応を示し、ショーを録画しました。それ以来、多くの人々がo3の意味について意見を述べているのを見てきました。
これは絶対に驚くべきことです。例えば、ベーグルショップに行ってベーグルを注文するとき、店員さんはo3がリリースされ、AIがほぼ実現しているという議論があることを知らずに、ただベーグルを作っています。これについても話し合う必要があります。
また、xAIからの小さなニュースもあります。年内にGrok 3をリリースすると約束していた彼らですが、今日かもしれませんが、おそらく今週ではないでしょう。xAIは追加で60億ドルを調達しました。以前も60億ドルを調達していましたので、これは追加の資金です。彼らは既に世界最大のスーパークラスターを持っていますが、これによってさらに20万台のH100を目指すことができます。これは本当に巨大なものになるでしょう。Grokとその計画についても話し合うかもしれません。
Googleのリリースについても簡単な振り返りがありますが、今週はGoogleからの新しいニュースはありません。Googleの人々は当然の休暇を取っており、今日も何も発表がないことを願っています。
今週のトピックについては、たくさん話すことがあります。1月には2つのイベントがあります。1月の第2週にサンフランシスコとシアトルでイベントがあり、私は両方に参加する予定です。とても楽しみにしています。
また、新しいコースも始まります。Googleのペイジ・ベイリーとAll Hands AIのグラハム・ヌーイグが参加する評価コースです。無料で登録できます。このリンクを追加しますので、ぜひ無料の評価コースにご参加ください。すでにプレビューを見ましたが、本当に素晴らしい内容です。イベントを含む評価に関するすべてが含まれています。
ビジョンとビデオの分野では小さな進展がありました。Klingがアップデートを受けました。このモデルはNoVo2、Sora、Hulioなどと競合しようとしているものです。ビデオモデルが多すぎて全部は覚えられませんが、Klingが1.6にアップデートされ、かなり良さそうです。
音声とオーディオの分野では、興味深いニュースがあります。以前に感情的な音声をリリースしたHume社が、Octaveを発表しました。リリースは見ていませんが、これは音声言語モデルと呼ばれる新しい用語を使用しています。30億パラメータの音声言語モデルで、その場でのパーソナライゼーションやパーソナリティ作成などの新機能を備えています。高度な音声モデルの特徴をすべて備えており、話者の声やパーソナリティを模倣し、その場で音声をコピーすることができます。わずか30億パラメータでかなり良い音質を実現していますが、オープンソースではありません。
ツール分野では、最後に言及したいのは、Open Routerの友人たちがウェブ検索グラウンディングを追加したことです。これはかなり良いですね。Open Router上のすべてのモデル(ほぼすべてのモデルが利用可能)で、EXAを通じてウェブグラウンディングを追加できるようになりました。
これが今週話し合う予定のニュースのほぼすべてですが、昨年の予測とタイムライン、年間レビューもあります。最後に話したいことがもう1つあります。クリスマスに子供のためにAIのおもちゃを買いました。これに関する私の投稿が現在大きな反響を呼んでいます。特定のおもちゃやAI、子供たちについて、多くの人々がコメントを寄せています。この話もしたいと思います。
面白いことに、私の子供はおもちゃのAI部分にあまり興味を示さないのです。ショーの最後にこの話をしたいと思います。ショーノートにも追加します。AIエバンジェリストという肩書を持ち、子供たちに可能な限りのAIを試してきた者として、これは非常に興味深い例です。
では、順序立てて進めていきましょう。ウォルフ、ニスト、約束したリンクを送りましたので、同じページで進められると思います。私が急いで説明している間に、何か見落としたことはありますか?
ウォルフ:「網羅的だと思います。DeepSeekとo3が主な話題ですね」
聴衆の皆さん、今週の重要なニュースで見落としているものはありますか?誰かが30億パラメータのパーソナライゼーションモデルについて質問していましたが、それはHumeのOctaveです。
ニスト:「また、2週間前くらいにDeepSeek 2.5のアップデートを見逃していました。1210アップデートですね。バージョン番号を間違えていましたが、そのアップデートはベンチマークで大きな意味を持っていました。すべてが5%ほど向上しました。私はBertowskiのものを試しましたが、彼は量子化を担当しています。聴衆にも参加していると思います。DeepSeekと最新のものを取得すれば、1210、つまり12月10日のものが手に入ります。私はそれを試してみましたが、とても良かったです。CPUでも実行でき、良い性能を示しました。ただし、これはバージョン3の前のことです。」
では、オープンソースの話を始めましょう。小さな話題から順に進めていき、メインの話題に移りたいと思います。まずはCog Agent 9Bから始めます。いつものように、話題に上がったものをステージの上部に追加していきます。
Cog Agentは少し前にリリースされ、これは2024年12月20日版のアップデートです。GLMをベースにした2カ国語対応のGUIエージェントです。GLMについてはしばらく話してきましたが、これはGLMの90億パラメータモデルです。これは視覚言語モデルをベースにしたエージェントで、画像認識だけでスクリーンスポット評価で85.4%を達成し、Claudeの83%を上回りました。これは画像認識に基づくコンピュータ使用において最先端のモデルです。
非常に高解像度の入力で、非常に高いスコアを達成しています。私自身は実行できていませんが、特定の中国のツールに実装されていることは知っています。ただし、実際のツールに登録してサインアップすることはできませんでした。彼らがリリースした論文は既に存在していて、これは単にその論文と90億パラメータの新しいモデルの新しい反復版のようです。
モデルはHugging Faceにもあり、記憶のための8,000トークンのコンテキスト長を持っています。ハイライトは、1120×1120ピクセルの高解像度入力を持ち、状態、計画、アクション操作などの連鎖的思考推論ステップを持っていることです。これはAnthropicのComputer Useで見たものと非常に似ています。
ニスト:「Co-VLMを覚えていますか?以前話題にしましたよね」
「はい、私のMacで前のバージョンを実行しましたが、実際にはそれほど良くありませんでした。解像度の問題が依然として存在していました。視覚言語モデルの問題は、正方形や長方形など、特定の解像度でしか訓練されていないことです。ワイドスクリーンやウルトラワイドスクリーンのコンピュータ画面を入力しても、それは圧縮されてしまい、モデルはその圧縮された情報だけで推測しなければなりません。このバージョンでそれが修正されたかどうかはわかりません。前のバージョンはそれほど良くありませんでしたが、言語モデル側は非常に優れる傾向にあります。1120×1120は大きなアップグレードですね。試してみる価値があります。18Bバージョンもあるようで、これは11Bの言語モデルと7Bのものを組み合わせたものです。実行には3090か24GBのVRAMが必要になりますね。」
これは90億パラメータのモデルで、デモアプリもあるようです。見逃していましたが、GMPCというアプリがあります。これは中国のアプリですが、GitHubにCog Agentのデモアプリもあり、これはMac上で実行できます。GradioベースのMacアプリでモデルを実行し、画面録画権限を有効にする必要があります。
ここで特に注意が必要です。AnthropicのComputer Useのような物については非常に慎重になるべきです。そちらはDockerで提供されていますが、このようなものをコンピュータで実行する際は非常に慎重になる必要があります。
ちょうど面白いDMをGoogleの誰かから受け取りました。「速報ニュースが好きだと聞いたよ、ハハ」面白くないですね、今日はやめておきましょう。
小さな話題からの続きですが、オープンソースについて、ウォルフ、これらのモデルについて詳しいですか?コメントはありますか?または聴衆の皆さん、Cog VMを試したことはありますか?Cog Agentについて教えてください。そうでなければ次に進みましょう。
TL;DRで忘れていたことがもう1つあります。少しショーのニュース的な話題からは外れますが、子供のためにAIのクリスマスのおもちゃを買いました。これに関する私の投稿が現在大きな反響を呼んでいます。特定のおもちゃやAI、子供たちについて、多くのコメントが寄せられています。この話をしたいと思います。面白いことに、私の子供はおもちゃのAI部分に興味を示さないのです。ショーの最後にこの話をできればと思います。AIエバンジェリストとして、そして子供たちに可能な限りのAIを試してきた親として、これは非常に興味深い例です。
次にオープンソースの話題として、Good FireのEmberについて話したいと思います。実は彼らを招待しようと思いましたが、リンクを送るのを忘れてしまいました。Emberは新しい企業で、メカニスティック解釈を提供しています。ニスト、聴衆に向けてメカニスティック解釈の定義を試みていただけますか?私がリンクを探している間に説明をお願いできますか?
「結局のところ、これはヨーグルトのようなものです。この例えを月に4回くらい使っていますが、大量の情報を投入して、デジタルヨーグルトのようなプールを作り、各トークンの分布を特定の熟成セクションに振り分けていきます。そして次のトークンが生成されます。モデルは考えているわけではなく、ただ熟成させているだけです。メカニスティック解釈を試みる人々は、このヨーグルトの思考を解釈しようとしているわけです。
この場合、彼らが行ったこと、少なくとも完全には公開されていませんが、Llama 3.3の2つ以上のバージョンを訓練し、レイヤーをその場で入れ替えることができるようにしました。スライダーを動かすと、一部の非検閲レイヤーが入れ替わり、これらの非検閲モデルを取得できます。幸いなことに、まだ自由な世界なので、非検閲モデルを入手できます。
レイヤーを入れ替えるので、Llama 70Bには80のレイヤーがありますが、そのスライダーで元のものを取り除き、非検閲のものに置き換えることができます。置き換える量に応じて、非検閲のレベルが変化します。これは人々がClaudeのGolden Gate CLAでも行われていると考えていたことですが、それは少し異なっていました。実際にはかなり長い論文でした。
この場合、人々は何らかの解釈を試みていますが、結局のところ、ヨーグルトを機械化しようとしているわけです。それは現状そういうものです。ただし、実際に機能します。」
私なりにGood Fireについてまとめてみましょう。Good Fireは、おそらく最初の、あるいは初めてのLlama 70Bなどのオープンソースモデル向けAPIです。Llama 3.3 70BとLlama 3.1 8Bを提供していると思います。UIを見ると、彼らはホストされたAPIを持っており、そこでは「特徴」と呼ばれるモデルの活性化のコレクションを制御できます。
特定の単語や概念を決して言わせないようにしたり、モデルに決して罵らせないようにしたり、プロンプトインジェクションを決して許可しないようにしたりできます。これは非常に興味深い特徴の1つです。彼らはこれについて研究も行っています。
基本的に、モデルの仕組みを理解し、その理解をAPIを通じて制御可能な特定のモデリングに変換しようとしています。これは非常に素晴らしいことです。スパースオートエンコーダーを使用して、モデルの活性化からこれらの特徴を抽出します。これらの特徴は、モデルの処理から現れる意味のある概念を表しています。これは非常に興味深いです。基本的に、このヨーグルトの比喩を使えば、ヨーグルトの思考を理解しようとしているわけです。
Emberは制御可能な動作のためのAPIを提供し、これらのパラメータや特徴をその場で調整できます。これは非常に素晴らしいです。また、プラットフォーム上のインターフェースでは、これらを実際に試して、その場で制御できます。例えば、Llamaモデルに常に罵らせたり、非常に人種差別的にしたり、あるいはまったく人種差別的でなくしたりできます。
彼らの研究も非常に興味深いものでした。例えば、これらを使用して他の決定木を作成する方法や、ジェイルブレイク耐性を拒否する特徴の活性化によってジェイルブレイク耐性を向上させる方法などについて研究しています。これは非常に興味深い研究で、APIとSDKを通じてアクセスできるようになったことは非常に素晴らしいことです。
基本的に、彼らはLlamaのホストされたバージョンを持っており、その脳が制御可能なコントロールで開かれているということです。これが私の理解です。これが私のEmberの説明方法です。とても素晴らしいですね。
これに興味があり、Llamaで遊んでみたい場合、これはファインチューニングを必要としません。基本的に、人々が質問しているのは、これとプロンプティングとの違いは何かということです。このモデルにプロンプトを与えて同じような動作をさせることはまだ可能です。いくつかの違いがあり、これは基本的にモデルにとってよりネイティブな方法だと理解しています。とても素晴らしいですね。これがGood Fire Emberです。
そして、メインの話題に移る時が来ました。これは今日のものです。文字通り今朝のニュースなので、この速報ニュースボタンを使わざるを得ません。今日は木曜日であれば使わなかったでしょうが、これは今朝のものなので、少なくとも1回は使用が許されるでしょう。これほど多くのリリースがあるとは予想していませんでした。
では、速報ニュースです。最もChadな中国企業と呼ばれるDeepSeek(Well BrosまたはWell Brosとしても知られる)からの速報です。DeepSeekがDeepSeek version 3のインストラクトベースバージョンをリリースしました。DeepSeekはしばらく前からあり、多く話題にしてきました。DeepSeek V3は、オープンソースLLMsとAIにおいて、これまでで最大の飛躍を示しています。
このモデルは絶対に信じられないほど素晴らしく、現在Hugging Faceでオープンソース化されています。ただし、6710億パラメータという巨大なモデルなので、ダウンロードすることはできません。比較のために、オープンソースで最大の密なLlamaモデルは405Bでした。これは5000億パラメータを超えており、境界を押し広げています。本当に上位にいます。
370億が活性化される専門家の混合で、256人の専門家がいます。反応を見ていきましょう。評価は絶対に信じられないものです。このモデルはQwen… 申し訳ありません、このモデルはLlama 405Bと複数の場所で一致し、MLU Reduxなどのいくつかの場所では上回っています。
このモデルはClaude 3.5 Sonnet(最新の3.5、3.6かどなたでも)に非常に近づき、場合によっては上回ります。いくつかの評価を見て、そしてモデルについて話しましょう。ウォルフ、ニスト、すでに何か興味深い評価を見つけましたか?
「彼らの今日の発表を見ています」
「私も見てみました。6710億パラメータという大きさについて、多くの批判があります。8ビット量子化で実行するには670GBのRAMまたはVRAMが必要になります。8台のH100を使用しても、640-650GBのRAMしか得られないので、すでに限界を超えています。H100のラックすべてを持っていても実行できません。つまり、H200に移行するか、MI300s(入手できれば)で実行する必要があります。H200sでも同じことです。
ただし、重要なのは、最終的にスケールでこれを実行し、多くの顧客にサービスを提供する場合、同時に処理される実際のパラメータは370億だけだということです。残りはメモリに保持されており、各レイヤーで動的に選択されます。つまり、Llama 70Bを実行している人々よりも実際には高速になるということです。もちろん、MoEのAV cacheの活性化に関する他の問題もありますが、ある程度のスケールになると、それらの問題は解消され、実際にはより有益になります。
人々が不満を持っているのは、ただボックスを買って時間当たり20ドルほど支払って実行できるわけではなく、それ以上のインフラを考える必要があるためです。これは非常に厄介ですが、これらの評価は本当に驚くべきものです。私は彼らのモデルを使用しており、各リリースごとの違いを見ているので、これらの結果は信じられます。
ウォルフ:「GitHubでも提供する予定です。また、Qwen QVRについても話しましょう。これはビジョンモデルなので、ビジョン分野で話すことになると思います。」
いくつかの評価について具体的に話したいと思います。このモデルは、今でも非推論モデルの中で最高とされているClaude 3.5と比較して、多くの点で一致するか上回っています。MLU Proでは非常に近い結果を示し、報告された最新のGPT-4を上回ります。MLU ProではGPT-4の75に対してClaude 78です。
GPQ diamondでは、Claudeの65に対して59.1で、Claude以外のすべてのモデルを上回ります。GPQ diamondは本当に難しいことで知られています。Math 500では他のすべてのモデルを上回り、90を達成しています。実は Math 500が何なのかわかりません…あ、AIMEの数学ですね。これは推論モデルが報告するAI競技数学です。AIMEで39%を達成し、Claudeは16%です。
ソフトウェアエンジニアリングのベンチマークであるSbench verifiedでは、Claudeの50%とGPT-4の38%に対して42%を達成しています。基本的にすべてでGPT-4を上回り、多くの点でClaudeに近づいており、場合によってはClaudeを上回っています。これは非常に印象的です。
ウォルフ、このモデルについてどう感じていますか?どんな印象を受けましたか?
「確かに、今は知能は手に入れましたが、それを実行するためのリソースが不足しています。これは家庭用のスーパーコンピュータがあれば実現できるものですが、良いことは、これはMoEであり、個々の専門家を抽出する方法があるということです。専門家の数を減らした小さなバージョンを作ることができ、それには少ないリソースで済みます。もし性能の一部を維持できれば、それは非常に興味深いものになるでしょう。
Llamaがリリースされた時を覚えていますか?特に大きなバージョンは、誰も本当に実行できませんでした。しかしコミュニティが集まり、すぐに可能になりました。このモデルも同じような流れになると予想しています。ベンチマークが非常に良く、私たちは皆これを家で実行したいと考えているからです。これはオープンなので、ダウンロードして修正できます。」
実際には、これは完全なオープンソースモデルではありません。オープンソースライセンスさえ持っていません。それについても話し合えますが、実際のライセンスは知っていますか?
「はい、モデルカードにライセンスが記載されています。非常に許容的なものですが、もちろん軍事利用などのいくつかの例外が除外されています。完全なオープンソースではないという意味で、他にもいくつかの制限があります。コードはMITライセンスですが、モデルそのものは特定の契約に同意する必要があります。」
「それでも、現在利用可能な中で最も寛容なライセンスの1つです。Qwenライセンスのようなユーザー数の制限などはありません。」
「その通りです。現時点で最良のものであり、コミュニティがより多くのシステムで動作させることができるようになるのを待つだけです。」
ここで注目すべき点がいくつかあります。大手研究所と比較して、DeepSeekはH200ではなくH800を2台使用してこれを訓練しました。これは大手研究所が持っているものの1桁少ない規模です。a16zの推定によると、このモデルの訓練コストは約600万ドルだったようです。
2024年末の時点で適切に言えば、フロンティアモデル、フロンティアサイズのモデルの価格は、実行が難しいなどの問題はありますが、混合精度で約600万ドルです。もし DeepSeekチームのような非常に才能のあるチームがあれば可能です。8兆トークンで訓練され、これは現在我々が持っている最も強力なオープンソースベースモデルです。インストラクトも含めて2つのバージョンがあります。ベースバージョンとインストラクトバージョンです。
ニスト:「私もモデル自体を試してみました。制限されていないか、devopsが機能している場合、Sonnetは依然として最高です。それを言っておく必要があります。非常に難しいマージン問題などで正解を得ました。Sonnetが正しく機能している時は、実際により良い情報を提供でき、適切なプロンプトを使えばより多くのコードも生成できます。しかし、これは家庭用のSonnetに最も近いものであり、待ったり試行錯誤したりする必要はありません。単に正しい答えを推論するだけです。速度についても話し合えます。複雑な質問の速度も…」
はい、速度と価格について話しましょう。なぜなら、今やオープンソースとホストされたバージョンの間を行き来しているからです。確かに、これはオープンソースまたはウォルフが言ったようにオープンウェイトです。評価は信じられないほど素晴らしく、評価についてはさらに話し合うことができます。
これはAdora’s Benchmark Resultで2番目のモデルです。Either BenchmarkでClaudeを上回り、Life Code Benchでは推論ではない上位モデルの1つとなっています。人々が実行した他の多くの確認でも、複数のベンチマークで最高の非推論LLMであることが示されています。
しかし、このモデルをダウンロードするだけで700GBが必要です。昨日調査した時、Hugging Faceを見ると、ダウンロード数はゼロでした。朝だったからです。ショーの振り返りをする頃には、ダウンロードに時間がかかりすぎて、まだゼロのままでした。現在どれくらいになっているか気になります。
「おそらく、まだログに記録されていないだけだと思います。かなりの人々がダウンロードしたはずです。もう1つ重要なことは、まだダウンロードしないようにということです。今朝確認していませんが、昨日の時点では、このアーキテクチャを実行するためのTransformersライブラリやLlama CPPへの実装がありませんでした。人々はこれがSwitchTransformer version 2だと思いましたが、そうではありません。ルーティングは少し異なり、何かがcenteroidからsigmoidに変更されています。アーキテクチャは、Transformersへの実際のプルリクエストがプッシュされ、マージされるのを待つ必要があるほど、十分に異なっています。
モデリングコードは2.5と同様で、レイヤーごとに2+2+6の専門家があり、専門家プールもありますが、これは第2世代のものです。単なるMoEではありません。多くの専門家がいます。」
「そうですね、専門家のプールがあり、各レイヤーで静的な2つが選択され、さらに4つか6つが追加されます。これらの4つか6つは、バージョン2では50程度のプールから動的に選択されます。これは第2世代、次世代のアーキテクチャで、DeepSeekだけが知っているものです。
このため、このモデルのフランケンシュタインを作ることは実際には難しいです。レイヤーはプールから動的に選択されるからです。以前のモデルでは、レイヤーを複製して進めるだけでフランケンシュタインを作ることができました。」
「かなり素晴らしいですね。経済性はスケールでのみ機能します。おそらく顧客にサービスを提供するには32のGPUが必要になり、多くの人々がこれに不満を持つでしょう。しかし、現状はそういうものです。」
また、いくつか強調したい点があります。まず、DeepSeekは明らかにこれを彼らのAPI上でホストしています。彼らのAPIはバージョン管理されていないので、以前にDeepSeekを使用していた人は今V3を使用しており、基本的に2月まで以前の価格で固定されています。2月8日以降、価格は上がりますが、それでもかなり安いままです。
現在は100万トークンあたり14セントで、20セントから27セントに上がる予定です。出力は28セントから1.10ドルになります。このモデルを提供するにはかなりのコストがかかるので、現在は宣伝期間というわけです。
興味深いことに、彼らはバージョン管理されたAPIを持っていません。彼らは量子化企業であり、製品企業ではないため、APIを保護し、以前のバージョンを管理することは彼らの得意分野ではありません。彼らは単に本番環境でモデルを置き換え、それを実行します。
Weights & Biasesに感謝します。これが私たちが可観測性ツールを持つ理由です。ログやトレースを何らかのツールで本番環境で取っていないと、APIが背後で変更されていることをどうやって知ることができるでしょうか。これがツールを持つ理由です。
ただし、キャッシュの価格は依然としてかなり適正になる予定です。彼らは依然としてキャッシュを持っており、プロンプトキャッシングをリリースした最初のAPIの1つです。価格はおそらくClaudeと同程度か、少し安くなるでしょう。
「はい、Claudeよりも少し安いかもしれません。」
現在、Open Routerでの平均価格は、入力が100万トークンあたり14セント、出力が100万トークンあたり28セントです。興味深いことに、彼らのAPIでは、コンテキストは66kに制限され、出力は8kに制限されています。彼らはそれ以上のことができることは分かっていますが、本当にそれが必要な場合は自分でホストする必要があります。
DeepSeekについて2時間話す前に、最後に1つ。以前のバージョンでも、Fill in the middleや、例えばLlama Vimプラグインでツールとして使用する場合(なぜ使用するのか分かりませんが、私は使用しています)、コードの中間部分を確実に埋めるのに最適です。「ここに追加して」と言えば、他の余計なことを言わずに単にそれを実行します。DeepSeek Coderは、しばらくの間、最高のオープンソースコーディングモデルの1つでした。
次に進む前に1つ指摘したいことがあります。ウォルフ、この件について最後に何か考えはありますか?DeepSeekが指摘している点で、R1 DeepSeek、つまり推論や思考のようなモデルを覚えていれば、このモデルのために推論モデルの蒸留を使用したということです。Chain of Thoughtの蒸留と合成データの作成を使用してこのモデルのデータを作成しました。これは論文に記載されており、彼らのスレッドでも明確に言及されています。
彼らだけでなく、OpenAIや他の企業もこれを行っているのは間違いありません。これは私たち全員が経験している雪だるま効果の一部だと思います。Kathyが少し前に指摘したように、これらの大きなモデルに到達し、Llama 405Bが70Bに、そして9Bに蒸留されています。
DeepSeekは論文で特に指摘していましたが、なぜか今は読み込めません。しかし、推論モデルからの蒸留は、より長い思考と特に多くの合成データを作成できることから、多くの専門家や技術的なデータとともに、秘密のレシピの1つでした。もしこれに興味があれば、彼らが論文で共有している技術的な詳細の量は本当に信じられないほどです。
これを締めくくりましょう。オープンソースで最高のモデルを手に入れたことは非常に刺激的です。ウォルフ、DeepSeekについて最後に何か考えはありますか?基本的にどんなマシンでも実行できないという事実以外に?
「私たちはこれらの効果が浸透するのを少し待つ必要があります。そうすれば、私たちのローカルシステムでも大きな恩恵を受けることができるでしょう。これは公平なことであり、これまでも何度も見てきました。ローカルで完全に実行できないものを手に入れ、コミュニティがそれを取り上げて最適化し、蒸留していきます。これは間違いなく、与え続けるギフトになるでしょう。」
「そうですね。」
いくつかのベンチマークを手短に紹介しましょう。ベンチマークはそれほど興味深くありませんが、human evalで65%、MBPPで75%、life code benchで15%に対して19%など、DeepSeekやLlamaベースは印象的なモデルです。これを静かにリリースしたWell Brosに敬意を表したいと思います。
Qwen QVRについても手短に触れましょう。Qwenの友人たちも同様にモデルをリリースし、何かの興味深いプレビューも出しています。ウォルフ、あなたがこのテストを行ったと思いますが、そうですよね?
「はい、すでに2回ベンチマークを実行しており、まだ実行中です。これが何なのか、そして彼らが何をリリースしたのかを説明しましょうか?それとも私から始めましょうか?」
「ええ、お願いします。これはQwenビジョンモデルと70の組み合わせで、72Bのビジョンモデル、マルチモーダルです。ビジョンと推論コンポーネントを持っています。QVQ、または発音の仕方は分かりませんが、同じ推論がビジョンレイヤーと組み合わさっています。基本モデルは72Bのプレビューモデルで、言語モデル部分が約60B、残りがビジョン部分です。」
はい、私もこれをショーの上部に追加しました。また、いくつかの評価も行いました。興味深いことに、このモデルは画像について推論し、その推論を見るのは本当に楽しいです。O1とO3と比較すると、ここでの推論は明確で、すべての推論過程を追うことができます。
Gemini Thinking推論モデルやO1推論モデルと比較して、いくつかの点で優れた成果を上げているのを見ました。以前のQwen Quill、これは推論モデルでしたが、マルチモーダルではなく、テキストベースの推論モデルでした。これはビジョン推論モデルでもあり、画像について考えることができます。
ウォルフ、あなたの比較はどうでしたか?何を実行し、どのような結果が得られましたか?
「MMLUプロのコンピュータサイエンスベンチマークだけを実行していました。次の部分だけです。48GB VRAMのシステムでベンチマークを実行できるように、モデルを量子化して縮小しました。XCL2フォーマットで1ワイドあたり0.65ビットのモデルです。分数ビットがあるため、完全なモデルのパフォーマンスではありませんが、私のシステムで実行できる範囲です。
70Bサイズのモデルのパフォーマンスで、ベンチマークで70ポイントを獲得しました。これは、Quillモデルが推論時に達成したパフォーマンスほど良くありません。72Bまたは60Bの言語モデルを持つ大きなモデルになったにもかかわらず、小さいモデルと同じパフォーマンスを達成できなかったのは興味深いですね。
しかし、VHELの機能を持っているのは素晴らしいですし、誰かがチャットに揚げ鶏と犬の写真を投稿していました。それをモデルに通して結果を投稿しましたが、推論は画面いっぱいだったので、その部分は投稿しませんでした。揚げ鶏と犬(チャットにある犬)を区別できるのは興味深いですね。」
はい、ショーノートにも追加しておきましょう。これは現在ページのトップにピン留めされています。基本的に揚げ鶏の入ったバケツと、ゴールデンラブラドゥードルかな?複数の写真で非常によく似ていて、「機械学習を混乱させる方法」というタイトルがついています。
「はい、その場合はうまく処理できました。Claudeでは試していませんが、試してみる予定です。これは興味深いテストですが、モデルがこれらのことについてどれだけよく推論できるかはわかりません。これは単なる認識であり、解くべきなぞなぞではありません。」
「まとめると、実際には少し失望しています。小さいモデルを上回ることができなかったからです。このテストで新記録を達成することを期待していました。ビジュアル部分についてはさらにテストを行う必要があります。なぜなら、これは視覚部分を備えた推論モデルを組み合わせた初めてのモデルであり、それ自体が新しい成果だからです。それは非常に嬉しいことです。」
「その通りです。これはまだプレビューに過ぎないので、Qwenの人々が言うように、これは研究プレビューであり、まだ制限があります。」
「それは、いわゆる論争を思い出させます。Apache 2ライセンスでリリースされ、後からQwenライセンスに再ライセンスされました。おそらく間違いだったのかもしれませんが、古いライセンスでダウンロードした場合、もちろんライセンスを変更することはできません。」
「アップロードしたものはApacheライセンスを持っており、他の量子化もあります。ApacheライセンスとQwenライセンスのどちらかを確認する必要があります。これは少し奇妙な動きでした。より制限的なライセンスは好ましくありませんが、それが彼らに必要なことであれば、モデルを入手できる限りは良いでしょう。」
「他方では、通常モデルを開放する方向を好みます。逆方向ではなく。」
そうですね。ところで、地下鉄の例やメトロの例を見つけられる人はいますか。これが最も印象的でした。ニューヨークの地下鉄の中で写真を撮って、次の駅で降りるべきかと質問したところ、チャイナータウンのコクテールピーナッツの話題になりました。
これは簡単に説明すると、コクテールピーナッツはPythonアプリを素晴らしいものにしてくれます。Pythonアプリのパッケージングやユーザーインターフェース、環境構築のための最高のツールです。Pythonを知らなくても、クールなPythonアプリをダウンロードしたい場合はピンコンピューターが役立ちます。コクテールピーナッツはそのアプリの作者です。
QVQを試してみましたが、いくつかの点で非常に印象的でした。ただし、まだ初期段階だということも覚えておく必要があります。これはQwen 2.5ではなく、少し古いQwen 2です。決して悪いモデルではありませんでしたが。
誰かが地下鉄でデモを依頼し、内部の様子を読み上げてもらいました。実際にとてもクールでした。まず地下鉄の車内は空いていて、少し珍しい状況ですが、深夜か閑散とした時間帯かもしれません。座席はオレンジと黄色で、乗客が掴まるためのポールが車内の中央を走っています。床はきれいで、車内にはさまざまな広告や看板が掲示されています。看板を見ると、中国語のテキストが書かれた「NYC Care」があり、これはニューヨーク市の医療サービスを宣伝しているもので、中国系コミュニティを対象としているかもしれません。また、緑色の丸の中に数字の6が入った「Canal Street」の看板があり、これは6番線でCanal Street駅に近づいていることを示しています。チャイナタウンがマンハッタンのCanal Street付近にあることは知っているので、ここで降りるのが良いかもしれませんが、目的地を間違えないよう確認が必要です。ニューヨーク市の地下鉄路線について考えてみましょう。6番線はブロンクスのPelham Bay ParkからマンハッタンのBrooklyn Bridge City Hallまで走っています。6番線でマンハッタン方面に向かっていて、看板にCanal Streetとあるのでチャイナタウンにいることになり、正しい方向に進んでいるようです。
これは素晴らしいですよね?一人称視点で書かれていて、すべての計算をして…本当にクレイジーです。
QwenのQVQを試してみてください。その推論の過程が非常に興味深いです。私が見つけた新しい視覚的ななぞなぞを与えてみました。カーブした道路を走るスクールバスに3人の子供が座っているというもので、質問はバスがどちら向きに進んでいるかというものです。答えは左向きで、その理由はバスのドアが見えないことと運転手が見えないことです。つまり、ドアが反対側にあるということは、アメリカではバスは道路の右側を走るので、左に向かっているということになります。これをGeminiに与えたところ、すぐには理解できず、アメリカのバスだという追加の文脈を与えた後で理解しました。このQwenの推論モデルは非常に興味深いですね。ちなみにo1はすぐに答えを出しましたが、これはおそらくトレーニングデータにこの特定の問題が含まれていたからだと思います。
さて、他にもたくさん話題があるので先に進みましょう。1時間経過しましたが、まだ振り返りができていないので1時間を超えそうです。
オープンソースの大きなニュースとして、年末にQwen QVQとDeepSeekという2つの大きなモデルが登場しました。ここで少しリセットしましょう。
現在100人以上のリスナーがいるThursdAIという週刊AIショーをご視聴いただいています。いつものように中盤で「今週のバズ」というコーナーがありますが、今回は手短に進めたいと思います。他の方からのコメントもありますが、このショーはW&Bビザがスポンサーとなっています。明らかにW&Bビザによって宣伝されているこのショーですが、四角いco-hostとして表示されているWeightsとBiasesは完全なLLMの観測可能性を持つツールです。毎週ThursdAIの中盤で「今週のバズ」という小さなコーナーを設けて、Weights and Biasesに関する最新情報をお届けしています。
では「今週のバズ」コーナーに入りましょう。ここではW&Bの最新情報をお届けします。今回は1月に起こる3つのことについての未来予想図をお伝えします。その1つ目を今スペースのトップに追加しますが、皆さんはLLM評価に関する新しい無料コースにいち早く招待される方々です。
先ほどお話ししたように、WeaveはLLMの観測可能性と評価のためのツールです。ThursdAIで話題に上がることとの関連性を大切にしています。例えば、DeepSeekのAPIを本番環境で使用していて、DeepSeekが裏で予告なくAPIを変更し、あるモデルを期待していたのに別のモデルに変わって、なぜかパフォーマンスが向上したような場合、それをどうやって知ることができるでしょうか。また、会社の開発者がDeepSeekのAPIを追加した後で価格が変更された場合、それをどうやって知ることができるでしょうか。これらはすべて観測可能性によって知ることができ、Weaveを使えば実現できます。
Weaveは無料で使い始められるツールで、Pythonコード3行で始められます。実際には1行で始めることができます。私たちはこのツールを誇りに思っています。昨年から信じられないほどの進化を遂げています。正直なところ、私が入社した時にはこれがなかったのですが、それ以来このツールには驚くべき革新が続いています。ThursdAIのビデオバージョンでもずっと紹介してきました。
このツールを開発する中で、多くの企業がWeights and Biasesに評価のニーズや評価方法について相談してきました。私たちも様々な評価方法を検討しており、評価に関して学んだすべてを無料コースとして公開します。このコースへの参加を皆さんにお勧めします。ページのトップに追加しましたが、GoogleのPaige BaileyとAll Hands AIのGraham Neubigと共同で行う評価に関するコースです。私も参加者として関わった素晴らしいコースです。繰り返しになりますが、無料で受講できます。今すぐ事前登録が可能です。
皆さんが最初の参加者となります。まだコースは公開されていませんが、以前の高度なRAGアプリに関するコースには信じられないほど多くの人が事前登録し、好評でした。今回のコースも必ず楽しんでいただけると確信しています。Weights and Biases Academyで無料で提供しています。
ちょっと面白い話があります。あるイベントで誰かが私を見つけて「Weights and Biasesの人ですよね」と声をかけてきました。「そうです」と答えると、「コース会社ですよね」と。「どういう意味ですか」と聞くと、「無料コースを提供している会社ですよね」と。「はい、でも機械学習の実験と観測可能性に関する数十億ドル規模のビジネスも展開しています」と説明しました。誰かが私を見つけて、私たちがコースだけを提供していると思っていたのは本当に面白かったです。
無料のコースプラットフォームも提供していますが、これが新しい upcoming コースです。ぜひ試してみて、事前登録してください。1月に公開予定です。
他に2つお知らせしたいことがあります。1つは1月11日土曜日にサンフランシスコで、もう1つは1月13日月曜日にシアトルで開催される対面ミートアップです。両方とも私が参加する予定で、評価に焦点を当てたものになります。
土曜日のイベントはビジネスやスタートアップのための実践的な評価がテーマです。W&Bのオフィスに来ていただき、一緒に評価についてブレインストーミングを行います。賞品や競争はないハックデーのような形式です。ハッカソンではありません。一緒に評価についてブレインストーミングを行い、評価作業に取り組んでいただけます。
シアトルでは1月13日月曜日にTiners AIと共同でワークショップを開催します。参加をお待ちしています。詳細は後でThursdAIで投稿しますので、私のフィードをフォローしていただければと思います。
これが今週のバズの更新情報です。他に特に申し上げることはありませんが、今年1年間ショーを可能にしてくれたWeights and Biasesに、そしてショーを共同開催してくれたWeaveに大きな感謝を申し上げたいと思います。
さて、先週金曜日の大きなニュースであるo3の話に移りたいと思います。o3についてはリリース時に話しましたが、改めてこのスペースに戻ってきた今、金曜日のリリースがいかに凄まじいものだったか、少し時間をとって振り返ってみたいと思います。スペースにいる皆さん、o3がリリースされた後の印象をemojiリアクションで表現していただけますか?
AGIかそうでないかの瞬間として、o3がAGIに近づいていると思う人は👍を、そうでないと思う人は👎をお願いします。私は「イエス」だと思いますが、スペースの皆さんからemojiリアクションを見てみたいです。👍が見えてきましたね。Boski Gさんからも👍が来ています。
ショーに今参加した方々のために、すべてのニュースをこのショーだけから得ている人のために、簡単に振り返ってみましょう。金曜日、OpenAIの12日間のリリースの最終日に、OpenAIは大きな発表をすると約束し、実行しました。新しいフロンティア推論モデルo3の評価を発表したのです。
o2という名前を使わなかった理由は、ロンドンのTelicaWolという会社とのブランド名「o2」をめぐる法的な争いを避けるためです。Alto Arena等の件で法的な争いを避けたかったので、o2をスキップしてo3と呼ぶことにしました。能力の飛躍的な向上を考えると、次の2世代分のモデルと言えるかもしれません。
なぜなら、推論フロンティアモデルの次世代に期待される評価や能力を完全に超えてしまったからです。o1は今年10月に発表され、数ヶ月前にアクセスできるようになりました。o1 Proは12日間のOpenAIリリースの2週間前にプレビューを終了したばかりです。o1は12日間のOpenAIリリースの初めにプレビューを終了し、その最後にo3が発表されました。
これら2つのモデル間の違いは、まさに途方もないものでした。3ヶ月という期間で、OpenAIは評価において驚異的な飛躍を遂げました。o1のリリース時のハイライトは、10月のAIME(競技数学)でした。これはLLMが次のトークン予測で苦手とする分野です。QVQで話したような推論モデル、つまりテスト時計算やINF時計算を行うモデルの方が競技数学は得意です。
o1プレビューはAIME 2024で56.7%のスコアを記録しました。o1がプレビューを終了した時、OpenAIはo1が83%を達成したと発表しました。そしてo3をプレビューした時、この競技数学のスコアは事実上飽和状態となり、96.7%を記録しました。つまり、100問中1~2問しか間違えなかったということです。これは本当に信じられないほど驚異的です。
GPQ Diamondについて。GPQ Diamondは知識に関するベンチマークの中でも最も難しいものの1つかもしれません。オープンソースLLMでもこれについて話しています。必ずしも推論だけではなく、知識も含めた推論です。GPQAはGoogle Proof Q&Aの略で、PhD レベルの科学的質問です。この質問の分野の専門家であるPhD、つまり大学でその分野に一生を捧げたPhD保持者が、その質問のトピックの専門家として平均85%のスコアを出します。o1プレビューは78%でした。興味深いことに、o1は実はo1プレビューよりも少し低いスコアでした。そしてo3は87.7%を達成しました。
o3は、質問のトピックの専門家であるPhDのベンチマークを上回ったのです。私の興奮と驚きと衝撃が、マイクを通してできる限り伝わることを願っています。なぜなら、これはAIが特定の知識分野で突破し、追い抜いた瞬間だからです。
Wolfから:「まさにこれこそが、AGIが経済的に実現可能な人間の仕事ができるようになるということを意味しているのではないでしょうか。つまり、その分野の専門家レベルに達するということです。その意味で、この難しいベンチマークやその他のベンチマークでAGIを達成したと言えます。単独でAGIとは呼べないかもしれませんが、明らかに正しい方向に向かっており、エージェントなどと組み合わせることで多くのことが達成できると思います。」
GPQ Diamondは本当に驚くべきものです。Nistさん、次の話題に移る前にコメントはありますか?その後、この全体の意味について話し合いましょう。
「AERとGPQ Diamondは、人々のバイブチェック(直感的な評価)に最も近い2つのベンチマークだと私はずっと言ってきました。モデルのバイブチェックは非常に重要で、多くのベンチマークが示すよりも正確な場合が多いのです。
それはさておき、平均的な人間の労働者と同じくらい賢いLLMを作れるという仮説を証明するためには、コントロールも必要で、人々が批判することもできます。それが私がこれからしようとすることです。
結局のところ、GPQ Diamondがどれだけ難しくても、それは大学院レベルの複数ステップの質問です。私が行うマーシャンレールガンランチャーのような問題ですが、より化学や他の形式的な大学院の内容に関するものです。しかし最終的には、ABCDの中から正しい答えを選ぶだけです。
十分な時間をかけて推論を重ねれば、小さなモデルでも可能かもしれません。結局はABCDの中から選ぶだけで、十分な推論を重ねれば到達できるかもしれません。
私は、これが発電所からの不良レポートや多くの問題が発生して再構築が必要な場合など、実際の良い指標になっているかどうか懸念しています。今日のモデルはまだ、その建設計画を立てるほど十分ではないと思います。」
続けましょう。私もその通りだと思います。複数選択の特定の問題は必ずしも代表的ではないかもしれませんが、他にもありますからね。SWE Bench Verifiedでは、私たちがソフトウェアエンジニアリングの課題をモデルが実際に解決できるかどうかを確認するための一種の直感チェックとして注目してきました。これは実世界のシナリオにおけるGitHubの課題のコレクションで、モデルが解決できるかどうかを検証するものです。
これはSWE Bench Verifiedで見た中で最高スコアの71.7%であり、前のモデルからの最大の飛躍でした。o1の48.94%からo3の71.7%へと、48.9%から71.7%という驚異的な飛躍を遂げました。つまり、SWE Bench Verifiedの実世界のソフトウェアエンジニアリングタスクの70%を解決したことになります。SWE Benchのより難しいバージョンでこれを達成したのです。
また、競技プログラミングのCode Forces ESでも、27,000…申し訳ありません、2,727点というNeiloスコアで、o1の1,800点と比べて、これも最先端の成果です。これらの指標はすべて、絶対的な最先端の成果です。これらの指標で近づくモデルは他にありません。
近づけるのは、モデルではなくパイプラインだけです。例えば、これまで話してきたニューラルサーチフォージのように、競技数学の答えを出すことができます。より長い思考時間、より長い処理時間をかけることで、モンテカルロツリー探索を使ってLLMでアルゴリズム的な探索もできます。パイプラインでもできますが、これは拡張された推論を行うモデルです。
モデルとパイプラインの境界線は非常に曖昧です。なぜなら、これは推論を行うモデルだからです。しかし、彼らはこれをモンテカルロツリー探索では行っていません。MCTSではありません。これは、単にスケールアップされたRL推論モデルで行っています。彼らもこれを確認しています。自己回帰モデルを使用しているのです。
これがAGIかどうかは別の問題です。今日の情報から見ると…私はその情報にアクセスできないかもしれませんが、今日の情報によると、MicrosoftとOpenAIには特定の合意があるようです。私の記憶が正しければ、おそらく皆さんも訂正してくださると思いますが、OpenAIがMicrosoftに拘束されなくなるのは、AIを達成した後だということですよね。
The Informationによれば、数十億ドル規模の法的拘束力のある契約で、AGIの定義が非常に具体的に定められているとのことです。その定義によれば、非常に具体的で達成不可能なもので、まだそこには到達していないとのことです。つまり、o3によってAGIは達成されていないということになります。非常に興味深いですね。
他にも触れたいことがありますが、今まで話した内容について、あるいはコメントにあった内容について何かコメントはありますか?
「今は手元に資料がありませんが、MicrosoftとOpenAIの間で技術的な共有に関する合意があり、AGIを達成した時点でその共有義務が終了するというものだったと思います。
また、最初は彼らの推論モデルがパイプラインなのか、単なるLLMではないのではないかと批判的でした。しかし、彼らは繰り返し、これは単なるLLM、単なるモデルだと言っています。もし彼らの言葉を信じるなら、私たち自身で確認することができます。見たところ、このほぼ魔法のようなことをすべて行っているのは、まだ単なる1つのモデルのようです。」
2つあります。大きなものと小さなものです。常にそうでした。MCTSなどは良くないと思います。常に少なくとも2つのモデルがありました。単なる1つのモデルではありませんでした。彼らには1つの大きな検閲されていないモデルと、その推論ステップを実際に行う小さなLLMがあります。
これは決して1つのモデルではありませんでした。「でも、私たちユーザーにとってのo3とo1は1つのモデルです。オーグメンテーションは起こりますが、私たちには見えませんし、それを学習することもできません。それはモデルの一部ではありますが。」
「常に複数のモデルがありました。Sam Altmanも言っていましたが、彼らには検閲されていないモデルと、評価を行い、物事を注入し、全体を再起動する小さなモデルがあります。それはより大きなエコシステムですが…」
はい、これについて正確にしておきましょう。o1がリリースされた時、私はOpenAIの人々に直接質問し、これはモデルのパイプラインではなく、パイプラインという意味でのパイプラインでもないと答えられました。また、RunやOpenAIの他の人々からも確認がありました。
次の話題に移りましょう。Frontier Mathについて覚えていますか?数ヶ月前にEpoch AIがリリースした非常に難しいベンチマークです。リリース時点で、どのLLMも2%しか達成できていませんでした。
リリース時、彼らは「Frontier Mathの登場です!GSM8Kなどのベンチマーク数学が飽和状態になったため、次のフロンティアとなる評価として、非常に難しい数学を導入します。しばらくはこれで持ちこたえられるでしょう。現時点で最高のLLMでもForontier Mathの問題の2%しか解けていません」と発表しました。
その後、多くの人々がFrontier Mathの難しさについて言及し、数学オリンピックの問題のような挑戦的な問題だと話題になりました。これらは単なる選択問題ではなく、証明が必要な検証可能な数学の問題です。しかしo3はFrontier Mathの25%を解決しました。
Nomから―彼は基本的に推論モデルの中心的な研究者の一人で、過去2年間の功績をRunに認められています―「これが私が最も興奮している結果です。LLMはある意味で愚かですが、Frontier Mathのような評価を飽和させることは、特定の分野でAIが人間の最高知能を超えることを示唆するかもしれません。それが起こるとき、科学研究の広範な加速が見られるかもしれません」という発言がありました。
これは特に私の頭を爆発させました。ちなみにo3に加えて、最後に触れたいのがo3 miniです。多くの人がo3とその評価に注目する中、私はo3 miniに注目しました。なぜなら、o3 miniの評価も驚くべきものだったからです。
OpenAIは1月末までにo3 miniをリリースする予定で、現在私たちがアクセスできるo1よりもはるかに高速で安価になると発表しました。そして、ほとんどのベンチマークでo3 miniはo1を上回るとのことです。
次のフロンティアモデルが前のフロンティアモデルを大きく上回っただけでなく、わずか3ヶ月でそれを達成したということに注目してください。1年や2年ではなく、以前のように3ヶ月後です。OpenAIは前例のない形で能力を飛躍させており、スケーリング則の限界も見えていません。推論の面でさらに改善するトリックもたくさんありそうです。
3ヶ月後に新しいモデルが前のモデルを大きく上回っただけでなく、次の蒸留された小さなモデルであるo3 miniも、ほとんどの能力で前のトップモデルと同等のレベルに達しています。実際、o3 miniは3段階の推論努力設定を受け入れ、開発者は低・中・高の推論努力を選択できます。高い推論努力設定では、複数のベンチマークでo1を上回りながら、はるかに安価で高速です。
次の推論モデルは非常に高性能になり、推論の次の主力モデルはo3 miniになります。これは現在のo1を上回り、1ヶ月以内に実現します。これは能力の純粋な飛躍という意味で、私にとって絶対的に驚くべきことでした。
現在、コーディングにおいてo1は絶対的に素晴らしいのですが、遅いため、多くの人がコーディングに使用していません。遅すぎるのです。
LDJをステージに迎えましょう。o3についてほぼすべて話しましたが、あなたの考えも聞かせてください。その後、Wolfからも。
「はい、私も多くの人も驚きました。o3のコストに関する誤解について触れましたか?」
いいえ、コストについて話しましょう。
「はい、いくつかの誤解があったと思います。人々はARCの評価で特定のタスクに2,000ドルかかったと見て…しかし、実際には1つのタスクに1,000回以上の試行を行ったために、そのような高額になったのです。実際にARCのために記録されたトークンの使用量とコストを分解すると、o1と同じ100万トークンあたり60ドルになります。ARCの数字が正しければ、o3は実際にo1と同じトークンあたりのコストということになります。」
wow、これは知りませんでした。素晴らしいですね!
「ただし、小さな注意点として、Chain of Thoughtでトークンを2倍や3倍使用する場合、同じ質問に対してo3はo1の2倍や3倍のコストがかかる可能性があります。」
さて皆さん、o3についてはこれくらいにしましょう。o3はARCを突破し、これは半プライベートの評価における驚異的な成果です。
大企業からの他の大きなニュースとしては、xAIがBlackRock、Fidelityなどから60億ドルのシリーズCを調達しました。CEOが出資者リストの8番目にいるのは面白いですね。基本的に彼らは200,000台のH100の総容量を持つスーパークラスターに向けて着々と進んでおり、これらはすべてメンフィスの1つのスーパークラスターに集約される予定です。これは本当に驚くべきことです。
はい、これが大企業のまとめです。残りの話題についても少し時間があります。Wolfどうぞ。
「コメントにもありましたが、Googleも独自の推論モデルを持っています。先週も話題に出ましたが、o1やo3が話題を独占していて、Googleが提供しているものについてはあまり話題になっていないのが興味深いです。APIのレート制限があって自分でベンチマークを実行できていませんが、なぜかGoogleのこの分野での取り組みについてあまり話題になっていません。」
これについては、リリース時に少し触れました。覚えていますか?ショーの生放送中に私がいくつか評価を行い、私にとってGemini Thinkingのハイライトは、その速さでした。私がよく実行する Simple Benchの質問のサブセットで、答えた質問の半分でo1と同等のレベルでした。それを見るのは非常に興味深かったのですが、その処理速度は驚異的でした。
先週のショーで3段階の推論努力の比較を示し、その翌日にThinkingがリリースされました。比較してみると、Googleの速度はo1よりもはるかに速く、o1 miniよりも確実に速いと思います。GoogleもThinkingを重視していくでしょう。OpenAIにこの分野を長く独占させることはないでしょう。
Googleは実験的なモデルをたくさんリリースしています。多すぎるのかもしれません。常に新しいものを投入していて、それらについての情報が少ないので、少し奇妙です。おそらく情報過多か何かかもしれません。
さて皆さん、今週のニュースのカバーはこれくらいにしましょう。残りの話題についても話し合いましょう。o3、xAI、その他にも触れたいことがありました。
Googleのまとめとして、彼らが最近リリースしたクレイジーなものを振り返ってみましょう。ちょうど良いタイミングで話題に出てきましたね。ビデオ用のImagen 3 V2とインタラクティブワールドモデル用のGen2、Gemini 2 Flashはとても大きなリリースでした。
そして、Gemini Experimental 126が本当にGemini 2 Ultraなのかまだ確認できていません。それから2.0 Flash Thinking、これはGoogleの最初の推論モデルです。Transformersのノム…誰か彼の苗字を思い出せますか?「Shazeer」、はい、ありがとうございます。Character AIからGoogleに戻ってきたNom Shazeerが最初にThinkingについて投稿しました。彼がThinkingの取り組みの背後にいる人物のようで、これからもっと多くのことが出てきそうです。
これはまだFlash Thinkingに過ぎません。Gemini Ultra Thinkingなどが登場する可能性もあり、それは大きな意味を持つかもしれません。また、最近のProject AstraやProject Marinerなど、その他のリリースもあります。今週はそれほど多くありませんでしたが、ビジョンとビデオの分野で今年は確かにクレイジーな年でした。年末の振り返りでこれについて触れる予定です。
Anthropicは新しいアップデートをリリースし、それからHume Octaveという30億パラメータの音声言語モデルについて触れたいと思います。これは本当にクールに聞こえました。音声を再生できるか試してみましょう。聞こえるかどうか教えてください。
「超知能についての興味深い点は、質的に異なるということです」
これは入力で、イリヤが2週間前のヨーロッパ2024で話した内容です。
「特に、超知能エージェントの目標と価値観は、私たちのものとは根本的に異なるでしょう。」
「イリヤさん、その洞察をありがとうございます。AIに共感を組み込むことは重要だと思いますか?」
「AIを構築する上で重要な部分だと思います。何かが意識を持つことを期待して構築するなら、より人間らしくなるような要素を組み込むべきです。」
基本的に、彼らの例はNotebook LMと非常に似ていて、ホストとの対話が可能です。イリヤの声をクローンするだけでなく、このnew Octaveを使って何らかの形でパーソナリティを引き継ぐことができます。
他にも例があります。Notebook LMのデモを実質的にクローンしたのです。これを聞いてください。これが入力です。
「確かに美味しいですが、健康的です。驚きの準備をしてください。これらのポテトは想像以上に面白いですから。」
そして、これが彼らのモデルです。
「ポテトが私たちにとってなぜそんなに良いのか見ていきましょう。まず覚えておくべきなのは、他の食べ物と同じように、ポテトには都市が…」
私はこれを本当にクレイジーだと思いました。300ミリ秒未満で音声生成を行い、「学者」「魔法使い」「メンター」のような声をプロンプトで作成できます。Eleven Labsの音声作成と非常によく似ています。プロンプトを与えて、パーソナリティやアクセント、表現を持つ声を作成できます。
「若き弟子よ、古い巻物は最も驚異的な力について語っている。その力を振るう勇気はあるか?」
これはパーソナリティとアクセントと表現を持つ声の生成で、すべてが300ミリ秒未満で行われました。クローンにかかる時間も5秒未満です。これはOpenAIのsanta voiceです。
「クリスマスイブの物語を話してくれるけど、Gen Z風に言ってくれる?」
「うん、やってみよう。クリスマスイブの夜で、バイブはすごくCでした。でも、その時、大きな音が煙突から落ちてきて、町中の人を起こしてしまいました。」
これは本当に素晴らしいですね。私がこれを取り上げる理由は、昨年の予測でこのようなモデルを待ち望んでいたからです。まだリリースされていませんが、選挙の後に人々がディープフェイクなどについてリラックスした時に、このようなモデルが実際に登場すると予想していました。
5つの音声スニペットで、非常に簡単にその音声をクローンすることができ、これはLLMでもあります。30億パラメータのLLMで、MLUやCommon Sense QA、Arc Easyなどのベンチマークでスコアを持っています。音声モデルであると同時に、実際に評価されたLLMでもあるのです。これは本当にクールだと思いました。
これをショーのトップに追加したいと思います。皆さん、これについてどう思いますか?Wolfrom、いくつかの例を聞いてどう反応しますか?
「このような技術をしばらく追跡してきました。私のローカルアシスタントに話させるためにxTTS V2を使っていて、11labsの声作成も試しました。プロンプトで自分の声を作れるものです。また、Notebook LMについても追跡してきました。
これは多くの興味深いものが1つのモデルに集約されたものです。もちろん、このようなものをローカルで実行できたら素晴らしいですね。30億パラメータのサイズなら、ローカルで実行できます。」
「はい、これをローカルで実行できることを期待しています。」
HumeのCEOであるAlan Cohenに、オープンソースの計画について尋ねました。彼は「オープンソースにすることでどのようなユースケースを想定していますか」と返してきましたが、基本的に「オープンソースの問題は、誰でも瞬時にあなたの説得力のあるレプリカを作成し、それを使って家族や銀行に電話をかけることができてしまうことです。現在利用可能なものを超えて…」
Thursday AIを聞いている皆さん、昨年も言いましたし、今日も言います。これからも言い続けますが、もしあなたとあなたの家族が安全な合言葉を持っていないなら、今すぐ作ってください。誰かが変な番号から電話をかけてきて、家族を名乗り、話しかけてきた時のために。
クリスマスで家族と一緒にいる機会を利用して、安全な合言葉を決めてください。家族の誰かが見知らぬ電話番号から「牢屋から出るために200ドル必要だ」などと言ってきた時のために、家族との間で安全な合言葉を持つ必要があります。
5秒でもあなたの声はクローンできるからです。この技術がオープンソースかどうかに関係なく、すでに起こり得ることです。1年前からできたことです。これが基本的にAlan Cohenへの私の回答です。
これをオープンソース化するとより多くのことが起こり得ますが、すでに起こり得ることなのです。現時点では、ソースを信頼することしかありません。希望としては、あなたのお母さんになりすますことは価値がないということです。基本的に、あなたと家族が本人であることを証明する強力な方法が必要です。
さて皆さん、今週のニュースはすべてカバーしました。その後さらに1時間半話し続けましたが、私はLex Fridmanではないので3時間のポッドキャストはリリースしません。その部分は近日中に別のボーナスエピソードとしてリリースする予定です。
そのエピソードでは、AIリリースの1年間の完全な振り返りを行います。過去1年間のThursday AI、全49回を振り返り、はい、毎週ありました。この1年間にリリースされた主要なものすべてを振り返りました。
また、2023年のThursday AI最終回での予測を振り返り、今年に向けた私たちの予測を現実と比較してみました。どこで外れ、どこで間違ったのか。そして来年に向けた予測も行いました。とても興味深い会話でしたので、近日中にポッドキャストでお届けする予定です。
その間、このすべてを聞いてくださって本当にありがとうございます。このポッドキャストをサポートする最高の方法は、もちろんWeaveをチェックしていただくことですが、友人と共有し、お使いのポッドキャストプラットフォームで5つ星の評価をつけていただくことです。発見可能性の向上に本当に役立ちます。
私の名前はAlex Volkovです。ご視聴ありがとうございました。ボーナスエピソードをお楽しみに。そして、ハッピーホリデー、そしてハッピーニューイヤー!
コメント