
23,662 文字

みなさん、12月5日のThursdAIへようこそ。12月の最初の放送です。12月5日は大きな発表がありました。まずは共同ホストのヤンペル、それからRavenのウルフロムを紹介します。そして今日のタイトルを見て何について話すか知っている視聴者のみなさんもご参加いただき、ブレイキングニュースをお届けします。
新しい視聴者のために説明すると、ThursdAIという名前の由来は、約2年前にGPT-4がリリースされた時からです。今日は大きな発表があります。
ブレイキングニュースですが、30分前までは知らなかった新情報が入ってきました。OpenAIが新しいモデル「O1 Pro」を発表する予定です。実際、現時点でChatGPTで多くのユーザーがO1 Proにアクセスできます。詳細はまだ分かりませんが、ライブストリーム中に詳しい情報が得られると思います。以前からO1推論モデルのプレビュー版しか提供されていませんでしたが、実際の完全版はかなり性能が高いことが評価結果からも分かっていました。
現在ChatGPTのインターフェースでO1プレビューを選択すると、Pro版へのアクセス要求が表示されます。残念ながらヨーロッパのユーザーは一部機能が制限される可能性があります。ウルフロム、もう試してみましたか?
チャットでアクセスできましたが、違いはまだ分かりません。では、ショーを始めましょう。まずOpenAIのニュースとブレイキングニュースから始めましたが、今日は他にも多くの話題があります。1時間後にOpenAIのライブストリームを一緒に視聴して、正式発表の詳細について解説したいと思います。
今回のショーはいつもより対話的になりそうです。ウォッチパーティーも予定しています。この内容はThursdAIポッドキャストでも配信され、Apple PodcastやSpotifyで5つ星の評価をいただいています。引き続き高評価をお願いします。
では、今週のトピックの概要を説明しましょう。既にヤンペルとウルフロムを紹介しましたが、最新メンバーのLDJもいます。もう1人ゲストが加わる予定です。LDJ、自己紹介をお願いできますか?
はい、私はLDJ、本名はルイジです。以前はNews Researchで働いていました。その前は音声AI関連の仕事をしていました。現在は主に合成データ生成、データセット開発、マルチモダリティ、汎用モデルのトレーニングなどの研究に携わっています。主にオープンソースの仕事をしています。
素晴らしい、ThursdAIの共同ホストとして深い洞察と多くのブレイキングニュースを提供していただいています。
まずはオープンソースについて、特にオープンソースLLMについて話しましょう。OpenAIと対照的に、分散化の観点から今週は非常にエキサイティングでした。昨日ビットコインが10万ドルを突破したこともそうですが、2つの大きな分散型LLMトレーニングが同時に進行していることが注目されます。これはとても素晴らしいことです。
News ResearchのDrroとDemoが現在トレーニングを完了しつつあります。1時間前に終了したようです。また、Prime Intellectの10億パラメータモデルもトレーニングを終え、現在RC AAIでポストトレーニングを行っています。RCのメンバーにも参加してもらえるかもしれません。ポストトレーニング完了後にIntellect Oneについて詳しく話し合いましょう。
世界中で分散型LLMがトレーニングされているのは大きな進展です。ルーカスも参加していますね。ルーカス、簡単な挨拶をお願いできますか?
やあみなさん、RCのラボチームを率いているルーカスです。Intellect Oneとポストトレーニングについて話せることを嬉しく思います。先週金曜日にリリースしました。
素晴らしい、すでに利用可能なんですね。今日は時間が限られているので5分程度でお願いします。
オープンソースLLMについて、今週は別のフレンドオブザポッドからのリリースもありました。3週連続で推論モデルについて話していますが、今日はBig Labの推論モデルについて取り上げます。O1 Proは世界最高の推論モデルになるでしょうが、Ruadの8ビリオンパラメータのオープンソース推論モデル「Deep Thought 8B」も注目です。推論の過程を可視化でき、ガイドすることもできます。
オープンソースではLLM以外にも2つの大きな発表がありました。中国のTencentがHY-Videoを公開しました。一見ビデオモデルに見えましたが、実際にはパペットアニメーションなど、さらに多くの機能を持っています。これはオープンソースのビデオモデルで、現在はテキストからビデオを生成できます。画像からビデオ、ビデオからビデオへの変換も予定されています。
LumaやRunway MLのGen 3、Luma 1.6を上回る性能を持つオープンソースモデルです。一般のハードウェアでの実行は要件が厳しいですが、プロプライエタリモデルを上回るオープンソースモデルが登場したのは驚くべきことです。Soraと比較できるかもしれません。このモデルは音声生成など、多くの機能を持っています。フォーリー(効果音)も生成できます。
もう1つのオープンソースの発表は、FishSpeech v1.5です。これは多言語対応のゼロショット即時音声クローニングテキスト音声変換モデルで、低レイテンシーが特徴です。パラメータは5億程度ですが、Hugging Faceのテキスト音声変換ランキングで2位を獲得しています。1位は11 Labs、2位がこのモデルです。商用利用はまだできませんが、自分の声をクローニングして試すことができます。
News Researchのテック氏は「なぜ11 Labsに匹敵するオープンソースモデルがないのか」と投稿しましたが、同日にFishSpeechがリリースされました。
大手企業とAPIについても触れましょう。AmazonはAWS re:InventでNova シリーズの基盤モデルを発表しました。7、8個のモデルが発表され、Anthropicへの大規模投資を行うAmazonにとってこれが何を意味するのか、ベンチマークと評価結果を見ていきます。
Googleは画像から遊べる世界を作り出すGENIE 2を公開しました。実際に試すことはできませんが、プレイ可能な環境をシミュレーションする素晴らしい技術です。同様に、F Leeの World Labsも1枚の画像から歩き回れる3D環境を作る例を公開しました。1週間で2つの世界構築モデルが登場したことになります。
また個人的に興味深いと感じたのは、GoogleのGenCastです。これは天気予報で最先端の性能を持つ拡散モデルです。生成AIが天気予報でも最高性能を達成し、特に精度とスピードが注目されます。Google DeepMindによるもので、モデルとデータセットがオープンソースで公開されています。
AIアートではありませんが、AIアートで使用される拡散モデルと同じプロセスを使用しています。拡散トランスフォーマーなのか、単なる拡散モデルなのかは不確かですが、自己回帰モデルと拡散モデルを融合させている点が非常に興味深いです。時間経過に伴う画像の拡散を考えると、ビデオ予測のようなものと言えます。世界の予測という点で非常に興味深い取り組みです。
今週のBuzzコーナーでは、LLMの観察可能性と評価フレームワークについて、GAで発表された exciting newsがあります。AWS re:Inventでも発表され、多くの機能がローンチされました。
これが今週のトピックの概要です。OpenAIのライブストリームでO1 ProとProプランについても詳しく見ていきます。重要な発表を見逃していたら、コメントで教えてください。ショーノートに追加情報を載せています。
では、オープンソースAIから始めましょう。まずはNews ResearchのDrroの分散トレーニングの進捗を見てみましょう。dr.newresearch.comで美しいダッシュボードを確認できます。15ビリオンパラメータの言語モデルを分散型でトレーニングしています。
トレーニングの様子をリアルタイムで見ることができ、世界中のノードの状況が分かります。北米にいくつかのノードがあり、ドイツにもノードがあるようです。モデルの推論評価もリアルタイムで確認できます。最後の方で推論性能が少し低下したように見えます。
面白いことに、ThursdAIの放送日にトレーニングが完了しました。分散型トレーニングを可能にしている重要な技術が、デカップルドモーメント最適化(DEMO)です。この基礎研究については、以前イミラとボーエンが論文として発表する際に議論しました。
11月29日に論文が公開され、複数のコンピュータで分散トレーニングを実現する方法が説明されています。特に興味深いのは、Adamの開発者であるディーデリク・キングマが共著者として名を連ねていることです。
論文では、DEMOを使用してトレーニングしたモデルが、高速なインターコネクトを必要とせずにAdam Wと同等以上の性能を達成できると述べています。これは、Adamの開発者自身が認めている点で非常に重要です。キングマは現在Anthropicで働いています。
News Researchの素晴らしい成果は、同じデータセンターではなく世界中で分散トレーニングができることを示しています。モデルは「Psyche」または「Psych」と呼ばれる予定で、ポストトレーニング完了後に詳しい情報が公開されるでしょう。
美しいダッシュボードとAdam開発者との共著論文は、研究の信頼性を高めています。北米とヨーロッパに16のノードがあります。ヤン、追加で何かありますか?
論文を読んでいますが、1週間Xを見ていなかったので、ベンチマークを見てみたいです。
2つ目の分散型の取り組みは既に完了しており、ルーカスに説明をお願いしましょう。Prime IntellectとDocoについて教えていただけますか?
Prime IntellectはRCの重要なパートナーで、計算リソースを提供しました。Newsと同様に、世界中の3大陸に30のGPUノードを分散させています。約1ヶ月かかり、10ビリオンパラメータのモデルに1兆トークンの学習を行いました。Newsは15ビリオンパラメータで1000億トークンなので、サイズと計算リソースのトレードオフがあります。
プレトレーニングの結果はLlama 2の初期チェックポイントと同程度でしたが、ポストトレーニング後にMLUで大きな向上が見られました。基本モデルのMLUが37から49に上がり、これは過去最大の改善幅です。これは主にマージと蒸留の効果だと考えています。Llama 3ベースなので、RC modelで使用した405Bからの論理を利用できました。
分散型トレーニングにとって有望な時期です。ベンチマークスコアは1年前のLlama 2 3Bに追いついています。スケーラビリティが証明されたので、次のステップは計算リソースの増強です。
技術的な課題は何でしたか?
Prime Intellectの方が詳しく説明できると思いますが、Newsも同様の課題があったでしょう。今後の課題は、テンソル並列化です。現在の実行では主にH100を使用し、各カードに80GBのRAMがあります。10-15ビリオンパラメータ範囲では、モデルをGPU間で分割する必要はなく、データのみを分割すれば良いため、帯域幅の観点から管理が容易です。
しかし、より大きなモデルでは、GPUごとに個別のコピーを持つことができず、複数のGPU間でモデルを分割する必要があります。ここに複雑さがあります。両チームがこの課題に取り組んでおり、オープンで協力的な方法でコードが共有されているのは素晴らしいことです。OpenAIやAnthropicがそれぞれ独自に取り組むのを待つのではなく、お互いの成果を活かせるからです。
ありがとうございました。現在のインテレクト1インストラクトのMLUは49.89で、Llama 27を上回り、Llama 13Bに近い性能です。MPTも上回っています。1年前の性能に追いついていますが、トークン数は半分の1兆です。追いつくには数ヶ月かかるでしょうが、期待できます。
RCとPrime Intellectの分散型の取り組みに感謝します。ルーカスさん、素晴らしいポストトレーニングの仕事について教えていただき、ありがとうございます。
この2つの取り組みがほぼ同時期に完了したのは素晴らしいことです。複数の取り組みが同時進行するのは今回が初めてではありません。
次にオープンソースLLMについて、LDJさんが話したいと思っていた深い思考8Bについてです。RuadのDeep Thought 8Bは、フレンドオブザポッドがリリースした新しい推論モデルです。Llama 3.1 8Bをベースにしていると思います。
数学の性能でLlama 3.1 8Bをわずかに上回りますが、注目すべきは推論機能を追加したことです。インターフェースで思考プロセスを可視化し、ガイドすることもできます。LDJさん、このモデルの何が特に興味深いですか?
ベンチマークを見ると、特に指示追従のベンチマークで30Bや70Bモデルと同等の性能を示しています。数学などの一部のタスクではまだ及びませんが、注目すべきは推論プロセスの設定をリトレーニングなしで動的に変更できることです。これらの設定は全てオープンソースで公開されています。
全体的にはQwen 72Bと同等で、指示追従では上回っています。QuillやQwenの開発者がここにいたらいいのですが…O1 miniとの比較が興味深いです。指示追従でDeep Thought 8Bが84、O1 miniが85とほぼ同等です。
推論については、より大きなモデルの方が優れていますが、これは8ビリオンパラメータのモデルがQwen 72ビリオンを上回っています。ただし、これはQwen 2.0で、最新の2.5ではありません。面白いことに、このベンチマークでは2.0の方が2.5より高いスコアを示しています。
チャットで試してみましょう。アイスキューブの問題で、思考プロセスが素早く表示されます。O1プレビューとは異なり、このモデルは答えを間違えました。オプションEで11と答えましたが、推論過程は8-9ステップで表示されます。
Ruadの開発者はFarelが中心ですよね、LDJ?
はい、Farel、Sendex、Alpinが主要な開発者です。私は彼らと直接やり取りしています。
素晴らしい。先週、Alpinがブルースカイで話題になったときにも参加していました。このモデルの優れている点は、思考プロセスが透明に表示されることです。設定で、LDJさんが言ったように、リトレーニングなしでメカニズムを変更できます。
例えば、アイスキューブが溶けるまでの時間について考えるようにモデルに指示できます。最大ルーティング、思考ルーティング、ルール検出時の処理など、様々な設定が可能です。推論ステップ数も最大15まで設定できます。
推論ステップ数の設定は、テスト時の計算関数に制限をかけるものだと思います。5ステップに設定すると、それ以上は進まないようです。より長く考えさせることはできませんが、興味深いのは、UIで推論ステップを提案できることです。
モデルの推論プロセスに、プロンプトではなく設定を通じて介入できるのは素晴らしいです。他の推論モデルでもこのようなインターフェースがあればいいのですが。
Wolfrom、Yam、このモデルについてどう思いますか? LDJさんは開発者と近い関係にありますよね。モデルはHugging Faceにありますが、このような機能を使うにはカスタム推論ソフトウェアが必要だと思います。
Wolfrom、あなたが話したいと言っていた研究について教えていただけますか?
私は去年と今年のRedditでの評価で知られています。そこからAIの世界に入りました。プライベートデータを使って多くのベンチマークと評価を行い、最近はMLU Proベンチマークで複数のモデルを評価しています。1つのモデルから始めて追加していき、最終的に59回のベンチマーク実行を行いました。
画面に表示しましょうか?
はい、お願いします。Yamさんも覚えていると思いますが、LDJさんもご存じの通り、Wolfromさんがショーの共同ホストになる前から、評価の方法について何度も言及していました。r/LocalLlamaのコミュニティで、詳細な分析を投稿するたびに大きな反響がありました。
ショーに参加する前から、あなたの研究は非常に価値のあるものでした。コミュニティの重要なメンバーとして、モデル評価の専門家を迎えられて嬉しく思います。
ありがとうございます。Redditにも投稿しましたが、多くの人が「お帰りなさい」と言ってくれました。以前素晴らしい評価を行っていたBlokeと比較される人もいました。実際には消えたわけではなく、Xに移動しただけです。そこでは考えすぎることなく投稿でき、良い投稿は拡散されます。
大規模モデルに興味を持ち、新しいMistralが古いものほど良くないのではないかと考えました。これが結果のランキングです。Mistral Large 2411が新しく、2407が古いバージョンです。古いバージョンの方が少し良い結果でした。
外れ値を避けるため、各ベンチマークを2回実行しました。エラーバーは最低スコアと最高スコアを示しています。MLU Proスコアで順位付けしています。
目的は、自分のシステムで最も良く動作するモデルを見つけることでした。非量子化バージョンだけでなく、Hugging Faceのリーダーボードは既にそれを行っているからです。モデル作成者も自分でベンチマークを行っています。
私の興味は、48GBのRAMという一般的なシステムでどう動作するかでした。多くの人はより少ないRAMで小さなモデルを使用していますが、私のシステムでテストして比較することが目的でした。
最も興味深い発見は、Qwenモデルについてでした。これは初のオープンソース推論モデルです。GXCEL 2フォーマットは非常に高速で、8ビット量子化が最大です。8ビットでもMistral Largeを上回り、古いGPT-4に近いスコアを出しました。
古いGPT-4が現行版より良い性能を示すのも興味深いです。現行版は毎秒100トークンと高速ですが、量子化モデルだと思われます。こうした発見がベンチマークの価値です。
Qwenモデルは8ビットで優れた性能を示しますが、4.25ビットに半減してトークン生成数を増やすと、さらに良い結果が得られます。MLU Proベンチマークは出力を2000トークンに制限していますが、このモデルは多くの思考を行うため、制限に達して切り断されてしまいます。より長い出力を許可すると、スコアが大幅に向上します。
デフォルト設定のままでは、応答が途中で切られてしまうので、真の性能が見えません。16,000トークンまで許可すると、Claude SonnetとGeminiの次の3位に入ります。これは8ビットモデルでこの性能です。モデルの文脈長は32,000トークンなので、半分をベンチマークに使用することになります。
32ビリオンパラメータのモデルにもっと考える時間を与えると、MLU Proベンチマークで79点を獲得し、Anthropic 72B、Qwen 2.5、以前のGPT-4を上回ります。これは驚くべき結果です。十分な思考時間を与えることで、本来の能力を引き出せることが分かりました。
このことは、テスト時計算のスケーリング則を裏付けています。推論モデルにより多くの思考時間を与えると性能が向上します。LDJさん、OpenAIでもこのような制御があればいいですね。オープンソースだからこそ可能な調整です。
プロンプト技術でも同様のことができます。通常のモデルにステップバイステップで考えるよう指示する方法です。この場合は、2,000から16,000トークンまで制限を緩和することで実現しています。
そうですね。小さなモデルにより長い思考時間を与えることで、VRAMに収まる範囲で実行できます。16GBや4090の24GB程度でも、70Bモデルは入りませんが、このモデルなら同等以上の結果が得られる可能性があります。
Qwenモデルには本当に感銘を受けました。スポンサーされているわけではありませんが、以前はドイツ語での使用ではMistralモデルの方が優れていたため、Qwen 72Bにはそれほど興味がありませんでした。
しかし、実際の業務でClaude、ChatGPT-4、Qwenを使用してみると、Qwenが最も良い結果を出しました。ローカルモデルでこのようなことは初めてです。通常は本番環境ではオンラインモデルを使用しますが、このモデルは例外でした。
アイスキューブの問題について、モデルの応答を見てみましょう。正解ではありませんでしたが、推論プロセスが興味深いです。「3分後にパンの中に残っている氷の数は?」という質問に対して、モデルは以下のように考えています:
「溶解過程で一部が溶けている可能性がありますが、溶解速度や調理プロセスの詳細が不明なため、正確な数は分かりません。調理は氷とは別に行われ、氷は熱にさらされていない可能性もあります。矛盾しているように見えます。
パンで卵を調理するには熱が必要で、熱があれば氷は溶けるはずです。あるいは、氷が加熱部分に触れていない可能性もありますが、これは推測に過ぎません。配置された数に注目すべきでしょう」
そして計算を始めます。正解に近づきましたが、途中で外れてしまいました。72Bやさらに賢いモデルでこのような推論を見てみたいですね。ローカルで実行できるのは素晴らしいことです。
家庭でのSonnetのような性能を期待していますね。Wolfrom、研究アプローチの共有ありがとうございました。視聴者の方々も、考え方や手法について興味深く感じたことでしょう。スペースのトップとショーノートにリンクを追加します。Qwen/Quillについて話し、オープンソース初の推論モデルについて触れました。今日は2つ目のオープンソースモデルについても話しましたが、これは大幅に小さいモデルです。現在、複数の推論モデルが利用可能で、推論モデル用の評価指標も必要になってきています。
これでオープンソースLLMの話題は終わりにして、Novaについて話しましょう。オープンソースではありませんが、少なくとも話題にする価値があります。AWSのAmazonが独自の基盤モデルシリーズを発表しました。私たちの友人であるSwixとSimon Wilsonの両者がこれらのモデルに感銘を受けていたので、彼らの意見も見てみましょう。
まず、Novaモデルの概要を簡単に説明します。Amazonは一連の基盤モデルを発表しました。Nova Micro、マルチモーダルのNova Light、高性能のNova Pro、そして2025年に登場予定のNova Premiereです。また、画像生成用のCanvasとビデオ生成用のRealも近日公開予定です。
多くの人が「なぜAmazonには独自の基盤モデルがないのか」「なぜAlexaはそれほど賢くないのか」と疑問に思っていましたが、生成的なAlexaが登場するようです。
このリリースがどれほど印象的でないかを示すために、ベンチマーク表を見てみましょう。AmazonのNova新基盤モデルをClaude、GPT-4、Gemini、Llamaと比較しています。Nova列では、言語理解MLU、推論、常識、深い推論、数学、Pythonコード生成、人間評価などの数値が太字で強調されていますが、実際にはほとんどの数値で他のモデルに及びません。
ある人が1つ1つ比較して、Amazonが公開すべきだった正しい表を作成しました。つまり、彼らの新モデルは指示追従でわずかに優れているだけで、翻訳の基準が200とやや高いだけです。他の全ての項目でClaudeが明らかに優れています。
これらのモデルは一般には公開されず、Amazon Bedrock経由でのみ利用可能です。コンテキスト長が300Kというのは非常に印象的です。AWSのスケールを活かすことは明らかで、200以上の言語対応も印象的です。
性能はLlama 3.1と同程度で、Claude、GPT-4、Geminiには及びません。Anthropicへの大規模投資を考えると、Anthropicと競合しないのは理にかなっています。
Amazonからのウォーターマーク機能もあり、ファインチューニングも可能です。最も重要な点は、これらのモデルが現在最も安価だということです。Microは100万入力トークンあたり3.5セント、出力トークンは14セントです。これはGoogleのGemini Proより安価です。
Simon Wilsonが最も興奮していたのは価格についてでした。彼は「この数字を3回確認した」と述べています。1画像あたり0.0136セントで、67,000枚の個人写真ライブラリ全体のキャプション生成が9ドルでできるということです。これは驚くべきことです。
マルチモダリティについて考えると、ThursdAI開始時にGPT-4が登場し、画像機能はまだリリースされていませんでした。6ヶ月後にようやくリリースされ、現在では画像キャプション生成が0.0136セントと事実上無料になっています。
今日は最も安価なAIと最も高価なAIが同じ日に登場するかもしれません。噂が本当なら、それは驚くべきことです。
Novaについて、Mistralの3ビリオンパラメータモデルの方が若干安いようですが、大手プレイヤーの中では最も安価です。また、Claude 3.5 Sonnetも昨日価格が下がりました。
これがAmazonのNovaファミリーの基盤モデルについての主な更新です。他に興味深い点として、AmazonはAWSガードレールを発表しました。来週、Weights and Biasesのガードレールについてお話しする予定です。
簡単に説明すると、Amazonはモデルだけでなく、包括的なアプローチを取っています。これはビジネスニーズに応えるためです。多くの基盤モデルはガードレールを提供していますが、オープンソースモデルは提供していません。
時にはカスタムのガードレールを構築したい場合があります。ガードレールは有害性やバイアスなどの境界を設定するものです。来週、ガードレールとその意味について詳しく話します。Amazonはモデルだけでなく、ビジネス向けの多くのツールもリリースしています。
これでAmazonについての話題は終わりです。ライブストリームまで8分ですが、リンクはすでにあるようです。定刻には始まらないかもしれませんが、時間通りに視聴を始めましょう。
次にGenieについて話しましょう。Genieはとても興味深いですね。World Labsも過去数日で発表がありました。
まずWorld Labsから始めましょう。少し印象が薄いかもしれませんが、F. Li博士が設立したWorld Labsは、1枚の画像から3D世界を生成するシステムを開発しています。
ブラウザで画面とインタラクションができる初期結果を公開しました。実際に見てみましょう。画像があり、ゲームのようにWASDキーとマウスで動き回れます。3D画面内を移動でき、周囲を見回すこともできます。
最初の画像から始まり、振り返ると多くの部分が生成されています。この環境内を移動でき、パララックス効果で3D再構築を確認できます。これは非常に驚くべきことです。左右に移動でき、風景の中を歩き回って探索できます。
まだ非常にリアルというわけではありませんが…あ、OpenAIが12日間の発表を開始すると投稿しました。これを見逃さないようにしましょう。
World LabsのF. Li博士の世界モデル構築の取り組みが1つ目です。そしてGoogleのGenie 2が、ほぼ同じ日に、さらに驚くべき発表をしました。
World Labsがモデルを生成してある程度歩き回れるようにしたのに対し、Genie 2モデルは画像から1分間プレイ可能な世界を生成します。Google Imagen 3で生成された画像から、プレイ可能な世界を作り出します。
キャラクターが走り回れる世界を1分間生成できるのは驚くべきことです。例を見てみましょう。
少しDoomのように見えますが、ロボットが立っている画像から3D構造を生成します。水上のボートを生成し、水の物理演算も行います。道路も生成し、長期記憶も持っています。
システムが構造を生成し、振り返るとその構造が背後にあり、また前を向くと構造がまだそこにあるという具合です。これは非常に驚くべきことです。
この研究はロボティクスやAI研究に大きく貢献するでしょう。これらの世界でトレーニングを行い、1分間のシミュレーションで多様な環境が生成されます。まもなく、これらの世界の忠実度は現実に近づくでしょう。
Wolfromさんが言うように、AGIが仕事をするようになったとき、私たちを楽しませてくれるものが必要になりますね。
さて、OpenAIのライブストリームを見逃さないようにしましょう。リンクが投稿されたばかりで、開始まで5分ほどかかりそうです。
“OpenAIの12日間へようこそ。平日ごとに、新しい開発や機能のデモを行います。今日は2つの発表があります。
1つ目はO1の完全版です。皆様のフィードバックを受けて、多くの改善を行いました。O1は大きな前進であり、特に生の知性の面で向上しています。コーディング性能は、多くの人々が活用している分野です。
2つ目は、新しいChatGPT Proティアの発表です。Proではモデルへの無制限アクセス、高度な音声モード、そして新しいO1 Proモードが利用できます。
O1は現在世界で最も賢いモデルですが、O1 Proモードではさらに高い性能を発揮します。最も難しい問題に対して、さらに良い結果が得られます。
Proモードでは信頼性も向上しています。O1と比較して、応答の信頼性が大きく向上していることが分かります。
ChatGPT Proは月額200ドルで、本日から利用可能です。12日間の発表を通じて、さらに多くの機能を追加していく予定です。無制限のモデル使用とO1 Proモードを提供します。”
“こんにちは、私はO1の開発に携わった研究者のH One、Jason、Maxです。O1は応答する前に考える最初のモデルとして特徴的です。他のモデルと比べて、より良く、詳細で正確な応答を提供します。
O1は本日からPlus、そして間もなくProのユーザーに提供され、O1プレビューと置き換わります。9月にリリースしたO1プレビューより高速で賢くなりました。
マルチモーダル入力について多くの要望があり、それを追加しました。今日リリースされるO1は、画像とテキストを組み合わせて推論できます。
日常的な使用においても、O1は大きく改善されています。O1プレビューでは、「こんにちは」と言っただけで10秒考え込むという問題がありましたが、これを修正しました。
簡単な質問には素早く応答し、難しい質問にはじっくりと時間をかけて考えます。詳細な人間による評価を行った結果、O1プレビューと比べて重大な誤りが34%減少し、思考時間は50%短縮されました。
O1は標準的なベンチマークであるMMU、Math Vistaで最高の性能を示しています。さらにモデルを活用したい方のために、O1にはWeb閲覧、ファイルアップロード、その他のツールを追加していく予定です。
API版のO1も開発中で、開発者向けに構造化出力、関数呼び出し、開発者メッセージ、API画像理解などの新機能を追加します。これにより、エージェント型アプリケーションの新しい可能性が広がるでしょう。
皆様にも気に入っていただけることを願っています。”
“ありがとうございました。チームの皆様、おめでとうございます。O1とProモード、そしてProティアを楽しみにしています。明日も新しい発表がありますよ。
今朝、こんなジョークを考えました。サンタが大規模言語モデルに数学の問題を解かせようとしましたが、プロンプトを工夫しても上手くいきませんでした。どうやって解決したと思いますか?
答え: Reindeer-forcement Learning (トナカイ強化学習) を使いました!
ありがとうございました。素晴らしい仕事です!”
さて、多くの発表がありました。まとめてみましょう。まず、価格は言及されましたか?
はい、月額200ドルです。
ついに制限が少なくなり、ネイティブインターフェースを使用できるようになりました。Anthropicも同様のサービスを提供すべきですね。
いくつかの統計も示されました。基本的に2つの新しいモデルが発表されました。同じモデルでProモードではより多くの計算時間が与えられると理解しました。4回実行して同じ応答が得られた場合に採用されるようです。
競技数学では、O1プレビューがAIMEで56%だったのに対し、O1は83%を達成しています。世界最高の推論モデルであるO1が、競技数学問題の100%解決に近づいています。これはO1であって、O2やO3ではありません。
競技コーディングでは、O1プレビューが62%、O1が89%でした。Wolfrom、さらに統計があるようですね。
head-to-headの比較が興味深いですね。少し高価になりましたが、自分で試してみたいところです。
はい、月額200ドルのProティアでProモードを使えば可能です。
競技数学でProモードは86%、競技コーディングで90%とほぼ完璧です。PhD級の科学質問GPQ Diamondは非常に難しく、O1プレビューで74%、O1で76%、Proモードで79%です。これらは博士レベルの質問なので、わずかな改善でも印象的です。
Wolfromさんが指摘したように、O1 Proモードは信頼性が向上しています。4回の試行で全て正解した場合のみ解決したと見なすという厳密な評価基準を採用しています。評価の正確性を確保するための優れたアプローチですね。
Proユーザーは、O1 Proモードを選択することでこの機能にアクセスできます。ChatGPTは進捗バーを表示し、他の会話に切り替えた場合は通知を送ります。長時間の思考が必要な場合、その場に留まる必要がないのは理にかなっています。
医療関係者向けに10人に無料提供するとのことで、素晴らしい取り組みですね。
つまり、2つの新しいモデルを手に入れたことになります。O1プレビューが残るのか、それともO1に完全に置き換わるのかは不明確でした。アクセス権を確認してみましょう。
まだプレビューが表示されていますが、今朝とは異なります。彼らが言及した点で興味深いのは、「こんにちは」と言った時に長時間考え込むのが非常に煩わしかったということです。
30%という数字が出ましたが、正確には60%高速になったとのことです。O1プレビューより60%高速になったのは素晴らしい進歩です。
おそらく最も大きな更新は、ついにマルチモーダル対応になったことでしょう。先ほど最も安価なモデルと最も高価なモデルが同時に登場すると話しましたが、マルチモーダル対応は大きな進展です。
H. Wang氏の宇宙のデータセンターに関する難しい物理の問題も、28秒で解決できました。また、MMUとMath Vistaでもトップレベルの性能を示していることも言及されました。
システムカードも公開されていますね。
そうですね。また、Artificial Analysisによると、過去数週間でGPT-4、O1プレビュー、O1 miniの全てのAPIが3-4倍高速になったそうです。おそらくOpenAIがMicrosoftと協力してGH200での本番推論を展開したのではないかと推測しています。
私のベンチマークでもGPT-4は毎秒70トークンから160トークン以上に向上しました。
他の更新点として、マルチモダリティ、スピード、システムカードがあります。システムカードは50ページあり、MLベンチマーク、エージェンティックタスクなどが含まれています。O1が全てのタスクで勝っているわけではありませんが。
コンテキストサイズについての言及はありましたか? 推論には多くのトークンが必要なので重要です。
言及はないようです。これは弱点かもしれません。他のモデルのように300,000トークンだった場合、おそらく明記されていたでしょう。
さて、他に興味深い点はありますか? マルチモダリティは、AIを搭載したメガネなどで興味深い応用が期待できます。子供たちの宇宙に関する質問にも役立ちそうです。
約2時間経過し、予定より少し長くなりましたが、視聴者の皆様に質問です。月額200ドルのProプランにアップグレードする予定の方は、コメントで教えてください。会社での利用も含めてお聞かせください。
「誰も支払わないだろう」という意見がある一方で、「すぐに契約する」という声もあります。ジムの月会費より安いという指摘もありますね。
既に支払う意思を示している人がいます。キャンセルも可能で、必要な時だけ利用できます。会社のアカウントとして10人で共有すれば、通常アカウント10個分と同じコストです。
支払いたくない人は「誰も支払わない」と言いますが、ChatGPTは3億人の月間アクティブユーザーがいます。これは昨日確認された数字です。1%がアップグレードしたとしても、OpenAIにとって大きな収益になります。
他の発表も見ていきましょう。全てをライブストリームで追うことはできませんが、来週いくつかの重要な発表をカバーする予定です。
カバーしきれなかった重要な点について、残り10分で触れていきましょう。その前に、このショーはWeights and Biasesの提供でお送りしています。
Weights and Biasesも今週重要な発表を行いました。O1の完全版ほどではないかもしれませんが、O1 APIが登場した際には明らかに構築が必要になります。APIの近日公開についても言及がありました。
多くの人がAPIを待ち望んでいる中、オープンソースの推論モデルもAPIを提供しています。APIが登場したら、これらのモデルを使った構築が始まり、本番環境での信頼性が重要になります。ここでWeights and Biasesが活躍します。
Weights and BiasesはThursdAIのスポンサーであり、今週のリリースについてお話ししましょう。これは「This Week’s Buzz」コーナーの一部ですが、ビデオモデルと音声モデルについても触れる予定です。
まず、この週のBuzzから始めましょう。これは週間の出来事を振り返るコーナーです。今回はCEOのLucas Bewiからのアナウンスを再生します。
“WnBのWeaveの正式ローンチにようこそ。Weaveは開発者向けのツールで、本番環境での生成AIアプリケーションの構築とモニタリングを支援します。1年以上にわたってパイロットユーザーと協力して開発し、GAでの提供を発表できることを嬉しく思います。
LLMは素晴らしく、数行のコードでプログラムに知性を組み込むことができます。驚くべきデモを作成できますが、それを本番環境に移行する際には課題があります。Weaveは、体系的な評価の作成とLLM呼び出しのトレース可視化を容易にすることで、デモを確実に本番環境に移行できるよう支援します。
内部利用から高トラフィックの本番アプリケーションまで、様々なケースで動作します。Weaveを使用して構築した2つの実際の生成AIアプリをお見せします。
1つ目はOpen UIです。これは自動的にウェブサイトを構築する素晴らしいツールです。サイトの説明やスクリーンショットをアップロードするだけで、実際にデプロイ可能な高品質なJavaScriptとCSSを生成します。
Open UIの開発過程で、生成されたウェブサイトを素早く確認し、どの程度うまく機能しているかを把握できます。関連性、洗練度、コントラスト、モバイル/デスクトップの品質など、カスタムのスコアとメトリクスを構築しました。
どのクエリが最高のページを生成し、どれが最悪のページを生成するかを素早く確認できます。より安価なLLMとより高価なLLMの品質を比較して、用途に応じて使い分けることができます。
現在インターネットで公開中のアプリにエンドユーザーのフィードバックを直接組み込み、Weaveにログを記録しています。これにより、どのユーザーが生成されたウェブページに満足し、どのユーザーが不満を持っているかをリアルタイムで確認し、製品を改善できます。
2つ目のアプリケーションはWinstonです。これは非常にクールなエージェントで、Gmail、Slack、X、Airtableなどのアプリケーションにアクセスし、コンピュータ上でタスクを実行します。ツールを組み合わせて有用な処理を行います。
例えば、メールで受け取る製品ニュースレターを要約し、チーム全体で共有できるようSlackに投稿します。Winstonはユーザー入力を受け取り、それがリクエストかどうかを判断し、何をすべきか明確か、追加の質問が必要かを判断します。
Winstonが何をすべきか理解したら、プランを生成して実行します。エージェントの経験がある方なら分かると思いますが、プランは常に機能するわけではなく、デバッグが難しい謎のエラーが発生することがあります。
Weaveのスタックトレースを見ると、どこで問題が発生したかを素早く特定できます。生成されたプランには、実際には持っていない通知ツールやフィルターツールが含まれていました。
トレースは各呼び出しのコストとトークン数を示します。ほとんどの呼び出しは高速で安価ですが、ここでは非常に高価なリクエストがあります。なぜこのトレースは11セント、44,000トークンを消費し、18秒かかったのでしょうか?
実は、ウェブページのHTML全体をGPTに送信していたのです。このウェブサイトをマークダウンに変換するだけで、コストは半分、レイテンシーは13秒に削減できました。
しかし、Winstonを本当にパワフルにするには、例を1つ1つ見るだけでなく、全体的なパフォーマンスを素早く改善できる必要があります。そこで、サンプルユーザー入力をWinstonに与え、正しいツールを使用しているか、入力が実際にプランを要求しているかをチェックするデータセットを構築しました。
プロンプトを改善する際のWinstonの精度を素早く確認できます。ツールを詳細に説明することで、Winstonが正しいツールを選択する精度が向上することが分かりました。
このプロセスにより、異なるLLMを素早く試し、本番環境でどの程度うまく機能するかを確認できます。最後に、Winstonの真の評価には実際のエンドユーザーフィードバックが必要です。
ユーザーがWinstonの動作について直接フィードバックを提供し、それをWeaveに送り返すことができます。Weights and Biasesには、観測可能性がAIチームの生産性向上にどれほど役立つかについて豊富な経験があります。
OpenAI、NVIDIA、Meta、ROなど、数千の企業と協力してきました。彼らのデプロイを支援したアプリケーションを誇りに思っています。PythonやTypeScriptの1行でWeaveを使い始めることができます。
すでにToyota、Canva、Chanel、Neurliftなどの顧客がWeaveを使用して独自の生成AIアプリケーションを構築しています。ぜひWeaveを試してみてください。”
以上がWeaveのGA発表でした。多くの人がWeaveの開発に取り組んできました。質問があればDMでお知らせください。
ショーを続けましょう。まだカバーしていない項目がいくつかあります。OpenAIの話題は既に取り上げたので、もう少し続けましょう。Googleやオープンソースについても触れたいと思います。
個人的に今週最も印象的だったのは、オープンソースのビデオモデルです。Tencentの発表を見ましたか? 彼らは非常に優れた成果を上げています。
Tencentは「Heyuan video」を公開しました。これはオープンウェイトモデルで、驚くべき品質を持っています。ご存知の通り、おそらく12日間の最後にSORAが発表されるかもしれません。
SORAが発表された時、私たちは衝撃を受けました。世界が変わり、ビデオを生成できるようになりました。それ以来、SORAのデモしか見ていませんでしたが、その後Shing、Runway Gen 3、Luma Labsが次々とリリースを行い、多くのオープンソースモデルも登場しました。
そして今、Heyuan videoが登場し、オープンソースでありながらSORAに近い性能を持っています。SORAを直接見たことはありませんが、数週間前にHugging Face SpaceでAPI鍵が「リーク」された際の映像は非常にリアルでした。
Heyuan videoの最も印象的な点は、ビデオだけでなく多くの機能を持っていることです。数日前にリリースされ、論文を読み始めた時、LDJさんもこれを気に入ったのではないでしょうか?
論文やレポートを読む機会はありましたか? 高いリアリズムに加えて、このモデルは従来のビデオモデルが持つ全ての機能を備えています。動的な物理演算、連続的なアクションショット、美しい物理表現など、例えばハンバーガーを食べる猫のような映像を生成できます。
720pの映像を生成し、映画のような質感があります。特にインターネットで話題になったのは、特定の映像での髪の物理演算です。また、カメラカットも印象的でした。モデルは複数の映像とカメラカットを生成できます。
しかし、このモデルで最も驚いたのは、音声も生成できることです。キャラクターが歌い、リップシンクも行います。Heygenやその他のキャラクターアニメーション系アプリのような機能も持っています。ビデオ生成モデルがそれらの機能も備えているとは驚くべきことです。
最初はUIがとてもシンプルで、音声制御や声による制御という表示を見ても理解できませんでした。スクロールすると全てが再生され始める問題もありますが、フォーリー効果音も生成できます。
映画業界の方はご存じだと思いますが、映画の音は実際の撮影音ではなく、靴を履いて具体的な表面の上を歩く音を録音するなど、後から追加されます。このモデルはそういった効果音も生成します。
音声付きで共有しましょう。「車のエンジンが唸る」「水が流れ落ちる」といったプロンプトに対して、ビデオと音声を生成します。SORAの課題の1つは音声がないことでしたが、このモデルはその両方を生成できます。
Wolfromさん、さらに驚くべきことに、このモデルは表情やアニメーションも制御できます。1枚の画像から、アニメーション動画を作成し、その動きを制御できます。Papers with Codeのコンペティションでは、この機能だけでも賞を獲得できるレベルです。
このモデルは全ての機能を1つに統合し、17ビリオンパラメータという規模です。これほど多くの機能を1つのモデルに詰め込めるとは信じられません。全身のパペット操作も可能で、手の動きまで制御できます。
GitHubに論文もあり、画像からビデオへの変換も近日中に公開予定とのことです。このモデルはオープンソースで、テキストからビデオへの変換は既にRunwayやFalなどで試すことができます。現在は生成に時間がかかりますが、オープンソースコミュニティが改善していくでしょう。
次に、今週のもう1つの驚くべき発表であるFishSpeech 1.5について話しましょう。Wolfromさん、ベンチマークが終わってこれらを試せることを楽しみにしていますね。
FishSpeechは最先端の性能を持つオープンソースモデルです。開発者の声を聞いてみましょう:
「数ヶ月の集中的な作業の末、FishSpeech 1.5が正式にローンチしました。精度、言語能力、感情表現が大幅に向上し、5つの新しい言語にも対応しています。素晴らしいでしょう? 今日の太陽は本当に素晴らしく、気分も明るくなりますね。」
Hugging FaceのTTSアリーナを運営するViB氏によると、このモデルは500ミリオンパラメータで100万時間の音声でトレーニングされており、規模の割に非常に印象的な性能を示しています。
レイテンシーは150ミリ秒未満で、人間にとって300ミリ秒以下は瞬時と感じられるため、リアルタイムインターフェースに適しています。非商用ライセンスでオープンソースとして公開されており、研究目的で利用できます。
最も重要な点は、ブラインドテストで現在2位にランクインしていることです。様々なTTSを聞き比べて評価した結果、11 Labsに次ぐ性能を示しています。
オープンソース、オープンウェイトでこれほどの成果が得られていることは注目に値します。TencentのHeyuan videoは独自のベンチマークでRunway Gen 3やLuma Labs、Luma Dream Machine 1.6を上回り、このモデルは11 Labs以外の全てのモデルを上回っています。
Play.ht、その他のモデルも上回っています。オープンソースコミュニティにとって大きな成果です。みなさん、同じ週に、ローカルマシンで実行できるオープンウェイトモデルが既存の商用モデルを上回り、一方で世界最高性能でGPQ問題を90%解決できる最も高価なモデルも登場したことは驚くべきことだと思いませんか?
本当に素晴らしい週でした。Fish Speech、Tencent、Genieについて少し触れ、Novaについても話しました。最後にGen Castについて、Yamさんの意見を聞かせてください。非常に興味深い成果だと思います。
実行には1台のTPUが必要とのことですが、ローカルで実行したり、同様のモデルをトレーニングしたりする場合はどうでしょうか?
まず説明させてください。これは非常に興味深いものです。Deep MindとGoogleは、最先端の気象予測モデルGen Castに関する論文をNatureで発表しました。
以前の決定論的アルゴリズムによる気象予測モデルとは異なり、これは生成AIモデルです。Gen Castと呼ばれる所以です。拡散モデルを使用し、おそらく同じトランスフォーマーベースの技術でしょうか?
最も重要な点は、天候についてではなく、拡散モデルを自己回帰的に使用している点です。画像の拡散をビデオのように考えると、ステップバイステップで画像をデノイズしていきます。
拡散モデルと自己回帰モデルには関連性があり、この論文でそれを美しく示しています。未来を予測する際に拡散の概念を使用し、複数の可能性を考慮してアンサンブルを行います。
気象予測という非常に難しい問題に対して、エンドツーエンドのパイプラインを実現しました。この手法は多くの可能性を秘めています。
欧州中期気象予報センター(ECMWF)のアンサンブルモデルが以前の最高性能でしたが、Gen Castはこれを上回ります。13,300以上の予測の97%で、36時間以上先の予測では99%の精度で上回りました。
しかし最も注目すべきは、Google Cloud TPU V5 1台で15日間の予測をわずか8分で生成できることです。アンサンブルの各予測は並列で生成可能です。
従来の物理ベースのアンサンブル予測では、数万のプロセッサを持つスーパーコンピュータで数時間かかっていました。生成モデルであることに加えて、99%の精度で従来モデルを上回り、単一のTPUでわずか8分という点が驚くべきことです。
Googleは大量のTPUを持っているので、これは非常に重要です。専用スーパーコンピュータで数時間かかっていたものを上回る結果が得られます。
これは私たちがThursdAIで話してきた全ての要素を体現しています。2年前にGPT-4が登場し、画像マルチモダリティについて議論した時から考えると、今では7万枚の画像のキャプション生成が9ドルで可能になり、世界最高の性能を持つモデルも画像を理解できるようになりました。
そして今、世界最高の気象予測モデルが、スーパーコンピュータベースの予測を単一TPUでわずか8分で上回ることができます。技術の加速は驚くべきものです。Wolfromさん、その通りですね。
これで今日のThursdAIを終了したいと思います。主な話題を振り返ってみましょう。
OpenAIの12日間の発表が始まり、毎日新しい発表が行われます。Superbaseなど他の企業も同様の取り組みを行っていますが、OpenAIは多くの注目を集め、最後にはSORAを発表するかもしれません。
今日はO1の完全版が発表され、プレビュー版から大幅に改善されました。60%高速化され、O1 Proモードではさらに多くの計算リソースが割り当てられます。
また、月額200ドルのProティアが発表され、O1、音声モードなどが無制限で利用可能です。これは従来の20ドルの10倍の価格です。
3つの新しいオープンソースモデルについても話しました。News ResearchのDrroとDemoは、15ビリオンパラメータの分散型モデルのトレーニングを今日完了し、まもなくPsycheという名前でリリースされる予定です。
RCのLucasさんからPrime IntellectのIntellect One、10ビリオンパラメータの分散型モデルについて伺いました。最近リリースされ、1年前のLlama 2と同等の性能を示しています。1年前のLlama 2のリリースを思い返すと感慨深いものがあります。
Ruia Deep Thoughtは、フレンドオブザポッドのFarel、Sendex、Alpinが開発した8ビリオンパラメータの推論モデルです。Llamaをファインチューニングし、透明な推論プロセスを実現しました。APIも提供され、テスト時の計算リソースもスケーリング可能です。
Gen Castについて話しました。これはGoogleが重みとデータセットをオープンソースで公開した拡散モデルで、気象コミュニティにとって大きな進展です。
GoogleからはPemma 2という視覚モデルのセットも公開されましたが、まだテストはしていません。現在LMSアリーナでトップのPixrと比較してどうか、一部の指標ではQwen VLを上回るとのことです。
AmazonはNovaシリーズの基盤モデルを発表しました。性能は必ずしも最高ではありませんが、価格競争力があります。
GoogleのGenieは画像から1分間プレイ可能な世界を生成し、キャラクターが走り回れる3D環境を作り出します。物理演算も記憶も備えています。F. Li博士のラボも画像から世界を構築する技術を発表しました。
Weights and BiasesのWeaveがGAでリリースされ、実際のユースケースも紹介されました。
TencentのHeyuan videoは、LumaやRunwayの商用モデルを上回る性能を示し、パペット操作や音声生成など多くの機能を備えています。欧州を除く地域で、1億ユーザーまでの商用利用が可能です。
最後にFishSpeech 1.5は、自然な音声を生成するTTSモデルで、TTSアリーナで11 Labsに次ぐ2位にランクインしました。これも商用モデルを上回る成果です。
AIの世界は目まぐるしく進化しています。今日は通常より長めになりましたが、15分のライブストリーム視聴も含め、2,500人以上の方々に視聴いただきました。
共同ホストのYamさん、LDJさん、Wolfromさん、そして参加してくださった皆様に感謝いたします。スポンサーのWeaveにもお礼を申し上げます。TwitterスペースでWeaveをフォローしていただけると嬉しいです。
今回のThursdAIはここまでです。見逃した部分は、ニュースレターとポッドキャストで配信されます。
来週はNeurIPSウィークです。NeurIPSは世界最大の機械学習会議の1つです。私はNeurIPSからライブストリーミングを行う予定です。LinkedInやTwitterなどでフォローしてください。
ショー自体もNeurIPSから配信予定です。おそらくホテルからの音声のみの配信になるかもしれません。欧州の方は、Weights and BiasesのブースB404にお立ち寄りください。
来週もお会いしましょう。12月5日のThursdAIでした。ありがとうございました。
コメント