O3 Mini、Mistral、Gemini Flash、そしてDeepSeek – AIの競争が加熱している!

3,920 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

米国と中国の間には実際の競争があります。DeepSeekを試してみましたか?私自身は試していませんが、見てきました。彼らが行ったことの中で賢明だと思ったのは、思考の連鎖と呼ばれるものを公開したことです。技術がどのように推論を行っているのかを実際に見ることができます。OpenAIは9月にo1という同じ技術を持つものをリリースしました。私たちは自社の技術が依然として先行していると考えており、本日金曜日にはO3を含む追加モデルをリリースする予定です。
重要なのは、OpenAIのおかげで米国としてリードを維持し続けているということです。インフラが必要です。なぜならインフラが運命を決定づけるからです。OpenAIのChief Global Affairs officerであるCrystal Hayneに感謝します。
ついにOpenAIからO3 Miniに関する潜在的なリリース日が発表されました。数週間前、Samは、バージョンを確定し、数週間以内に出荷を計画してリリースプロセスを開始していると述べました。Reutersの報道によると、OpenAIは1月末にO3 Miniを、その後に完全版のO3をリリースする予定だったとのことです。
このモデルには多くの期待が寄せられていますが、今日の主なニュースは、いくつかのオープンソースモデルのリリースでした。これについては後ほど詳しく説明し、また、DeepSeekの蒸留版を完全に無料でAPIを通じて利用できる方法もお見せします。これは米国ベースです。
OpenAIの人々はO3 Miniを本当に大きく宣伝しています。Dylanのツイートを見てみましょう。「O3 Miniは本当に素晴らしい。卓越した知性と驚異的な速さ。GPT-4以来、こんなにモデルに興奮したことはない」。私個人としても、これが大きなマイルストーンになることを期待しています。初期のベンチマークに基づくと、完全版のO3はArcの価格で素晴らしい性能を示しましたが。
木曜日の主要なニュースは、Mistral Small 3のリリースでした。彼らはついにApache 2.0ライセンスでオープンソースモデルをリリースしました。前回の動画で、Mistralは長らく大規模言語モデルをリリースしていないと言及しましたが、彼らは私の声を聞いたようです。
彼らの焦点はパフォーマンスとレイテンシーにありました。このモデルは、パフォーマンスと推論速度(レイテンシー)のバランスが非常に良好です。推論は increasingly重要になってきているので、小型の高密度モデルが推論に最適化されているのを見るのは本当に良いことです。
ただし、これは推論モデルではありません。推論目的には使用できず、強化学習や合成データでも訓練されていません。すべて人間が生成したデータを使用しているようで、そのため彼らは、このモデルはDeepSeek-CoT-1のようなモデルよりも製品パイプラインの初期段階にあると述べています。推論モデルは開発中で、まもなくリリースされる予定のようです。興味深いことに、今や誰もが自社のモデルをDeepSeek-CoT-1と比較しているのが分かります。
パフォーマンスに関して、特に70Bの大規模なMistralモデルと比較すると、そのサイズに対して本当に良いバランスを取れているようです。Mistralが西洋世界では数少ない、中国のモデルと自社のモデルを比較している提供者の一つであることを見るのは嬉しいことです。
このモデルについてより詳細な動画を作成し、テストも行う予定ですが、このリリースからいくつかの重要な点を強調したいと思います。
まず一つ目は、Mistralのオープンソースモデルについてです。彼らは「MLIRライセンスのモデルから段階的に移行するにつれて、汎用モデルにApache 2.0ライセンスを使用することへのコミットメントを更新します」と述べています。これは本当に良いニュースです。なぜならMistralは、当初ほぼすべてのモデルをApache 2.0でリリースする企業としてスタートしたからです。
このモデルをローカルでダウンロードして実行することができ、また彼らのプラットフォームのAPI経由でも利用可能です。
二つ目の興味深い点は、人間による評価です。ほとんどすべてのモデル作成者はベンチマークでの結果を報告していますが、彼らは外部の第三者ベンダーとともにサイドバイサイド評価を実施しました。1,000以上の独自のコーディングとジャーナリストのプロンプトを用意し、人間の評価者にモデルの応答に基づいて好ましいモデルを選択するよう依頼しました。その際、どのモデルが応答を生成しているかは伝えられませんでした。
基本的に、その盲検結果に基づいて、モデルの応答に関する人間の評価者の選好を調査しました。このアプローチは医学研究で広く使用されているので、これを見るのは本当に素晴らしいことです。これにより、人々があなたのモデルからの応答を好むかどうかについて、本当に良い考えが得られます。Chatbot Arenaのリーダーボードも同じことを行っています。
Mistral Small 3の他に、もう一つのリリースがありました。これはLen AIインスティテュートのTulu 3 405Bで、このモデルはDeepSeek V3のパフォーマンスを上回っており、これは非常に大きなニュースです。彼らは検証可能な報酬と呼ばれる新しい強化学習技術を開発する必要があり、これを使用してLlama 3.1 405Bをスケーリングし、DeepSeek V3とGPT-4の両方のパフォーマンスを上回ることができました。
彼らは「DeepSeek V3のパフォーマンスを上回るためのTulu 3事後トレーニングレシピのスケーリング」というブログ記事もリリースしました。以前にも述べたように、DeepSeekは一種のゴールドスタンダードになりつつあり、これは素晴らしいことです。
DeepSeekの話題が出たところで、他のいくつかの発表も見てみましょう。まず一つ目は、Together AIが現在、DeepSeek-CoT-1蒸留Llama 70Bモデルを無料でホスティングしているということです。ツイートを見てみましょう:「DeepSeek-CoT-1 L 70B蒸留モデル用の新しい100%無料APIエンドポイント」。これは600B以上のフルモデルではありませんが、70B蒸留モデルであり、それでも無料のAPIがあります。
彼らは自社のデータセンターでこれらのモデルをホストしており、データがDeepSeekに送り返されることは一切ありません。これがオープンソースの美しさです。中国にデータを送り返すことを心配する必要はありません。自分でこれらのモデルをホストすることも可能ですし、データプライバシーを心配する場合はTogether AIのようなサービスを使用することもできます。
無料モデルエンドポイントは、DeepSeek-CoT-1モデルのプロ向けターボエンドポイントと比較して、レート制限とパフォーマンスが低下しています。それでも無料のAPIエンドポイントが得られるのは常に良いニュースですが、有料サービスを探している場合、AWSはMicrosoftと同様に、現在Amazon BedrockでDeepSeek-CoT-1モデルをホストしています。
公式APIを使用したくない場合は、かなりの選択肢があります。公式APIは多くの人々が使用していて、すべてのAPIリクエストに対応できないという問題があるようです。米国内で選択肢があるのを見るのは素晴らしいことです。
他のニュースでは、GeminiがGeminiアプリで実験版ではなくGemini 2.0 Flashを有効にしました。Gemini.google.comにアクセスすると、現在Gemini 2.0 Flashを見ることができます。これは実験版ではなく安定版です。このモデルは非常に興味深く見えるのでテストする予定です。ご期待ください。
ここまで視聴してくださった方に、私が愛用しているトリックをお見せしたいと思います。私にはもう機能しなくなってしまいましたが、皆さんにもテストして機能するかどうか確認することをお勧めします。
私にはもう機能しませんが、試してみると「申し訳ありません。DeepSeekサービスがビジー状態です。検索を無効にするか、数分後に再試行してください」というメッセージが常に表示されます。私はこれを毎日使用していました。その理由は、英語のウェブサイトと一緒に中国のウェブサイトも検索してくれるからですが、応答は常に英語でした。
中国のウェブサイトやインターネットには、西洋のウェブサイトでは利用できない多くの情報があります。私は特に技術的なことについて話しています。政治には全く興味がありませんが、中国のウェブサイトには英語のウェブサイトでは入手できない多くの技術的な情報が共有されていることに気付きます。
まだ機能する場合は、DeepSeek-CoT-1の検索機能を使用することを強くお勧めします。後で私に感謝することになるでしょう。
Mistral Small 3のテストに関する動画がまもなく公開されます。興味がある方はチャンネルを購読してください。
とにかく、この動画が役立つことを願っています。ご視聴ありがとうございました。いつものように、次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました