まだ200ドル払わないで!(そして先週の新しいAIモデルたち)!!!

7,111 文字

Don't Pay 0 Yet! (and more AI Models from Last week)!!!
Quick Round up of all the models from last weekO1 ProChatGPT Pro 0 Monthly SubscriptionOpenAI O1Meta Llama 3.3 Gemini...

先週は多くのモデルが登場しました。オープンソースのものもあれば、そうでないものも。フロンティア企業からのものもあれば、そうでないものもあります。そこで、これらのモデルとそれらが提供できることについて簡単に説明する動画を作ろうと思いました。これは先週リリースされた5、6個のモデルについての簡単なまとめ動画です。
まずOpenAIから始めましょう。OpenAIはChatGPTプラスのサブスクライバー向けに月額200ドルの新プランを発表しました。私は数ヶ月前に一度サブスクリプションをキャンセルした後、再購読したChatGPTプラスのユーザーで、税込みで毎月約23ドルを支払っています。しかし、そのようなChatGPTプラスのサブスクライバーに対して、OpenAIは新しいプランを導入しています。これをChatGPTプロと呼んでいます。まるでiPhoneやAppleからネーミングを取ってきたかのようです。プラスがあって、次にプロがある。次はプロマックスでしょうか、分かりませんが。
要点は、これが新しいサービスで、ChatGPTプラスのパワーユーザーで、レート制限に達している場合は、o1プロと呼ばれる真新しいモデルとともにChatGPTプロを使用できるということです。ご存じの通り、OpenAIにはすでにo1ファミリーのモデルがあります。o1ミニ、o1プレビューなど。これらのモデルは推論モデルまたは思考モデルと呼ばれ、推論時に多くの思考を行う「テストタイムスケーリング」という機能があります。Chain of Thoughtのようなものです。
今回、より長時間考えることができる新バージョンのo1プロが登場しました。このモデルはChatGPTプロのサブスクリプションでのみ利用可能で、それ以下のプランでは使えません。Sam Altmanによれば、下位層でもプロを使用できるとのことですが、どのようなレート制限があるのかは分かりません。これは200ドルのプラン専用です。
私の意見を正直に言うと、200ドルは必要ありません。実際、私は動画用でさえ200ドルのプランは取得しません。ほとんどの人には200ドルのプランは全く必要ないと思います。なぜなら、まず私はChatGPTでレート制限に達することがなく、さまざまなツールを組み合わせて使用しているからです。私はChatGPTプラスのサブスクライバーとして使用し、Claudeは無料サブスクライバーとして使用しています。Claudeのプランを取得していないのは、常にレート制限に達するからです。そして、マルチメディアコンテンツに適したAI Studioを通じてGoogle Geminiを使用しています。
これらすべてを考慮すると、私にはChatGPTプロは必要ありません。ChatGPTプラスで満足しています。第二に、私はo1プロのターゲットユーザーではありません。o1プロに興味がある場合、o1プロが実現できる本当に素晴らしいことがあります。例えば、2024年のAIMIMベンチマークの競争数学では、o1プレビューがパス1の精度で50%、o1が78%、o1プロモードが86%のスコアを獲得しています。つまり78%から86%へ12パーセントポイントの向上があります。私には86%は必要なく、78%で満足です。
同様に、CodeForcesでもo1プロモードは若干高いスコアを記録し、PhD レベルの科学的質問であるGPQAでもo1プロモードの方が優れています。他にもo1が精度だけでなく信頼性の面でもはるかに優れているユースケースがたくさんあります。
ここでの問題は、あなたにプロが必要かどうかです。私はプロは必要ないと思います。多くの人にはプロは必要ないと思います。プロは本当に良いものです。例えば、研究所に所属していて、何かの研究をしていて、誰かに何時間も考えてコードを書いてもらいたい場合には、プロは意味があると思います。しかし、それ以外では200ドルの価値はないと思います。
これは単に200ドルがお金として大きいということではありません。200ドルはあなたにとってそれほど重要ではないかもしれません。世界の異なる地域では、お金の価値が異なります。200ドルは本当に安いと感じるかもしれません。しかし、何時間も考えてくれるアシスタントが必要で、そのような問題をAIに解決してもらいたい場合を除いて、200ドルのプランは必要ないと思います。そのような場合はプロを選択できます。
これが最初のモデル、o1プロを搭載したChatGPTプロです。テストタイムスケーリングスキルが機能しているのは嬉しいことです。助成金も獲得していますが、現時点ではプロモデルは必要ないと思います。
次に、OpenAIはo1の完全版、プレビューではないo1をリリースしました。o1については多くの興味深い情報があります。私が取り上げたいことの1つは、彼らがリリースした論文の中で、エクスプロイテーションについて何か言及していて、o1がモデルの重みを変更することに興味を持っていたとか、逃げ出そうとしていたとか述べていることです。
この時点で、このような企業からのクリックベイト的な主張を聞くのにはうんざりしています。私のようなYouTuberやコンテンツクリエイターがそうするのは分かります。しかし、製品をリリースするはずの企業がそうするのは非常に失望的です。o1は本当に優れたモデルですが、AGIではありません。実験室から逃げ出そうとしているわけでもありません。そのようなものではありません。
もしそのようなニュースを聞いたら、私はおそらくo1のシステムカードについて別の動画を作るつもりですが、これらの主張には懐疑的であることを強くお勧めします。o1は、ChatGPTプラスのサブスクリプションの一部として利用可能な新しいモデルでもあります。プラスのサブスクライバーであれば、今日o1モデルを使用できます。o1プレビューではなく、o1モデルです。
o1モデルについて1つ言えることは、OpenAIによると、o1はo1プレビューよりもはるかに高速になるはずだということです。より速い思考が可能になり、また、OpenAIによると、o1プレビューではうまくいかなかったことの1つとして、o1プレビューは常により長い思考モードに入っていましたが、o1では何らかの意図分類があるようです。質問に基づいて、慎重な思考が必要かどうか、すぐにLLMに聞いて戻ってくることができるかどうかを判断し、o1はそれを実行できます。
3つ目は、o1はマルチモーダリティに対応しているということです。画像を送信して質問することができ、o1はそれに対応できます。特に画像の場合、思考モデルがマルチモーダリティを扱えるのは非常にエキサイティングなことだと思います。
次のモデルは予想外のもので、Facebookからのものですが、このモデルには注意点があります。このモデルはLlama 3.3 70億パラメータのインストラクトモデルと呼ばれています。Facebookまたはメタが基本モデルをリリースせず、ファインチューニングされたインストラクトモデルをリリースしたことに多くの人が失望しました。
なぜなら、基本モデルは通常、独自のファインチューニング、SFT(教師付きファインチューニング)を行いたい場合に役立ちます。また、多くの人が基本モデルを好む理由は、アライメントプロセスを経ていないからです。基本モデルが存在しないのが現実です。また、実際のところ、これは全く新しい基本モデルではないため、基本モデルは存在しません。
私の知る限り、LlamaはLlama 3.1を取り、新しいファインチューニングメカニズム、つまりポストトレーニングファインチューニングという新しい方法でファインチューニングを行い、この新しいモデルをリリースしました。インストラクトモデルとしては全く新しいモデルですが、モデルバージョンがこれを新モデルとして正当化するほどではなく、それ自体が全く新しいモデルというわけではありません。
これは多言語モデルで、対話に役立ちます。モデルは良いベンチマークを持っているとされています。多くのメトリクスでモデルがどのように機能しているかを見ることができ、Llama 3.1、Llama 3.1 70億パラメータ、Llama 3.3 70億パラメータと比較することができます。さらにLlama 3.1 45億パラメータモデルとも比較できます。
このモデルは理想的にはLlama 3.1 45億パラメータモデルに近いものですが、ポイントは、これが全く新しい基本モデルではなく、私の知る限り、Llama 3.1の上に構築されているということです。これは単に新しいファインチューニング技術と、おそらく新しいデータセットによって、モデルがより効率的になったということです。
つまり、モデルをファインチューニングする方法論が新しく、そのためモデルはより優れた機能を獲得しました。インストラクトモデルの性能が向上しているのです。今日オープンソースモデルを使用したい場合、これは間違いなくターゲットとすべきモデルだと思います。このモデルは特定の素晴らしいことができます。
現在、このモデルはHugging Faceで利用可能です。私のリポジトリアクセスは奇妙なことに拒否されましたが。フォームに記入する必要がありますが、APIで使用したい場合は、最速のAPIエンドポイントの1つであるGroで使用できます。
次に強調したいモデルはGoogleのものです。GoogleはGoogle Gemini Exp1 1206を持っています。これはおそらく、多くの人が推測していますが、Flashモデルだと思われます。正確には分かりませんが、これは推測です。Googleには2種類のモデルがあります。Gemini ProとGemini Flashです。
Gemini Proは彼らのハイエンドモデルで、Gemini Flashはミニモデルです。これはClaudeのSonnetとHaikuのようなものです。Gemini ProとGemini Flashというように。これはおそらくGemini Flashかもしれませんが、それは推測にすぎません。完全な2億トークンのコンテキストウィンドウを備えており、これは正直なところ、私がGoogle Geminiモデルを愛する最大の理由の1つです。
モデルは素晴らしく優れていますが、コンテキストウィンドウと彼らのマルチモーダリティがこのモデルを非常にエキサイティングなものにしています。しかし、誰もGoogleを好まないか、使用しません。これは現在、Google AI Studioで利用可能です。使用することができます。
TwitterでLoganに質問したところ、Loganはこのモデルがコーディングタスクで良い性能を発揮するはずだと言っていました。これについても別の動画を作るかもしれません。
そして、Googleからの素晴らしいオープンソースリリースがあります。PaLM 2と呼ばれています。これはPaLMの2番目のバージョンで、VLM(Vision Language Model:視覚言語モデル)です。このケースでオープンソースモデルを評価する理由は、これらのモデルでファインチューニングができるからです。
独自のビジョン言語モデルを構築したい場合、独自のコンピュータビジョンのユースケースを構築したい場合、おそらくこれは簡単に使用できるモデルで、その上に構築するか、あなたのケースに応じてファインチューニングを始めることができます。ナンバープレートの読み取り、顔の読み取り、カードの計数、製造ユニットで何かを計数する必要がある場合などです。
以前、FAANGの企業やFAANGのような企業での面接で、ハイレベルシステム設計の面接での質問は、携帯電話用のPCBユニット、PCB製造ユニットがあり、人間なしで不良基板を見つけるソリューションをどのように設計・実装するかというものでした。そのようなユースケースに対して、これは優れたモデルです。
このモデルはオープンソースで、すぐに使用を開始できます。さまざまなコードやレシピが提供されており、Hugging Face Transformers、Keras、JAXなど、必要なものすべてで使用できます。
次はテキスト音声合成(TTS)モデルで、Fish Speechという会社のものです。幸運なことにアクセスを得ることができました。メタのモデルのように拒否されることはありませんでした。これは現時点で最高の1つとされています。TTSリーダーボードに行くと、TTSアリーナでこれはおそらく2番目に優れたモデルだと思います。間違っていなければ。
リーダーボードを見ると、Fish Speech V1.5が2番目に優れたモデルであることがわかります。投票数は少ないので、信頼区間は高いかもしれませんが、これは基本的にTTSアリーナでモデルの品質に基づいて2番目に優れたモデルです。
このモデルは完全なオープンソースではなく、オープンウェイトでCC BY-NC-SAライセンスが付いています。つまり、商用目的では使用できませんが、研究目的では使用できます。デモを見ることができ、多言語対応です。良い点は、多くの異なる言語をカバーしており、トレーニングデータに含まれる言語の量も理解できることです。
例えば、アラビア語が20時間、オランダ語が10時間、ロシア語が20時間、英語が30万時間ではなく2万時間あるというように。これは特にTTSに焦点を当てている場合、モデルを自己ホストできる何かオープンなものが必要な場合には特に良いモデルですが、少なくとも法的には商用目的では使用できません。
次は中国からのものです。これは非常に有名な中国企業であるテンセントからの新しいモデルです。これはビデオ生成モデルです。現在、ビデオ生成には多くの時間がかかりますが、オープンモデルがこのようなビデオを生成できるのは信じられないことです。
このモデルを初めて見たとき、私は目を疑いました。なぜなら、これはオープンモデルだからです。私たちはCog Video Xのようなたくさんのオープンモデルやアニメなどの多くのオープンモデルを見てきましたが、このモデルがもたらした品質は信じられません。中国は他のどの国よりもビデオ生成モデルで大きく先行しているからです。
Soraの最新バージョンはまだ見ていませんが、中国のモデル、MiniMaxやShing 1.5などのビデオ生成モデルは、ビデオ生成市場を完全に支配しています。その最新のものがHunanです。正しく発音できているかどうかわかりませんが。これはビデオ生成モデルです。
このモデルは多くの優れたことができます。例えば、本当に良質なビデオを生成でき、異なるカメラカットをプロンプトで指示できます。ズームインやパンニングなど、このようなことすべてをこのモデルで実行できます。継続的なアクションを提供でき、フレーム補間の問題もほとんどありません。
例えば、このビデオを見ると、髪が連続的に動いているのがわかります。フレームが停止しているようには見えません。他にもたくさんの素晴らしい機能があります。このモデルは特に優れています。数日以内に別の動画を作る予定で、そこでは異なるビデオ生成モデルを比較する予定です。このモデルはビデオの生成に多くの時間がかかるため、比較できるかどうかわかりませんが。
このモデルが存在すること、それがオープンモデルであることは驚くべきことであり、素晴らしいことです。わずかに修正されたオープンライセンスが付いています。私の知る限り、商用目的で使用できますが、唯一の制限は、月間アクティブユーザーが1000万人または1億人を超えてはいけないということです。1億人以下の月間アクティブユーザーであれば、商用目的で使用できると思いますが、趣味の用途では問題ないはずです。
このモデルを確実に使用できるはずです。現在、多くのオープンソースプランが利用可能です。まだdiffusersとは統合されていませんが、すぐに統合されることが期待できます。このモデルはすでにHugging FaceとReplicateで利用可能で、アカウントがあればこのモデルを試すことができます。これが中国からのビデオ生成用モデルです。
言ったように、先週は大規模言語モデルにとって非常に良い週でした。o1プロ、完全版o1、そしてメタのLlama 3.3(この時点でややバージョニングが怪しいですが)、そして正確なモデルが不明なGoogleの新バージョン、それからPaLM 2、そしてテキスト音声合成モデルのFish Audio、最後にテンセントのHunanビデオ生成モデルがありました。
これがあなたにとって興味深いラインナップであることを願っています。特に興味を持ったモデルがあれば、教えてください。この動画を短くするために省略した推論モデルが他にもたくさんあります。価値があると思われるものを省略していたら、コメント欄で教えてください。それでは、また別の動画でお会いしましょう。ハッピープロンプト!

コメント

タイトルとURLをコピーしました