
10,764 文字

AIレースでGoogleがここまで遅れをとっていたことには驚きがありました。彼らの歴史、保有するデータ量、そしてすでに実現していることを考えると、これほどの遅れは理解できません。Googleの検索が勝利を収めた理由は、私たちが期待する検索機能に合わせて適切なアルゴリズムを書き、適切なデータを収集したからでした。
しかし今日、彼らはもはや遅れをとっているとは感じません。なぜならGemini 2.0は本当に素晴らしいからです。予想以上に優れていて、おそらく皆さんが予想もしない理由で優れています。これは私が見た中で、最も印象的なDeepSeekへの対抗策だと思います。
そして私はこれがとても気に入ったので、T3チャットで無料で利用できるようにしました。そうです、本当です。T3チャット2.0のflashが今無料で、さらに高速なflashlightも使えます。送信速度が信じられないほど速いんです。これがリアルタイムなんです。完了です。
ただし、何か落とし穴があるはずですよね?とても高価だったり、DBに問題があったりするはずです。落とし穴があるかどうかを確認するには、さらに詳しく調べる必要があります。
本題に入る前に、今日のスポンサーからひと言。誰かがこのAI料金を支払う必要がありますからね。
私のチャンネルをご覧の方は、Vercelのような開発者体験の素晴らしさをご存知でしょう。JavaScriptの開発者でない方は、おそらくそれを体験する機会がなかったかもしれません。今日のスポンサーであるSavalyは、そのような体験を誰もが得られるようにしています。
Savalyはほぼすべてのものをデプロイできます。彼らはPHPに非常に詳しく、大手WordPressホストのKinstaの一部ですが、それ以上の知識を持っています。私はPHPが得意ではありませんが、わずか5クリックでLaravelアプリを実際にデプロイすることができました。以前は自分でその方法を見つけるのに多くの時間を費やしていました。
ここで見られるような画像だけを扱っているのなら、それはそれで良いのですが、彼らはそれ以上のことをしています。実際にCloudflareを前面に設置し、行っているすべての作業を表示してくれます。画像や静的ページなどの静的アセットがある場合、PHPサーバーが起動して解決するのを待つ必要はありません。代わりにCloudflareに置くことができ、これらはすべてデータベースを含めて設定可能です。
サーバーレスでない場合、プルリクエストが提出されたときのプレビュービルドが本当に恋しくなります。URLが付いたビルドがあり、その動作を確認できます。ここでの設定は驚くほど簡単です。パイプラインに移動すると、私が提出したこのPRが表示されます。プレビューアプリを作成できます。ボタンをクリックするだけで即座に起動します。自動的に実行されるように設定することもできます。
そしてPRが承認されてメインにマージされると、自動的に本番環境へのデプロイを行うことができます。現代の開発者が実際に必要としているものを理解した、よりモダンなサーバーホスティングをお探しの方には、Savalyは最適な選択肢の1つです。今日Savalyをチェックして、50ドルの無料クレジットを獲得してください。
さて、私のお気に入りのサイト、Artificial Analysisから始めましょう。私はこのサイトに多くの時間を費やしてきましたが、注目すべきは、彼らはまだ公式のflashデプロイメントで更新していないということです。まだ実験版を使用しています。
Googleの実験モデルの奇妙な点の1つは、料金を請求しないことです。レート制限は厳しいですが、無料でアクセスできます。私の知る限り、2.0 flashモデルは実験版とまったく同じか、ほぼ同じでしょう。違いは、今では料金が発生するということです。これはレート制限を大幅に引き上げられることを意味しますが、同時にコストが明確になったということでもあります。
以前は、これらの実験モデルを使用すると、実際のトラフィックがある場合、ほぼ確実にレート制限に達してしまいました。さらに重要なことは、実際にリリースされたときに請求額が予測できないということでした。4.0 miniのように100万入力トークンあたり15セントで価格設定されるのか、それともo1のように100万入力トークンあたり15ドルで価格設定されるのか。
私はこれらの数字を追跡するのに苦労してきました。なぜなら追跡が難しいからです。Artificial Analysisは素晴らしい仕事をしていますが、単純に出力するだけではありません。4.0は標準的なモデルで、入力100万トークンあたり2.50ドル、出力100万トークンあたり10ドルです。悪くはありませんが、素晴らしいわけでもありません。
4.0 miniは驚くほど安価で、入力100万トークンあたり15セント、出力100万トークンあたり60セントと、10分の1以下のコストです。o1は信じられないほど高価で、4.0 miniの100倍のコストがかかりますが、これらのモデルを実行するために必要な計算コストを考えると理解できます。
そして、私の最大の悩みであり、破産しそうになった原因のClaude 3.5 Sonnetは、入力100万トークンあたり3ドル、出力100万トークンあたり15ドルです。
しかしDeepSeekが登場し、すべてを一変させました。標準モデルは入力100万トークンあたり27セント、出力100万トークンあたり1.10ドルです。古いバージョンは4.0 miniよりも安価で、これは驚きです。
そしてR1は入力100万トークンあたり55セント、出力100万トークンあたり2.20ドルと信じられないほど安価です。特に品質を考慮すると素晴らしいです。ほとんどの評価において、OpenAIの推論モデルと同等かそれ以上の性能を発揮しています。コーディングのヒューマン評価(難しいコード問題を解く試験)では、R1はo1を上回りました。僅差でしたが、勝利しました。本当に優れたモデルで、この価格は驚異的です。
ここの品質対価格のセクションを見ると、o1が右上の角に大きく外れているのが分かります。o1をオフにしてみましょう。グラフが壊れてしまうので。すると興味深いことが分かります。R1、o03 mini、V3はすべて、価格対品質の分析においてより合理的な位置にあります。
Claudeは、これらの新しいモデルと比較すると品質が低い割には非常に高価です。そして4.0 miniは驚くほど安価ですが、同時に驚くほど優れているわけではありません。
Geminiがここに含まれていないことに気付くでしょう。その理由は、撮影時点でこのサイトが新しいGemini flashモデルと新しい価格で更新されていないからです。
では、どれくらい高価になるのでしょうか?品質は確かにあります。他のモデルに非常に近づいています。推論モデルに近づき、多くの場面でClaudeを上回っています。コードでは接近していますが、他のほぼすべての場面で上回っています。
私は自分自身を破産させることになるのでしょうか?これを無料で提供することで。入力100万トークンあたり10セント、出力100万トークンあたり40セント。これはlightモデルですか?いいえ、lightモデルは入力100万トークンあたり7セント、出力100万トークンあたり30セントです。
私たちは新しい最安値モデルを手に入れました。flashlightは信じられないほどです。これらはどちらも安価で、4.0 miniよりも安価です。どちらもDeepSeekよりも驚くほど安価で、lightモデルは本当に信じられないほど安価で、ほぼ無料と言えるほどです。これは本当に驚きです。
もう1つ重要な注目点はコンテキストウィンドウです。コンテキストウィンドウとは、モデルが応答を生成できる状態を維持したまま、どれだけのデータを渡せるかということです。AIモデルに多すぎるデータを渡すと、処理できなくなって停止してしまいます。
これは別のグラフです。このグラフはコンテキストウィンドウのサイズに基づいています。ここに実際のサイズがあります。Googleのモデルを除外します。なぜなら、あまりにも極端に数値が異なるからです。
ほとんどのモデルは128kトークンのコンテキストを持っています。つまり、約128,000語を渡しても応答を生成できるということです。これはかなりの量の言葉です。かなりの量のトークンです。128kという多くのモデルのトークン上限に、十分に収まる大規模なコードベースをたくさん見てきました。
Claude(SonnetとHaiku)は実際にはかなり高く、200kマークにあります。OpenAIはそれを明らかに挑戦と受け止め、o1とo3 miniで同じレベルに達しました。コンテンツサイズは今や非常に大きくなり、もはや問題とは感じられなくなっています。
GoogleはGemini 1.5で200万に達し、2.0でも100万を維持しています。100万トークンです。ほとんどのコードベースはそのコンテキストウィンドウに収まります。つまり、Geminiに完全なコードベースを渡して何かを探させることができます。
ただし、入力と出力のトークンごとに料金が発生することを忘れないでください。100万トークンのコードベースを渡すと…あ、そうでした。10セントしかかかりません。誰も気にしません。
これが信じられないほど素晴らしい点です。他のモデル、例え4.0 miniのような安価なモデルでも、その種の分析をしようとすると、確かに入力100万トークンあたり15セントという安さですが、その100万トークンを解析可能な形に変換する必要があります。
データを見つけ出し、実際にそのデータを取得して適用する方法を見つけるために、独自のレイヤー、例えばRGのようなものを構築する必要があります。100万トークンということは、そのような心配をする必要がないということです。これは驚異的です。
間もなくリリースされる予定のプロバージョン(現在はアーリーアクセス中)は、再び200万トークンの範囲を持つようです。そしてこれらのベンチマークでも非常に良い結果を出すことはほぼ確実です。
私は新しいモデルのリリースをこんなに楽しみにしているなんて信じられません。YouTubeでもない、Googleの製品をです。特にGoogleからの新しいモデルをこんなに楽しみにしているなんて信じられません。
これらの数字は偽造できません。そして現在のGoogleの数字は本当に良好です。全体的にAnthropicと同様の品質レベルでありながら、価格は比較にならないほど低いです。flashがClaudeと同等かそれ以上の性能を持ちながら、出力トークンのコストが約40分の1というのは驚異的です。
30倍以上のコスト削減で、いくつかの面ではより優れたモデルに移行できるのです。DeepSeekへの懸念は今やほぼ消えたと思います。なぜならGoogleが最も安価な高品質モデルを持っており、これは他の追随を許さないからです。
レート制限に問題がなければ、おそらくこれをT3チャットのデフォルトモデルにするでしょう。なぜなら…これは本当に驚くべきことです。そしてこれが彼らの全てだとしても私は感動したでしょうが、そうではありません。
ここで私は公式のAI Studioにいます。なぜならAPIからまだ思考データを取得できないからです。できるかどうかまだ確認していません。あまり深く調べていませんが、彼らが実際に思考モデルを持っていることを皆さんに見ていただきたいのです。
このGemini 2.0 flash thinking experimentalをご覧ください。コストが0で、レート制限もかなり厳しいことが分かります。1分あたり10回です。まだコストが不明なため、これをT3チャットに追加することはできません。T3チャットの何十万人もの利用者がこれを使用すると、大きな負荷がかかってしまうからです。
しかし、その性能の良さをお見せしたいと思います。もちろん、ここのチャットインターフェースは最高のものではありません。なぜなら、それは彼らの焦点ではないからです。彼らの焦点はモデルにあります。
テストしてみましょう。私のお気に入りの「Advent of code 2021 day 5をPythonで解いて」を試してみます。そして思考を始めました。しかも遅くありません。推論モデルで私が抱えていた問題の1つは、多くのホストが遅く、公式ホストがダウンしていることが多いということです。
DeepSeekで良好なパフォーマンスを得られ、結果と価格に満足していても、彼らのAPIは8日間ダウンしています。なんということでしょう。戻ってきたようなので、ようやく公式プロバイダーからT3チャットに再び追加できそうです。
そのため、実際に使用可能な結果を高速に出力できる、高速な思考推論モデルを持つことは非常に重要です。推論を含めて8秒でそれを解決できたという事実は、多くの面でo3 miniよりも優れていることを意味します。しかもはるかに安価です。
ここで何らかの損失リーダー戦略を採用していると考えるしかありません。なぜなら、これは理解しがたいことだからです。そして、まだ彼らができることの全てを見たわけではありません。
これまで、自動補完やテキストの入出力について話してきましたが、それだけではありません。ここでlightモデルを見てみましょう。lightはテキスト、画像、ビデオ、音声を扱うことができます。標準のflashはさらに多くのことができます。音声に対してはより多くの処理を行うため、少し高価格になっていますが、検索機能も備えています。
モデルに検索を設定できます。他のほとんどのモデルでは、検索を自分で実装する必要があります。現在、ほとんどのAIプロバイダーには「ツール」という概念があり、AIに特定のことができることを説明します。インターフェースを提供し、ウェブサイトなどに接続する実際のものを自分で構築し、「Googleを検索してこれら3つのことを呼び出すことで結果を見つけることができます」と伝えます。
すると、AIはそれらを呼び出して実行し、その結果を使ってテキストを生成できるほど賢くなります。通常、これは自分で設定する必要があります。Browser.devのようなプラットフォームを使用します。Browser.devは素晴らしく、多くのビデオでスポンサーを務めています。彼らは完全にヘッドレスなリモートサーバーレスブラウザのための本当に良いツールを構築しました。
つまり、AIワーカーなどがウェブを閲覧できるようにする方法です。素晴らしいですね。ClaudeやOpenAIのための独自の検索を構築したい場合、Browser.devの周りに構築したツールを説明することで、それらのものを見つけることができます。
Googleはそれを組み込んでいます。考えてみれば理にかなっています。Googleは世界最大の検索企業なのです。なぜモデルに検索機能を持たせないのでしょうか?これが私がGeminiをより詳しく調べ始めた主な理由です。
検索を処理するためのツールシステムの構築に時間をかけたくなかったからです。多くの人がT3チャットでの検索を望んでいます。Googleモデルの機能フラグとして有効にするだけで良いのです。
私はGeminiモデルを提供し、SundarのTwitterの発言に注目し、フォローボタンを押しています。なぜなら、これは今や私のビジネスの一部となったからです。そしてflashlightのリリースは、まったく予想外でした。それをさらに安価にする新しいものを提供するとは。
月額8ドルの安価なAIチャットアプリにとって、良い日ですね。LMSはask Jeevesを復活させる完璧な口実でした。Jeevesだけでなく、アキネーターのことを覚えていますか?オリジナルのAIです。20の質問をして、あなたが考えている人物や物事を特定していました。子供の頃、私はこれに夢中でした。今や私たちは全く新しい世界にいます。
これがこれほど安価になった大きな理由の1つは、彼らの新しいコンピューティングにあるようです。Googleは独自のプロセッサーの開発に本当に熱心に取り組んできました。元々は量子コンピューティング向けでしたが、スマートフォンの性能を向上させるためでもありました。
Qualcommについて長々と話すこともできますが、皆さんにはそれを免じていただきます。ただ、彼らは多くの企業の生活を困難にしているということだけは知っておいてください。Appleと同じように自社チップを開発したいと考えたのは理にかなっています。
しかし、彼らは非常に高性能なコンピューティング向けに焦点を当て、クレイジーなTensorワークフローとAIのために開発しています。私の推測では、これらは十分に良くなり、はるかに高速で安価にこれらの作業を行うことができるようになっています。
前世代と比べて3倍の推論スループット、トレーニング性能が4倍向上、エネルギー効率が7%向上しているので、彼らはかなり少ない費用で済んでいます。これは理にかなっています。
これが現在、Googleと競争することが非常に困難な理由です。なぜならGoogleは、モデルをトレーニングするために必要なすべてのデータを持ち、モデルを設計しトレーニングするためのすべてのエンジニアと研究チームを持ち、そしてこれらすべてをより良く行うために自社で構築している非常に高性能なコンピューティング能力を持っているからです。
Grockのような企業(ちなみに私たちはGrockが大好きです。Grockは素晴らしい協力関係にあり、蒸留されたR1やLlamaモデルなど、すべての超高速モデルに使用しています)は、信じられないほど高速です。
Grockがあまりにも高速なため、T3チャットのスクロール機能を変更する必要がありました。ここでLlamaを選択して、「Advent of code 2021 day 8を解いて」、あるいはもっと簡単な「day 5をRust、Python、JS、JavaScriptとC++で解いて」を試してみましょう。たくさんの言語を指定しています。なぜなら、Grockがどれほど高速かを皆さんに見ていただく必要があるからです。
追いつくことさえできないほど高速です。念のため申し上げますが、これはQのGrockであり、KのGrockではありません。KのGrockは、Elonの財布以外とは競争していません。QのGrockは、推論のための非常に高速なチップを構築している企業です。
モデルのトレーニングではなく、モデルからの応答生成のためです。彼らのチップは、現時点ではLlamaでのみうまく動作する方法でアーキテクチャが設計されています。ここでスクロールすると分かるように、提供しているモデルのほとんどがLlamaベースです。
Mistralも比較的うまく動作するようです。OpenAIのWhisper(音声モデル)も同様です。これらのモデルが特に動作する方法に最適化されているため、他の場所と比べて信じられないほど高速です。
そのため、OpenAI APIの公式4.0が1秒あたり70トークンを生成するのに対し、ここには1秒あたり3,000トークンを超えるモデルが複数存在するという驚くべき数字が出ています。
しかし、制限もあります。入力サイズははるかに小さく、これらのほとんどが32kのコンテキストしか受け付けず、一部はさらに少なくなっています。より多くのコンテキストを与えると、速度は低下し始めます。
このように高速なモデルの価格設定は非常に良好ですが、より遅いモデルで、より多くのトークン数とより広いコンテキストウィンドウを持つものは、より伝統的な価格設定になる傾向があります。
これには多くの理由があり、最大の理由は、モデル自体をコントロールできないことです。他者が作成したものを受け取り、それを私たちに価格を付けて提供し、設計したチップでうまく動作することを期待するしかありません。
Googleはそのような問題を抱えていません。なぜなら、すべての部分を所有しているからです。すべてのデータ、すべてのモデル開発、そしてそれを実行するためのすべてのCPUとアーキテクチャを所有しています。
この同期が、私のiPhoneが優れた製品である理由です。なぜなら、私のiPhoneのハードウェア、チップセット、ソフトウェア、そしてその他すべてがAppleによって設計されたからです。このような統一性により、他では得られない優位性を確保し、より速く前進することができます。
少し変な言い方かもしれませんが、GoogleはAIのAppleのようになり始めているように見えます。必要なものすべてを持ち、それらをすべて結びつけることができます。ただし、インターフェースとしては世界最悪のダッシュボードを使用しています。
Google Cloudの製品、Vertex、Studio、その他について、私は適切に不快な経験を表現することができません。新しいAI Studioは実際にかなり良く、作業がしやすいです。
Googleには本当に勝利するチャンスがあります。そしてそれが実現することを心から願っています。私はモデルの価格設定、開発者体験、品質、機能における競争がもっと見たいのです。そして現在、Googleはそれらすべての面で戦っている唯一の企業のように見えます。
ただし、彼らはVertexをできるだけ早く終了させる必要があります。チャットから公平な懸念が寄せられています。「GoogleのSDKが使いにくい状態が続く限り、開発者は純粋な利便性のために5倍のコストのオプションを選ぶかもしれない」というものです。
同意します。ただし、APIキーを取得できれば、Googleのものに触れる必要はありません。APIキーの取得が信じられないほど困難であることは認めます。実際、Vertexから従来のAPIキーを取得することはまったくできないと思います。
しかし、新しいAI Studioの機能はそれほど悪くありません。StudioからAPIキーを取得できれば、設定はそれほど難しくありません。VerselのAISDKやOpen Routerプロジェクトのようなラッパーを使用している場合(ちなみに、どちらも素晴らしいです)、キーを持っていれば接続は非常に簡単です。
AISDKは、多くの異なるプロバイダーを追加することを非常に簡単にします。ここに、本番環境で使用しているすべてのモデルを含む実際のファイルがあります。現在使用しているすべてのものについて、AISDKプロバイダーをインポートし、使用したいモデルを呼び出して定義します。
環境変数が正しく設定されている限り…いいえ、今はそのファイルを開きません。単に動作するはずです。これら2つのモデルを追加するのは、ここに追加し、UIに表示されるように設定に追加するだけです。
現在、私たちのコードベースにGoogle専用の特別なコードはありません。Vertexを設定しようとしたときはありました。Vertexを想定通りに動作させるために、多くの奇妙なことをする必要がありました。
しかし、GeminiやAI Studioではそうではありません。AISDKからGoogleプロバイダーをインポートし、Googleを呼び出すだけです。それで完了です。
VerselがGoogleの開発者体験の問題をこれほどうまく解決していることは少し面白いですね。彼らはVertexの問題も解決しようとしました。Vertexの問題は、単に環境変数を与えることができないことです。
特にクライアント資格情報とプライベートキーが必要で、理想的にはGoogleの奇妙な認証によって自動的に更新されるJSONファイルの形式で取得する必要があります。IAMのようなものですが、10倍悪く、実際の動作を説明するドキュメントもありません。
認証を機能させるのに1日かかったと言いましたが、冗談ではありません。最近、私はGoogleのスタートアップ担当者たちと多くの時間を過ごしています。なぜなら、彼らも私と同じように恐れているからです。このようなことがあってはいけないのです。
しかし、できる限りVertexを避け、単にGoogle Generative AI(Google AI Studio)を使用するだけなら問題ありません。
この神よ、これがオープンモデルだったら、世界全体を破壊していたでしょう。しかし正直なところ、彼らの狂気のような数兆という処理能力がなければ、それでもうまく動作していたでしょう。
これは本当に素晴らしく見えます。皆さんはどう思われますか?T3チャットで試してみてください。無料で利用できます。コーナーの小さなボタンをクリックするだけでFlashを使用でき、超高速なflashlightモデルは実験的モデルの下に隠れています。
サインインしていれば、たくさんのメッセージを受け取れます。さらに多くが必要な場合は、月額わずか8ドルです。これで今回のトピックは以上です。
Googleがこれほど速くキャッチアップしたことが、まだ信じられません。そして、これが他のものの進歩にどのような影響を与えるのかを見るのが楽しみです。
願わくは、この結果としてOpenAIとAnthropicが価格を引き下げ、AI技術がより多くの人々にアクセス可能になることを期待します。他の企業がGoogleが提示した価格の10倍から100倍も請求している時、本当の変化が必要な時です。
Googleがそれを実現するとは思っていませんでしたが、ますますそうなりそうに見えます。皆さんの意見をお聞かせください。それではまた、平和を、オタクたち。
コメント