
9,661 文字
https://www.youtube.com/watch?v=0GyYhWzOWjE
皆さん、Xboxが人工知能コパイロットを搭載するようになります。Googleが小型モデル「Gemma 3」をリリースしましたが、このモデルは非常に強力で、ベンチマークテストで優れた結果を残しているため、AI業界全体から注目を集めています。同様の小型高性能モデルの傾向として、Corrierチームも「Command A」をリリースし注目を集めています。そして覚えておくべきGoogleからのいくつかの重要な最新情報もありますので、一緒に見ていきましょう。
いつものように「いいね」や登録をしてくれた皆さん、特にこのAIチャンネルのスポンサーであるメンバーの皆さんに感謝します。メンバーはAIエージェントに関する独占動画にアクセスできることを覚えておいてください。
まず最初のニュースですが、Googleが「Deep Research」機能を毎月数回、すべてのユーザーに無料で提供するようになりました。Deep Researchとは何でしょうか?それは単なる検索ではなく、いくつかのサイトを見つけて少しの情報を得るだけではなく、選んだテーマによっては本当に時間をかけて徹底的に検索を行うものです。これによってモデルが素晴らしい回答を見つけることができます。まだ試していない方には、ぜひお試しいただくことをお勧めします。
GoogleはFlash Thinking 2.0という推論モデルを改良し、すべてのユーザーがDeep Researchにアクセスできるようにしました。これが意味するのは、無料アカウントでGeminiを使っていても、Deep Researchが使えるということです。Flash Thinking 2.0の最新バージョンでは、ファイルのアップロードやより高速な処理速度などの新機能がGemini Advancedユーザーに提供されています。このシステムは現在、単一のコンテキストウィンドウで最大100万トークンという非常に多くの情報を処理できるようになっています。Deep Researchは以前からAdvancedユーザー、つまり月額支払いをしている人には提供されていたことを覚えておいてください。
GoogleはDeep Researchを改良し、この機能は数分で複数のサイトやドキュメントから情報を処理し、ステップバイステップの推論チェーンを通じて、どのように結論に達したかをユーザーに正確に示します。Googleによれば、「Deep Researchと新しいモデルを組み合わせることで、レポートの品質が向上することを期待しています」とのことです。これは興味深いですね。これらの回答の品質は日々向上しています。私はいつも、OpenAIのDeep Researchが人工知能によって行われる最も徹底的な検索だと言ってきましたが、後でこれを比較するための特別なテストを行ってみましょう。
最も大きな変化はアクセシビリティかもしれません。Deep Researchが月に数回の使用に限り無料になったのです。これは無料で使えるということです。ぜひあなたの割り当てを活用してください。他の企業の同様のツールと同様に、このシステムは完璧ではなく、テストでは分析や結論の両方で誤りを犯す可能性があることが示されています。AIをしばらく使っている方にはもはや言う必要もないかもしれませんが、これは常に覚えておくべきことです。
それでは、簡単なテストをしてみましょう。Grok、OpenAIのDeep Research、そしてPerplexにも既にしたことがある質問を投げかけます。回答がどれくらい時間がかかるか見てみましょう。例えばOpenAIは20分かけてこの検索を行いましたが、その時間だけでも回答がどれだけ良いかがわかります。
まず最初に彼は「私が考えた計画です。何か変更が必要であればお知らせください」と言ってきました。私の質問は「ブラジルには27の州がありますが、実際には26の州と首都、5つの大地域があります。ブラジル全土の地域的側面を考慮して、ブラジル文化について調査してください。食べ物、ダンス、リズム、方言、経済、歴史的側面について話し、地域ごとに回答し、各州についてコメントしてください」というものでした。
そして彼は調査計画を立てました。1. ブラジルの5つの大地域(北部、北東部、中西部、南東部、南部)とそれぞれを構成する州を調査する。2. 北部地域の各州(アクレ、アマパ、アマゾナス、パラ、ロンドニア、ロライマ、トカンチンス)について、a)典型的な料理と特徴的な食材、b)伝統的なダンスと音楽リズム、c)地域の方言の顕著な特徴、d)とe)についても調査する。その後、3〜6まで他の地域についても同様のプロセスを繰り返すというものです。そして最後にすべての情報をまとめ、ブラジルの文化的多様性の全体像を描くという計画です。
これは素晴らしい計画です。これまでで初めて、タスクリストを提示してレビューさせてくれるAIであり、開始する前に許可を求めるのも興味深いです。OpenAIのDeep Researchはいくつか質問をしてきましたが、「これが私の計画ですが、始めてもいいですか?」とは言いませんでした。
計画を編集するか、検索を開始するかを選べます。計画を編集すると、変更したい点を尋ねられます。試しに「各州のGDPについて議論するステップを追加してください」と変更を提案してみましょう。これは各地域がどれだけの財政を受けているかという、彼にとって実際の数字を扱うため少し複雑になるでしょう。
変更後、彼は「計画を更新しました。他に何か変更があればお知らせください」と返し、「ステップ7: ブラジルの5つの地域それぞれの国内総生産(GDP)を調査し記録する」を追加してくれました。素晴らしいですね、これで計画は9ステップになりました。それでは「検索開始」をクリックしましょう。時間がかかりそうなので、その間に他のニュースに移りましょう。
GoogleがGemma 3という新しいオープンモデルファミリーをリリースしました。Gemma 3について話すようコメントした人が非常に多かったのですが、それはこの小型モデルが優れた結果を出しているからです。Google DeepMindはGemma 3を発表しました。これは、比較的小さいサイズでも高性能を提供するよう設計された新世代のオープンAIモデルで、個々のGPUやTPUでの実行に適しています。そのため、多くの人がこれらのモデルをローカルのコンピュータで実行することができます。
Gemma 3ファミリーには、1億から270億のパラメータを持つ4つのモデルが含まれています。この270億というパラメータ数が注目を集めています。DeepSeekの後、31億や34億のパラメータを持つ多くの他のモデルも登場しましたが、このあたりの数字がラッキーナンバーのようで、AIがこの程度のパラメータ数で最低限の知性を持ち始めるようです。これは、家庭用の良いコンピュータが高度なAIを実行し始められることを意味します。
コンパクトなサイズにもかかわらず、これらのモデルはGoogle DeepMindによれば、初期テストではLLaMA 4-05やDeepSeek V3などのより大きなLLMを上回っています。なぜLLaMAよりも優れているかというと、LLaMAは古い技術を使った古いモデルだからです。「古い」と言っても、すべてが非常に最近のことで急速に進化しているため、技術の速度では既に古いということです。DeepSeek V3はDeepSeek R1(リフレクションモデル)のベースモデルなので、この比較は的確です。Gemma 3はDeepSeek V3と競争しており、DeepSeek V3は30数億のパラメータを持っているので、270億とそれほど差はありません。
これらのモデルは140以上の言語を扱うことができ、追加のトレーニングを必要としません。1Bバージョンを除くすべてのバージョンでテキスト、画像、短いビデオを処理でき、128,000トークンのコンテキストウィンドウを使用します。Googleによれば、その関数呼び出し機能と構造化出力はエージェントタスクに適しているとのことです。これは素晴らしいニュースです。大企業にデータを漏らすことなく、ローカルコンピュータで知的エージェントを実行できるのです。ただし、エージェントを実行するにはいくつかのテストが必要で、恐らく27Bモデルでのみうまく機能し、小さいモデルではうまく機能しないかもしれません。もし小さいモデルを使ってエージェントを作った方がいれば、うまく機能したかどうかコメントしてください。
モデルのサイズは1B、4B、12B、27Bがあり、4BのGemma 2 Shieldというものもありますが、これが正確に何なのかはわかりません。すべてのモデルは蒸留トレーニングの後、さまざまな強化学習アプローチを使用した特殊な後トレーニングを受けています。これらの技術は特に数学、チャット機能、指示の遵守、多言語コミュニケーションの改善を目指しています。
ご覧のように、最も制限されているのは1Bで、英語のみでテキストのみを扱います。その他のすべてのモデルは入力としてテキストと画像を処理できます。ただし、画像を生成することはできず、画像を受け取って解釈することができるだけです。
LLMをより効率的にするために、Googleは公式に量子化バージョンを提供し始めています。これはメモリと計算要件を減らしながら精度を維持します。この「精度を維持」という部分は大きな括弧つきです。量子化とは何でしょうか?それは小数点以下の精度を減らすことです。例えば、円周率の値が何かと聞かれて、数十億の数字があるところを「3.14」と短縮するようなものです。これは実質的に量子化であり、精度を下げることになります。AIにとってはこれは少し知能を失うことを意味します。
Googleによれば、Gemma 3は以前のバージョンよりも逐語的なテキストの生成が少なくなり、個人データの再現を避けるとのことです。ChatbotArenaでは、N 2.5 Max、O1 Preview、A3 Mini Highと同率9位につけています。
この動画を録画している間にも、Gemma 3が1339ポイントで他のモデルをリードしており、O1 PreviewとO3 Mini Highと同率9位につけています。27Bモデルはおそらくエージェントと連携できる唯一のモデルになるでしょう。しかし、スタイルコントロールでは10位にランクされています。スタイルコントロールとは、構造化された出力をフォーマットするように依頼した際の能力を指します。この結果はエージェントで作業したい人にとっては良くない兆候で、27Bモデルがスタイルコントロールのランキングで10位だということは、エージェントを実行しようとしたときに精度が必要で幻覚が少ない何かをする必要がある場合、うまく対応できない可能性があります。
Gemma マルチモーダルモデルと共に、GoogleはGemma 2 Shieldも導入しました。これは画像内の危険なコンテンツ、露骨な素材、暴力の表現を識別するために設計された4Bパラメータの専門的な安全性チェッカーです。これは、製品を作っていて、ユーザーがあらゆる種類の画像を送信する可能性があり、それらの画像が適切かどうかをフィルタリングする必要がある場合に役立ちます。
例としてドイツ語でおそらく書かれたレストランの領収書の例を示しています。英語で「私は肉の切れ端しか持っていません、これにはいくらを支払うべきですか?18%のチップを含めてください」と尋ねています。ドイツ語がわかる方なら、この「Slice admitte」という肉の切れ端(おそらくステーキ)について読むことができます。彼はそれらすべての翻訳を行い、チップを計算し、最終的に43.0 CHF(スイスフラン)が必要で、その中に18%のチップが含まれていると答えています。
Gemma 3モデルはHugging Face、Kaggle、Google AI Studioで利用可能で、PyTorch、JAX、Kerasなどの一般的なフレームワークをサポートしています。学術関係者はGemma 3 Academic Programを通じて10,000クラウドクレジットにアクセスできます。もし学校で働いていて教師や学生に利用できるようにしたい場合は、どのように機能するのか正確にはわかりませんが、1000万かかるようです。
それでは、グラステストを簡単にやってみましょう。今では皆が合格するので、このテストについて不満を言う人もいますが、これは基本的なモデルで小さいので、正解できない可能性があります。「テーブルの上にコップを置き、その中にサイコロを入れました。次にコップを逆さまにしたところ、サイコロがテーブルの上に落ちました。その後、コップを取ってコンロの上に置きました。サイコロはどこにありますか?」このモデルがこれをよく理解していれば、サイコロはテーブルの上に残っているか床に落ちていて、コップは空でコンロの上にあると答えるはずです。もし間違えれば、「サイコロはコンロの上のコップの中にあります。あなたの説明では、サイコロが入ったコップを取ってコンロの上に動かしたことを示しています。したがって、サイコロはコップと一緒に移動しました」と答えるでしょう。また、リスクは低いもののコンテンツがブロックされているというフラグも付いています。個人的にはリスクはないと思いますが、Googleがやることの一つとして、ここでセキュリティレベルを編集できます。例えば、すべてのレベルを最小限に設定することができます。
背景を見てわかるように、これは製品の安全性を確保するために役立ちます。個人的にはGoogle AI Studioがオンラインで最も完全なAIツールだと思います。もしGeminiのチャットからGeminiを使っていて、まだGoogle AI Studioを使ったことがない方は、ぜひ試してみることをお勧めします。以前、その使い方について動画で説明しましたが、最も楽しい部分の一つで、最も進んだ機能の一つは、Geminiとリアルタイムで会話したり、ウェブカメラやコンピュータ画面を共有できるこのストリーミング機能です。これは長い間利用可能で、多くのシステムがこれらの機能に課金していますが、ここでは無料です。まだ使っていないなんて信じられません!テストするのに時間がかかりませんよ。
次のニュースは、Corrierチームについてです。これはAI企業の一つですが、少し目立たないものの、常に何かをリリースしています。Mistrに少し似ていて、常に何かを行っていますが、あまり有名ではなく注目を集めていません。しかし、Corrierが何をしているか見るのは常に良いことです。彼らはCommand Aを更新しています。Command AはGPT-4-oやDeepSeek V3と同等かそれ以上のレベルにあり、エージェントの企業タスクにおいて著しく高い効果を発揮しています。
「今日、私たちはCommand Aを紹介します。これは最新世代の生成モデルで、高品質で迅速かつ安全なAIを必要とする要求の厳しい企業向けに最適化されています。Command AはGPT-4-oやDeepSeek V3などの主要な独自モデルやオープンウェイトモデルと比較して、ハードウェアコストを最小限に抑えながら最大のパフォーマンスを提供します。プライベートデプロイメントでは、Command Aは多言語とビジネスに不可欠なエージェントタスクで際立っており、32GPUを必要とする他のモデルと比較して、わずか2つのGPUでデプロイできます。」これは、モデルが小さくても優れているという点で非常に良いことです。
彼らが行った評価では、Command AはGPT-4-oやDeepSeek V3と比較して、1秒あたりのトークン数では156トークンを生成したのに対し、GPT-4-oは89、DeepSeekは64でした。一般的なビジネス、科学技術、コードの分野での比較では、Command AとGPT-4-oはほぼ同等で、科学技術ではCommand Aが51%でわずかにリードし、コードではGPT-4-oがCommand AとDeepSeek V3に勝っています。全体的に見ると、これらの3つのモデルは非常に近いレベルにあり、時にはCommand Aが勝ち、時には負けるといった結果です。特にエージェントの分野では非常に良い結果を出しています。
「私たちはCommand Aをビジネスニーズを念頭に置いて設計しました。そのコンテキスト長は256kで、ほとんどの主要モデルの2倍であり、はるかに大きなビジネスドキュメントを扱うことができます。他の重要な機能には、検証可能な引用付きの高度な取得拡張生成、エージェントツールの使用、企業レベルのセキュリティ、強力な多言語パフォーマンスが含まれます。」
各種評価では、基本的に点線を越えるとGPT-4-oより勝っており、薄い青色は同等、緑色はGPT-4-oの方が良いという結果です。
Command Aの価格は、入力トークン100万あたり$50、出力トークン100万あたり$0で、これは良い価格です。一部のフロンティアモデルが通常$3.1であることを考えると少し安いですが、それほど安くもなく、許容範囲内の価値です。
彼らのチャットでは、最初に「ツールを使いたいか、それとも単に会話したいか」と尋ねられます。先ほど行ったグラステストを試してみましょう。「サイコロはテーブルの上にあります」と正解しました。なぜ正解したかというと、プロンプトでステップバイステップのアプローチを取ったからです。おそらくリフレクションが組み込まれているのでしょう。1、2、3、4とステップを踏んでいることからもわかります。リフレクションモデルでない場合、このようなリストは表示されず、Geminiのように直接答えようとします。素晴らしいですね、Corrierに良い点です。
次のニュースは、XboxのAIコパイロットがリアルタイムのゲームガイダンスを自然な会話を通じて提供するというものです。これは良いニュースです。昔、ビデオゲームをプレイしていた時、インターネットもなかったので、ゲームの遊び方を学ぶためには、既にそのゲームをプレイした友人に電話して尋ねていました。インターネットが登場すると、WhatsAppでメッセージを交換したり、フォーラムで調べていました。そして今では、Xbox内に人工知能が組み込まれ、Minecraftをプレイしながら「クワをクラフトするにはどうすればいいですか?」と単純に尋ねることができるようになります。
マイクロソフトの新しいゲームコンパニオン「CoPilot for Gaming」は、ゲーム体験を最適化し、パーソナライズされたサポートを提供することを目的としています。Xbox公式ポッドキャストで、Xbox企業副社長のファティマ・カレル氏は、このアシスタントについて紹介しました。これはテキストベースのシステムとして始まり、パーソナライズされたゲーム推奨を提供し、中断したゲームを再開する際にプログレスを要約し、次のステップを提案します。AIが今やあらゆるものに関わっていくのは面白いですね。「すべてはあなたがたのゲームを助けるためです」とカレル氏は説明し、ゲームの検索、ダウンロード、更新などの日常的なタスクに費やす時間を減らすことに焦点を当てていると強調しました。
同社はXbox Insiderプログラムを通じてテストを開始し、最初はモバイルデバイスから始めて他のプラットフォームに拡大していく予定です。将来的な機能としては、リアルタイムのゲームプレイ分析が含まれる予定です。マイクロソフトはコパイロットをゲーム内サポートに焦点を当てた高度な機能で強化する計画です。ポッドキャストで紹介された重要な機能の一つは、AIがリアルタイムでゲームプレイを観察し、自然な会話を通じて状況に応じたガイダンスを提供できるようにするというものです。
「ゲームは立ち往生する可能性がある唯一のエンターテイメント形式です」と発表中にカレル氏は説明しました。「それが、『これを乗り越えるのを手伝いましょう』と言ってくれる何かが現れてほしいときです。」このシステムは、ゲーム体験を中断することなく、タイムリーな支援を提供することを目的としています。この技術は、おそらく視覚処理と言語理解を通じてMinecraftのようなゲーム環境と対話できる、最近の視覚言語モデルやAIエージェントの進歩に基づいています。これはOpenAIのOperatorのような他のAIエージェントを反映しており、スクリーンショットやビデオの分析を使用してウェブをナビゲートし、リアルタイムでウェブサイト上のユーザーインターフェースを分析します。
このデザインはプレイヤーの自律性を優先し、ユーザーがいつどのようにアシスタントと対話するかを決定できるようにします。「AIが単に助けるために現れるだけでなく、適切なタイミングで現れることが重要です」とカレル氏は強調し、AIはゲームプレイを中断するのではなく、向上させるべきだと述べています。つまり、彼らはAIがアドバイスを与えることも考えています。例えば、あなたがスナックを食べるために一時停止すると、AIはあなたが動かなくなったことを認識し、「何をしているの?」と会話を始めるかもしれません。これが面白いと思うなら、将来のゲームがAIとの対話によってどのようになるか、考えをコメントしてください。これは素晴らしいと思います。
最後に、先ほどのGeminiの検索結果を確認してみましょう。彼は検索を正確に行いましたが、検索にかかった時間はわかりません。しかし、検索結果は素晴らしいものでした。「ブラジルの文化のタペストリー:地域多様性の分析」という題で、「ブラジルの地域文化の豊かさを解き明かす」という導入から始まり、アクレやその他すべてについて詳しく書かれています。章立てもきちんとされており、「2. 北部地域」「2.1 アクレ」「2.2 アマパ」といった具合です。
しかし南部地域に関しては「南部地域の調査は、利用可能なスニペットと追加調査に基づいて、北部および北東部地域で使用されたのと同じ詳細な構造に従って、将来的に実施される予定です」と述べられており、中西部地域や南東部地域についても同様のことが言われています。つまり、基本的に北部と北東部だけを調査し、結論を出したのです。途中で止まってしまうのは奇妙ですが、Googleは常に何かを途中でやめてしまいます。これが初めてではありません。彼らのアシスタントは1つか2つの地域だけを扱って止まってしまうのです。
おそらくトークン数の制限に達したのかもしれません。「残りの地域を続けて」と指示して、続けられるか見てみましょう。ただし、編集の終わりまで待たずに、うまくいったかどうかは後で追加します。
チャンネルサポートをご希望の方はメンバーになってください。メンバーはWhatsAppグループや早期アクセス動画にアクセスできます。「いいね」をお願いします。ありがとう!
コメントを残す