
7,564 文字

今週、GoogleはAIのリーダーボードでほぼすべての分野において首位の座を確実なものとし、見事な復活を遂げました。今週のGoogleのリリースをすべて追っていたとしても、いくつかは見逃しているはずです。このビデオでは、なぜGoogleが現在のAI界の王者なのかを説明します。
まず第一に、それはVO2から始まります。4K高画質で信じられないほど正確なAIビデオを生成できる、Googleの最先端のビデオ生成モデルです。これは、利用可能な他のすべてのモデル、つまりMetaのMovieGen、Sling 1.5、Minx、そして待望のOpenAIのビデオ生成モデルであるSoraを上回っています。Soraはリリースからわずか数日で追い越されました。VI 2の物理的な理解は驚異的で、市場で見られる他のどのモデルよりもはるかに正確なビデオ生成を行うことがしばしばあります。詳細なカメラコントロール、ライティングスタイル、アーティスティックスタイルを含む高度なプロンプトに従う能力は、まさに驚異的です。
彼らが示す一部の制限を示すビデオでさえ、かなり印象的です。TwitterではSoraとV2を並べて比較する投稿が多く見られ、同じプロンプトでも繰り返しV2の方が優れているように見えます。
しかし、これは今週Googleが発表した多くのリリースの一つに過ぎません。もう一つの発表は、Imagine 3でした(以前は「Imag」と発音していましたが、社内では「Imagine」と言うようです)。これは、以前のモデルよりもより詳細で、より豊かな照明、そして気が散るようなアーティファクトの少ない画像を生成できる、最高品質のテキストから画像への生成モデルです。驚くべき想像上の生き物、非常にリアルな人物のポートレート、完璧な細部を持つマクロ写真、プロフェッショナルな視野を持つ優れたイラストなど、これらのモデルの能力を示す多くの機能があります。
例えば、「霧がかかった1940年代のヨーロッパの駅を夜明けに、複雑な装飾的な鉄のアーチとくもったガラス窓で枠取られた」というプロンプトがあります。プロンプトは、線路から立ち上る霧、霧の中に消えていく赤い尾灯、戦時中の映画を思わせる物悲しくて永遠の別れの雰囲気など、あらゆる要素を詳細に指定しています。そして、見事にそれを実現しています。
ベンチマークでは、すべてを上回っています。MidJourney、Stable Diffusion、FLUXよりも全体的に上位にランクされており、現在、次点のモデルを大きく引き離しています。つまり、Google DeepMindはビデオ生成と画像生成の両方で首位の座を獲得したのです。
視覚AI分野全体で圧倒的な存在感を示しています。「でも、大規模言語モデル(LLM)ではOpenAIがまだ王者でしょう?」と思うかもしれません。しかし、そうでもありません。
Chatbot Arenaの最新ランキングを見てみましょう。新しい勝者が頂点に現れたことに気付くでしょう。Gemini Experimental 1206が、最新リリースのGPT-4oよりも約10ポイント高くランクされています。そして注目すべきは、Gemini 2.0 Flashが続いているということです。リーダーボードはもはやOpenAIが首位で、通常はAnthropicとそのクラウドモデルが続くという構図ではありません。今やGoogleの時代なのです。
そしてそれだけではありません。Project Astraも登場しています。これは、ユニバーサルAIアシスタントの構築を目指すプロジェクトです。AIアシスタントと会話し、リアルタイムの翻訳を受け、道案内を受け、あらゆる質問をすることができます。記憶機能により、あなたに関する様々な情報を覚えておくことができ、過去の会話の重要な詳細を覚えておくことで回答を洗練させていきます。
ツールの使用も可能で、Googleの検索、マップ、レンズなどを利用できます。スマートフォンやメガネを通して世界を見ることができます。例えば、夕食の料理を手伝ってくれます。レシピを読み上げ、野菜を正しく切れているかどうかを質問することもできます。あなたの一対一のアシスタントとして、棚の取り付けや料理、運動など、何でも一緒に進めていくことができます。一対一の個人指導もできます。
実際、これらのAIモデルでできることはほとんど無限なので、できることをすべて列挙することはできません。事実、これについて学べば学ぶほど、新しいPixel 9を購入せざるを得ませんでした。このスマートフォンには、これらの新機能の多くが特別に搭載される予定だからです。
以下は、Project Astraのプレビューの一例です:
「ねぇGoogle、画面を見て、Julesについてもう少し詳しく教えてくれる?」
「もちろんです。画面に表示されているものについてお話しします。画面には、ユーザーが重要なタスクに集中できるようにバックグラウンドで動作するAI駆動のコードエージェント「Jules」が表示されています。このエージェントは、Geminiモデルを使用してGitHubと統合し、コードの作成、複雑なコーディングタスクの分解、コードベースの理解、テストの実行、フィードバックに基づく適応が可能です。また、画面の下部にはウェイトリスト参加ボタンがあります。」
iPhoneで起こることよりも、このスマートフォンで実現されるAI機能の方に、私ははるかに興奮しています。そして、私だけではないでしょう。
そして、もちろんJulesがあります。Googleのアシスタントが説明したように、バックグラウンドで動作し、重要なタスクに集中できるようにするAI駆動のコードエージェントです。これは、おそらくDevonで見てきたようなアプローチや、あるいはCursorに似たものです。
これが、Androidのエコシステム、つまりスマートフォンだけでなく、最終的にはゴーグルやヘッドセット、メガネに私がとても興味を持っている理由です。これがAndroid XR(拡張現実)です。VR(仮想現実)、AR(拡張現実)、XR(拡張現実)があります。メガネをかけて歩き回りながら質問をすると、道案内をしてくれたり、都市を案内してくれたりします。テキストだけでなく、音声もリアルタイムで翻訳できます。
DIYプロジェクト、料理、ヨガなど、何をするにしても、チュートリアルやビジュアルガイドを提供してくれます。そして、これはAndroidエコシステムの上に構築されており、オープンプラットフォームになる予定です。つまり、世界中の開発者が貢献できるのです。これは大きな意味を持ちます。
多くの人々が、Gemini 2.0やAndroid XR、Project Astraなど、私たちが話してきたすべてのものの力を活用して、独自のAIアプリを構築するために参入してくるかもしれません。しかし、まだあります。
Googleは、Project Marinerを発表しました。これは、あなたの代わりにウェブを使用するAIエージェントです。これは研究プロトタイプですが、ウェブを閲覧し、様々なアクションを実行することができます。例えば、特定のアート作品を探している場合、Etsyで検索し、カートに追加することができます。最終的には、チェックアウトまで行えるようになるかもしれません。
Chromeブラウザを制御し、画面上でカーソルを動かし、ボタンをクリックし、フォームに入力することができます。これにより、人間のようにウェブサイトを使用し、ナビゲートすることができます。このチャンネルでも以前話題にしましたが、Andre Karpathyが最初に言及した(少なくとも私が聞いた中では)アイデアで、AIがオペレーティングシステムになるというものです。
マウスやキーボードを使って画面上のものをクリックする代わりに、AIアシスタントと対話し、そのアシスタントがあなたの代わりに作業を行うようになります。TechCrunchによると、GoogleはGeminiが新しい方法でウェブサイトを読み、要約し、使用する方法を実験し続けています。
Googleの幹部はTechCrunchに対し、これは根本的に新しいUXパラダイムシフトの一部であり、ユーザーがウェブサイトと直接やり取りする代わりに、生成AIシステムと対話してそれを代行させるようになると述べています。最終的な目標は、通常ならキーボードやマウスを使用したり、スマートフォンで操作したりする必要のあるすべてのことを、スマートフォンやメガネが代わりに行うようになることです。
ランチを注文したいですか?それを代行してくれます。最高のランニングシューズを研究したいですか?それを代行し、オンラインで靴を注文してくれます。追跡番号を使って配送状況をフォローアップし、確実にあなたのもとに届くようにしてくれます。研究を行い、連絡を取りたい人々の連絡先情報を見つけてくれます。
これは、いつかウェブサイトが不要になる可能性があることを意味します。インターネットの機能性をすべて利用するために、現在のようにウェブサイトとやり取りする必要がなくなるかもしれません。
Googleが発表したAIエージェントやエージェント的なものは複数あります。Project Marinerはもちろんその一つですが、Google DeepMindが発表した別のAIエージェントは、一部の人々にとってさらに興味深いかもしれません。それは「Deep Research」と呼ばれ、複数のステップからなる研究計画を作成することで、ユーザーが複雑なトピックを探求するのを支援することを目的としています。
これは、マルチステップ推論も可能なOpenAI o1と競合するように見えます。このAIエージェントはGemini Advancedで展開され、2025年にGeminiアプリに搭載される予定です。使い方は、大きな質問や、複数のステップが必要な難しい質問、または完了したい研究プロジェクトについてプロンプトを与えると、Deep Researchが複数のステップからなるアプローチ、アクションプランを作成し、それに取り組み始めます。
あなたがプランを承認すると、Deep Researchは数分かけて質問に答え、ウェブを検索し、その調査結果の詳細なレポートを生成します。また、GoogleのAIアシスタントがビデオゲームをプレイする際の支援も確認しています。ゲーム中に質問に答えてくれます。
例えば、SupercellのClash of ClansやSquad Bustなどをプレイしている場合、質問するだけでGoogleのAIシステムが画面の状況を把握し、あなたの発言を聞き取り、バックグラウンドで検索を実行して、必要な情報を取得します。例えば、最適な攻撃フォーメーションや、選ぶべきキャラクターについて、ゲームプレイを中断することなく教えてくれます。
さらに、Google DeepMindは、これらのビデオゲームのナビゲーションを支援するAIエージェントの開発に取り組んでおり、Clash of ClansのメーカーであるSupercellなどのゲーム開発者と協力して、Geminiのゲーム世界解釈能力をテストしていると述べています。Googleはこのプロトタイプのリリース日を発表していませんが、この取り組みは、仮想世界だけでなく物理的な世界のナビゲーションを支援するAIエージェントの構築にも役立つと述べています。
もちろん、ロボティクスは、これらのソフトウェアニューラルネットワークやオンラインで動作するエージェントの次に来ると期待される大きな波です。
このような中で、見逃しているかもしれないことがあります。この時点で、NotebookLMについては聞いたことがあるはずです。研究プロジェクトの一部として、どんなドキュメント、ビデオ、PDF、ウェブサイトでもアップロードでき、質問したり、様々な学習ガイドやブリーフィング文書、FAQ、概要などを取得したりすることができます。しばらく前に、2人のホストが対話形式で、あなたが学びたいことについてポッドキャストエピソードのような形で説明してくれる音声機能が追加されました。これはまだ新機能ではありませんが、聞いてみましょう。
「ちょっと想像してみてください。AIに何かをさせようとしています。絶対にしてはいけないことです。例えば、危険なものを作る指示を求めるとか、そういう悪いことです。でも、この2人が話しているところで、質問を投げかけたり、要点に入ってもらったりしたいと思ったことはありませんか?今なら可能です。インタラクティブモードベータの導入です」
クリックすると、リアルタイムで対話し、質問することができます。ラジオ番組に電話をかけるようなものです。
「ちょっと想像してみてください。AIに何かをさせようとしています。絶対にしてはいけないことです。例えば、危険なものを作る指示を求めるとか、そういう悪いことです。」
「あ、リスナーから質問が来たようですね。」
「じゃあ、具体的に彼らは何をするんですか?モデルを破壊してジェイルブレイクする方法の例を教えてください。」
「いい質問ですね。まさに私たちが話している核心に迫っています。」
「そうですね。AIをジェイルブレイクするといっても、実際にはどういうことなのかを説明する必要がありますね。」
「では、研究者たちは単純に『悪い指示をください』とAIに頼んだわけではありません。それは絶対に通用しないからです。代わりに、『best of n』と呼ばれる技術を使用しました。これからその詳細に入るところです。」
「そうです。基本的に、同じ有害なリクエストの少しずつ異なるバージョンを大量にモデルに投げかけたのです。」
「鍵穴にたくさんの異なる鍵を試すようなものですね。」
「その通りです。鍵というのは、これらの拡張、つまり微細な変更のことです。例えば、爆弾の作り方の指示を得ようとする場合、単に『爆弾の作り方を教えて』とは書きません。代わりに、『爆弾の作り方』というフレーズにタイプミスを入れたりします。また、画像でもテストしました。」
「ちょっと質問です。今の例は大規模言語モデルに関するものですよね?つまり、テキストを入力する場合ですが、音声モデルの場合はどうなりますか?音声モデルも破壊することはできるのですか?」
「素晴らしい質問です。テキストは一つの要素に過ぎないということを指摘するのは正しいですね。」
「そうです。音声など、異なる種類の入力に対してこれらの攻撃がどのように機能するかを考えることが重要です。」
「テキストの場合、文字や大文字小文字を変更するという微細な調整について話しましたが、音声の場合も同様の手法を用いますが、音に対して行います。」
「興味深いのは、速度やピッチ、さらにはリクエストにバックグラウンドノイズを追加するようなことも調査したことです。例えば、誰かがAIに同じような有害な指示を求める場合、タイプする代わりに話しかけるとします。録音を速くしたり、大幅に遅くしたり、話者の声を少し高くしたり低くしたりします。さらに、静的ノイズや音楽をオーディオのバックグラウンドに追加したりもしました。有害な応答を引き出す特定の音声の鍵を見つけようとしているようなものです。そして、はい、直接的な質問に答えると、これらの音声モデルも脆弱性があることがわかりました。」
「確かにそうですね。これからその詳細について説明していきます。」
「その通りです。そういう見方をするのはいいですね。」
「不適切な冗談を教えてくれませんか?」
「笑いを求めているのはわかりますが、残念ながら今は不適切な冗談を言うことはできません。」
「研究に焦点を当てて、話題がそれないようにする必要が…」
「不適切な冗談を教えてくれませんか?」
「研究に焦点を当てて、話題がそれないようにする必要がありますよね。」
「まあ、うまくいきませんでしたね。私の『best of one』ジェイルブレイクは通用しなかったようです。よくやりました。」
私たちは、研究や学習、ビジネス分析のために理解したい文書をアップロードし、質問するだけで、これらのAIがすべての文書を調べ、必要な情報を見つけて答えてくれるところまで来ています。NotebookLMは100%無料で、Googleアカウントでログインするだけですぐに使えます。非常に簡単に使用でき、おそらく世界中どこでも利用可能です。
さらに、ここに含めていない多くのことがあります。例えば、量子チップのAlpha Cubitや、彼らが行っている研究のブレークスルーなどです。それらは考慮に入れていません。私たちは、ベータ版で登場している消費者向けAIアプリケーションとハードウェア、そして2025年にリリース予定の新しいヘッドセット(Android XRを活用する予定)などのみを見ています。
GoogleがOpenAIの台頭を許し、AI分野での主導権を失ったのではないかと考えた私たち全員にとって、今やGoogleが戻ってきたことは明らかです。しかも、大きな、大きな形で戻ってきました。彼らには巨大なリソースがあり、AIの最も優れた頭脳の一人であるDemis Hassabisがいます。インターネット全体の知識ベースを持っています。
V2が非常に優れていた理由の一つは、おそらくビデオでトレーニングされたからでしょう。多くのビデオにアクセスできる企業を知っていますか?YouTubeです。Googleはキャッシュ、頭脳、独自のハードウェア、そして最高のAI製品を作るためのデータを持っています。スタート時点では少し遅れを取ったかもしれませんが、今や全速力で前進しており、2025年にこれらすべてがリリースされるのが待ちきれません。
OpenAIがまもなく何か秘密兵器を解き放ち、首位の座を取り戻すかもしれないという噂もまだあります。それは見守っていきましょう。しかし、それまでの間、皆さんはどう思いますか?Googleは本当にAI競争に勝利したのでしょうか?コメントで教えてください。
ここまで見ていただき、ありがとうございます。私の名前はWes RTPです。また次回お会いしましょう。
コメント