グーグルがA.Iレースに勝った..(すごい)

20,639 文字

Join my AI Academy - 🐤 Follow Me on Twitter 🌐 Checkout My website -

グーグルはついにAI分野で完全に主導権を握りました。今日の動画では、非常に多くの重要な発表がありましたので、知っておくべきポイントを説明していきます。
最初の素晴らしい発表の一つは、Googleのビーム（Beam）です。これは複数のカメラを使用して、ビデオ通話の相手を3D表示できるビデオコミュニケーションプラットフォームです。非常に没入感があり、正直なところ、これが未来のコミュニケーション方法になるかもしれません。
「そして今日、私たちは次の章を発表する準備ができています。Google Beamを紹介します。これは新しいAIファーストのビデオコミュニケーションプラットフォームです。Beamは最先端の新しいビデオモデルを使用して、2Dビデオストリームをリアルな3D体験に変換します。」
「舞台裏では、6台のカメラのアレイがあなたを異なる角度から捉えています。AIを使って、これらのビデオストリームを統合し、3Dライトフィールドディスプレイ上でミリメートル単位の正確なヘッドトラッキングで、毎秒60フレームでリアルタイムにレンダリングします。その結果、はるかに自然で深い没入感のある会話体験が生まれます。」
「私たちはこのテクノロジーを他の人々に提供できることをとても嬉しく思います。HPとの協力により、最初のGoogle Beamデバイスは今年後半に早期のお客様向けに利用可能になります。HPは数週間後にさらに多くの情報を共有する予定です。お楽しみに。」
次に、これは絶対に信じられないほど素晴らしいものだと思います。AIの音声がどれだけ素晴らしくなったかは皆さん知っていると思いますが、Googleはリアルタイム音声翻訳を導入することでさらに一歩進んでいます。
Geminiを使えば、会議や通話中にスピーチ翻訳を有効にして、相手が別の言語で話していても理解できるようになります。これは境界を取り払うのに素晴らしい効果を発揮すると思います。
「Starlineの基礎技術をGoogle Meetに導入していますが、これには言語の障壁を取り除くためのリアルタイム音声翻訳も含まれています。これが役立つ例として、南米での休暇用レンタル物件を予約する場合で、言語が話せない状況を見てみましょう。」
「こんにちは、カミラ。音声翻訳をオンにします。やっとお話できてうれしいです。この街を訪れるのが楽しみです。」
「家はとても素敵な地域にあり、山々が見えます。」
「それは素晴らしいですね。」
「近くにバスがありますが、自然を訪れて楽しむために車をレンタルすることをお勧めします。」
「それは素晴らしいですね。」
「話者のトーンパターンや表情にどれだけマッチしているかがわかります。私たちは言語の壁を超えた自然で流れるような会話に、さらに近づいています。そして今日、このリアルタイム音声翻訳を直接Google Meetに導入します。英語とスペイン語の翻訳が現在サブスクライバーに利用可能で、さらに多くの言語が数週間以内に展開される予定です。」
次に、本当に素晴らしいAIアシスタントがあります。これは私が非常に楽しみにしていたものであり、「プロジェクト・アストラ」と呼ばれるものです。これは基本的に、モバイルフォンを使ってあなたが見ているものを見ることができるAIがあり、文字通り何でもあなたを助けることができるというものです。本当に素晴らしいです。実際のデモをご覧ください。
「IOステージでデビューした初期の研究プロジェクトはプロジェクト・アストラでした。これは、あなたの周りの世界を理解できる汎用AIアシスタントの将来の能力を探求するものです。私たちは今日から製品へ導入し始めています。Gemini Liveはプロジェクト・アストラのカメラと画面共有機能を使って、あなたが見ているものについて話し合うことができます。」
「人々はそれを就職面接の練習やマラソンのトレーニングなど、さまざまな方法で使用しています。私たちは信頼できるテスターからのフィードバックを高く評価していますが、あまり信頼できない人々からもフィードバックをいただいています。ご覧ください。」
「それはかなり素敵なコンバーチブルですね。」
「ごみ収集車をコンバーチブルと間違えたようですね。他に何かお手伝いできることはありますか？」
「この細い建物が私の近所で何をしているのですか？」
「それは建物ではなく、街灯です。」
「なぜこれらのヤシの木はこんなに短いのですか？心配です。」
「短くはありません。実際かなり高いです。」
「かっこいいコンバーチブルですね。」
「また、ごみ収集車ですね。他に何かありますか？」
「なぜ人々は常に私の芝生に荷物を配達するのですか？」
「それは荷物ではなく、ユーティリティボックスです。」
「なぜこの人はどこに行っても私についてくるのですか？」
「あなたを追いかけている人はいません。それはあなたの影です。」
「Geminiはあなたが間違っているときに教えるのがとても上手です。これは本日からAndroidとiOSの全ユーザーに展開されます。例えば、より自然なネイティブオーディオで音声出力をアップグレードしました。記憶力を向上させ、コンピュータコントロールを追加しました。見てみましょう。」
「プロジェクト・アストラの最新研究プロトタイプを持っていて、これが私の自転車を修理するのにどのように役立つか見てみましょう。ねえ、オンラインでハフィーマウンテンバイクのユーザーマニュアルを探してください。」
「ユーザーマニュアルを見つけました。何を知りたいですか？」
「わかりました。ブレーキについてのセクションが見つかるまでスクロールしてください。」
「もちろんです。そのページを探しています。」
「ネジを潰してしまったと思います。YouTubeでそれを修理する方法の動画を探してもらえますか？」
「もちろんです。今YouTubeを開いています。これは良い動画のようです。ネジの頭にゴムバンドを置き、しっかりと押し下げてください。」
「自転車店とのメールをチェックして、必要なヘックスナットのサイズを見つけてもらえますか？」
「もちろん。Bicycle Habitatからのメールによると、スプロケット用に3/8インチのヘックスナットが必要です。正しいビンをハイライトしました。」
「予備の張力ネジが必要なようです。最寄りの自転車店に電話して在庫があるか確認してもらえますか？」
「はい、今電話しています。在庫があるかどうか後でお知らせします。」
「ブレーキパッドが摩耗してきていると思います。マニュアルをもう一度チェックして、どこかに記載があるか確認してもらえますか？」
「マニュアルによると、24ページを見れば…昼食を取りに行きますか？」
「はい、5分ください。言っていたことを続けてもらえますか？」
「言っていたように、24ページのセクション2を見ると、ブレーキパッドの交換方法が記載されています。」
「ねえ、電話の件で何か進展はありますか？」
「はい、ちょうど自転車屋との電話を終えました。張力ネジが在庫にあることを確認しました。受け取り注文を出しましょうか？」
「自転車に付けられる犬用バスケットの例を見せてもらえますか？」
「もちろん、お手伝いします。少しお待ちください。こちらがいくつかのオプションです。ズカはこれらの中でとても素敵に見えると思います。」
次に、エージェント領域に入るときのコンピュータ使用についてです。これは非常に興味深いです。「プロジェクト・マリナー」は基本的にコンピュータ/ブラウザと連携できる高度なAIエージェントです。これは作業を行い、最大10の同時タスクを実行できます。
これは最初に開発者にロールアウトされる予定です。そのため、彼らが最良のユースケースを見つける可能性が高いです。GoogleがAIエージェント空間を前進させているため、これは非常に非常に興味深いです。
「振り返ると、エージェントを高度なAIモデルの知能とツールへのアクセスを組み合わせたシステムと考えています。エージェントはあなたの代わりに、あなたの管理下で行動を起こすことができます。コンピュータ使用はエージェントの重要な能力です。これによりエージェントはブラウザやその他のソフトウェアと対話し、操作することができます。」
「プロジェクト・マリナーはコンピュータ使用能力をテストする初期のステップでした。12月に初期研究プロトタイプとしてリリースし、それ以来多くの進歩を遂げています。まず、マルチタスク処理を導入し、現在最大10の同時タスクを監視できるようになりました。次に、「ティーチ・アンド・リピート」という機能を使用しています。これはタスクを一度見せると、将来の類似タスクの計画を学習するというものです。」
「プロジェクト・マリナーのコンピュータ使用能力をGemini APIを通じて開発者に提供します。Automation AnywhereやUiPathなどの信頼できるテスターはすでにこれを使って構築を始めており、今年の夏にはより広く利用可能になります。コンピュータ使用は、エージェントエコシステムが繁栄するために構築する必要がある、より広範なツールセットの一部です。例えば、エージェントが互いに通信できるようにするオープンエージェント間プロトコルなどがあります。」
「これをクラウドネクストで60以上のテクノロジーパートナーのサポートとともに立ち上げ、その数が増えることを期待しています。また、エージェントが他のサービスにアクセスできるようにするモデルコンテキストプロトコル（MCP）もAnthropicによって導入されました。そして今日、私たちのGemini SDKがMCPツールと互換性があることを発表できることを嬉しく思います。」
AIエージェントについて言えば、実際にエージェントモードもあります。これは基本的に強化されたブラウジングのようなものです。何かをする必要がある場合、あなたのブラウザは多数のAIエージェントを立ち上げ、あなたのためにタスクを実行し、舞台裏であなたのために働きます。
これはGoogleを使ってチケットを探す必要があるようなものですが、はるかに効率的な方法でそれを行うということです。
「これらのテクノロジーは連携してエージェントをさらに有用にし、エージェント機能をChrome検索とGeminiアプリに導入し始めています。Geminiアプリで私たちが興奮していることを紹介させてください。これを「エージェントモード」と呼んでいます。」
「例えば、あなたと2人のルームメイトのためにオースティンでアパートを探したいとします。それぞれ月額1,200ドルの予算があります。洗濯機と乾燥機、あるいは少なくとも近くにコインランドリーが欲しいです。通常、無限のリスティングをスクロールするのに多くの時間を費やす必要があります。エージェントモードを使用すると、Geminiアプリが舞台裏で働きます。」
「Zillowなどのサイトからあなたの基準に合ったリスティングを見つけ、必要に応じてプロジェクト・マリナーを使用して非常に特定のフィルターを調整します。チェックしたいアパートがある場合、GeminiはMCPを使用してリスティングにアクセスし、あなたの代わりにツアーをスケジュールすることもできます。」
「そして、あなたが必要な限り新しいリスティングを閲覧し続け、あなたは新居の引っ越しパーティーの計画など、やりたいことをする自由が得られます。これはZillowのような企業にとって素晴らしく、新しい顧客を呼び込み、コンバージョン率を向上させます。Geminiアプリのエージェントモードの実験版がまもなくサブスクライバーに提供される予定です。これは新しく進化している分野であり、エージェントの利点をユーザーとエコシステム全体にもたらす最良の方法を模索することに興奮しています。」
次に、Googleが追加しているもので私が本当に嬉しく思うのは、個人的記憶機能です。チャットGPTの主要な特徴の一つは、過去の会話の豊かなコンテキストを持ち、私が誰であるかを正確に知り、パーソナライズされた推奨事項を提供する能力です。そしてGoogleはこの分野に本格的に参入しています。
実際に、プレゼンテーションではこれについて何度も言及していました。
「私たちは「パーソナルコンテキスト」と呼ぶもので、これを実現するために取り組んでいます。あなたの許可を得て、Geminiモデルはプライベートで透明性があり、完全にあなたの管理下にある方法で、GoogleアプリにまたがるコンテキストをGoogle全体で使用することができます。Gmailでの例を紹介します。」
「私たちのAIパワードスマートリプライ機能をご存知かもしれません。これがどれほど人気があるか驚くべきことです。では、それらの応答があなたのように聞こえたらどうでしょうか。それがパーソナライズされたスマートリプライの背後にある考えです。」
「例えば、私の友人がアドバイスを求めてメールを書いてきたとします。彼はユタ州へのロードトリップを計画しており、「私が以前このトリップをしたことを覚えている」と言っています。正直なところ、私はおそらく短く役に立たない返事をするでしょう。ごめんね、フェリックス。しかし、パーソナライズされたスマートリプライを使えば、より良い友人になれます。」
「なぜなら、Geminiが私のためにほとんどすべての作業を行ってくれるからです。ドライブのメモを調べ、予約のための過去のメールをスキャンし、Google Docsで私の旅程を見つけます。ザイオン国立公園への旅行。Geminiは過去のメールから私の典型的な挨拶をマッチさせ、私の話し方、スタイル、お気に入りの単語の選択をキャプチャし、自動的に返信を生成します。」
「1日の運転時間を5時間未満に抑えるなどの詳細を含め、私のお気に入りの形容詞「エキサイティング」を使用していることが気に入っています。良さそうですね。いくつか変更を加えて送信することもできます。これは今夏、サブスクライバー向けにGmailで利用可能になります。」
さて、新しいLLMについては、「Gemini 2.5 Flash」と呼ばれる新しい大規模言語モデルがリリースされました。これはほぼすべての面で他のどのAIよりも優れており、コストは一部で、スピードは10倍です。本当に信じられないほどです。
「Gemini Flashは最も効率的なワークホースモデルです。そのスピードと低コストを愛する開発者の間で非常に人気があります。今日、2.5 Flashの更新版をリリースすることをお知らせできることをとても嬉しく思います。新しいFlashはほぼすべての側面で向上し、推論、コード、長文コンテキストの主要なベンチマークで改善しています。実際、LM Arenaリーダーボードでは2.5 Proに次ぐ位置にあります。」
「Flashは6月初旬に一般提供され、Proはその後すぐに提供される予定です。」
一つ本当に驚いたのは、Google Gemini Deep Thinkです。長く考えるモデルの方が賢くなることは知っていましたが、Gemini 2.5 Proは既に十分賢かったです。しかし、さらに長い時間考えさせると、ベンチマークを圧倒することがわかりました。これには本当に驚きました。
「私たちはGemini 2.5の思考能力の最前線を探求してきました。AlpGo（アルフゴー）での経験から知っているように、これらのモデルに考える時間をより多く与えると応答が向上します。今日、私たちはDeep Thinkと呼ぶ新しいモードを導入することで、2.5 Proをさらに良くしています。これはモデルのパフォーマンスを限界まで押し上げ、画期的な結果をもたらします。」
「Deep Thinkは並列技術を含む、思考と推論における最新の最先端研究を使用しています。これまでのところ、信じられないほどのパフォーマンスを目にしています。USA Mo 2025という現在最も難しい数学ベンチマークの一つで印象的なスコアを獲得しています。また、難しいコード競技レベルのコーディングのベンチマークであるLive Codebenchでリードしています。Geminiは最初からネイティブマルチモーダルであるため、このマルチモーダル能力を測定するMA Mainベンチマークでも優れていることは驚きではありません。」
「2.5 Pro Deep Thinkでフロンティアを定義しているため、より多くのフロンティア安全性評価を実施し、安全性専門家からさらに意見を得るために少し余分な時間を取っています。その一環として、広く利用可能にする前に、フィードバックを得るためにGemini APIを通じて信頼できるテスターに提供する予定です。」
次に、Twitterの世界を席巻したGemini Diffusionがあります。これはGoogle Deep Mindからの実験的研究モデルで、画像やビデオ生成で一般的になった拡散モデリング技術をテキストやコード生成に適用しています。
従来のLLMが一度に1トークンずつテキストを生成するのとは異なり、Gemini Diffusionはランダムなノイズを反復的に洗練して一貫した出力を生成し、シーケンス全体を並行して処理するため、はるかに高速です。
「デミス（Demis）が言ったように、私たちは常にモデルをより効率的かつ高性能にするなど、新しいアプローチでモデルを革新しています。私たちはまず、拡散技術を開拓することで画像とビデオ生成に革命をもたらしました。拡散モデルはノイズを段階的に洗練することで出力の生成を学習します。」
「今日、私たちは拡散の力を最新の研究モデルでテキストにもたらします。これは数学やコードのコンテキストなど、編集タスクで優れた性能を発揮します。左から右だけに生成するのではなく、非常に迅速に解決策を反復し、生成プロセス中にエラーを修正できます。」
「Gemini Diffusionは最先端の実験的テキスト拡散モデルで、この並列生成を活用して極めて低いレイテンシを実現します。例えば、今日リリースするGemini Diffusionのバージョンは、これまでの最速モデルである2.0 Flashlightよりも5倍速く生成し、そのコーディングパフォーマンスに匹敵します。」
「この数学の例を見てみましょう。準備はいいですか？始めます。まばたきをしたら見逃しましたね。先ほど速度を上げましたが、今回は少し速度を落としてみましょう。モデルが答えの39に到達するプロセスを見るのはかなり面白いですね。」
「このモデルは現在小さなグループでテストされており、異なるアプローチでレイテンシを低減する作業を続け、より高速な2.5 flashlightがまもなく登場する予定です。」
また、ネイティブ音声出力も実現しました。これは素晴らしいものです。Googleの音声出力が非常に優れたものになることは知っていましたが、ここで初めて聞いてみると、Googleがいかに優れているかを実感させられました。
「まず、デミスが言及した新しい2.5 flashに加えて、テキスト読み上げの新しいプレビューも導入しています。これらには、ネイティブ音声出力に基づいた2つの音声のサポートという、初の種類の多言語サポートがあります。これはモデルがより表現力豊かな方法で会話できることを意味します。」
「話し方の本当に微妙なニュアンスをキャプチャすることができます。このようにささやきに切り替えることさえできます。これは24以上の言語で動作し、言語間を簡単に切り替えることもできます。したがって、モデルは英語で話し始めることができますが、同じ声ですべて切り替えることができます。」
さて、GoogleのGemini 2.5 Proモデルを使ったコーディングについては、実際に本当に本当に素晴らしいものです。ここでは実際に非常に素晴らしいデモを紹介しています。
「デミスから聞いたように、Gemini 2.5 Proはコーディングに関して信じられないほど優れています。では、あなたがどのようなアイデアでも実現できる方法をお見せしましょう。ニューヨーク市のアメリカ自然史博物館に行ったことがあれば、素晴らしい展示があります。」
「それを今日皆さんにお届けするために、Google AI Studioで2.5 Proに写真を共有して詳細を学ぶための簡単なウェブアプリをコーディングしてもらいました。これが今持っているものですが、もっとインタラクティブにしたいと思っています。デザインについてはまだ考え中ですが、いくつかのアイデアがあります。このようなものを見たことがありますよね？誰かがナプキンにスケッチした素晴らしいアイデアを持ってきます。」
「PMとして、私はよくその「誰か」です。標準的な2次元のウェブデザインはひとつですが、3Dにしたいと思いました。そして、3Dに飛び込むのは簡単ではないことを学びました。シーン、カメラ、照明などの新しいことについて学ぶ必要があります。幸い、2.5 Proが手伝ってくれます。」
「そこで、今から先ほど見せた球体の画像を追加し、2.5 Proに画像に基づいてコードを更新するようプロンプトを追加します。2.5 Proに任せましょう。ご覧のように、考え始めていて、私が求めたことに基づいて計画を作成し、既存のコードベースに適用します。Geminiはマルチモーダルなので、抽象的な球体のスケッチを理解し、美しい3Dアニメーションをコーディングし、それを私の既存のアプリに適用できます。」
「これには約2分かかります。時間の都合上、このベーキングショーのようなスタイルでやりましょう。このキーノート前に同じプロンプトで実行した別のタブにジャンプします。これがGeminiが生成するものです。わあ。あの粗いスケッチから直接コードに移行し、複数のファイルを更新し、実際に37秒考えたことがわかります。そして考えたプロセスと更新したファイルが見えます。」
「これらはすべてAI Studioで行いました。プロトタイピングが終わったら、Gemini APIキーと一緒にコードを簡単にデプロイできます。これが私たちの最終的なアプリをChromeで見たものです。これらのアニメーションを見てください。これを作るのに3.jsライブラリの高度な知識や複雑な3D数学を把握する必要はありませんでした。手作業でこれをやるのには永遠にかかると思います。」
「その代わりに、スケッチだけに基づいてこれを作ることができました。マルチモダリティでこの体験をさらに豊かにすることができます。2.5 Flashを使用して、各写真に質問を追加し、もう少し詳しく学ぶよう招待しました。しかし、もし話せたらどうでしょうか？そこでGeminiのネイティブオーディオの出番です。」
「『それはセンザンコウで、その鱗はあなたの爪と同じケラチンでできています。』」
「すごいですね。今会話しています。アプリに表現力豊かな音声を簡単に追加できることがわかります。詳細を共有する前に、2.5 Proが特別に私たちのためにコーディングした別のレイアウトでこのデモを終わらせましょう。」
そしてコーディングについて話しているなら、GoogleのGeminiがリリースしたコーディングエージェント「Jules」も見てみましょう。タスクを送信するだけでJulesが残りを処理し、バグを修正したり、更新したりします。GitHubと統合され、独自に動作します。
Julesは以前なら何時間もかかっていた、古いバージョンのNode.jsの更新など、大規模なコードベースでの複雑なタスクに取り組むことができます。数分でステップを計画し、ファイルを修正することができます。
「今日、Julesが公開ベータ版になったことを嬉しく思います。誰でもjewels.googleでサインアップできます。」
GoogleのAIオーバービューは以前あまり良くなかったことは知っていますが、実際に以前よりもはるかに良くなるように更新されました。Googleは「AIモード」と呼ばれるものを導入しました。基本的には、AIを使って検索エンジンを再構築するというものです。
「私たちのGeminiモデルはGoogleの検索をより知的で、エージェント的で、パーソナライズされたものにするのに役立っています。進歩の素晴らしい例の一つがAIオーバービューです。昨年のIOで立ち上げて以来、毎月15億人以上のユーザーに、200カ国以上の国と地域で拡大しています。」
「人々がAIオーバービューを使用すると、結果により満足し、より頻繁に検索することがわかります。米国やインドなどの最大の市場では、AIオーバービューがそれらを表示するタイプのクエリで10％以上の成長を促進しています。特に興味深いのは、この成長が時間とともに増加することです。これは過去10年間の検索における最も成功したローンチの一つです。」
「AIオーバービューはまた、Google Lensでの視覚的検索の成長の最も強力な推進力の一つです。Lensは前年比65％成長し、今年すでに1000億以上の視覚的検索が行われています。つまり、人々はより多くのクエリを尋ね、またより複雑なクエリも尋ねています。」
「最新のGeminiモデルにより、AIオーバービューは検索に期待する品質と精度を持ち、業界で最速です。エンドツーエンドのAI検索体験を望む人々のために、まったく新しいAIモードを導入しています。これは検索の完全な再構想です。」
「より高度な推論により、このようなより長く複雑なクエリをAIモードに尋ねることができます。実際、ユーザーは従来の検索の2〜3倍の長さの、はるかに長いクエリを尋ねており、フォローアップ質問でさらに掘り下げることができます。」
「これらすべてが今日、検索内の新しいタブとして利用可能です。私はこれをたくさん使用しており、検索の使い方が完全に変わりました。そして、AIモードが本日から米国の全員に提供されることをお知らせできることを嬉しく思います。」
「AIモードは検索がコアにGemini 2.5を持って変革されたものです。これは私たちの最も強力なAI検索で、どんな質問にも対応できます。そしてスンダー（Sundar）が発表したように、本日から米国の全員にAIモードの展開を開始することを嬉しく思います。検索内の新しいタブとして、または検索バーから直接見つけることができます。」
「AIモードには私たちの最高のAI機能と能力がすべて搭載されます。しかし、それ以上のものです。これは今後訪れるものの一端です。時間が経つにつれて、AIモードの最先端の機能や能力の多くを直接コア検索体験に移行していきます。」
「それは今日から始まり、AIモードを強化するのと同じモデルをAIオーバービューに導入します。そのため、最も難しい質問を検索ボックスに直接持ち込むことができます。今日はAIモードのツアーを提供し、どのように機能し、どのように個人的コンテキスト、より深い研究、複雑な分析と可視化、ライブマルチモダリティ、新しいショッピング方法でさらに良くなっているかをご覧いただきます。」
「それはたくさんあるように聞こえますが、AIモードは実際にたくさんのことができるからです。では、詳しく見ていきましょう。まず、AIモードでは、心に浮かぶことは何でも尋ねることができます。ご覧のように、検索は仕事を始めます。」
「回答を生成し、そうでなければ発見できなかったかもしれないコンテンツやクリエイターへのリンク、評価などの有用な情報を持つ商人やビジネスなど、すべてをまとめます。検索はAIを使用して、テキスト、画像、リンク、さらにはこのマップを含む、ユーザーインターフェース全体をあなたの質問に合わせて動的に適応させます。そして会話形式でフォローアップできます。」
「AIモードは単に情報を提供するだけではありません。検索に全く新しいレベルの知能をもたらしています。これを可能にしているのは「クエリファンアウト技術」と呼ばれるものです。内部的には、検索は質問が高度な推論を必要とする場合を認識します。」
「Geminiのカスタムバージョンを呼び出して、質問をさまざまなサブトピックに分解し、あなたの代わりに複数のクエリを同時に発行します。従来の検索よりもはるかに深くウェブ全体を検索します。そして、ナレッジグラフ、ショッピンググラフ、そしてこの場合、5億人以上の貢献者からなる地図コミュニティからの洞察を含むローカルデータなど、リアルタイム情報のすべてのデータセットを活用します。」
「検索は回答をまとめ、情報品質の高い基準を満たしているかどうか作業をチェックします。そして、ギャップを検出した場合、それらを埋めるためにさらに多くの検索を発行します。つまり、AIモードでは、たった一回の検索からこれらすべてが得られます。しかも、それを素早く得られます。」
「では、今後の予定を見てみましょう。ラボから始まるAIモード。間もなく、AIモードは過去の検索に基づいてパーソナライズされた提案で応答をより役立つものにすることができるようになります。また、Gmailから始めて他のGoogleアプリを接続することもオプトインできます。」
「これを「パーソナルコンテキスト」と呼び、AIモードがあなたを助けるためにパーソナルコンテキストを取り入れる時に表示されます。そして今、最近のレストラン予約や検索に基づいて、あなたが屋外席を好むことが理解されます。そして、あなたがそれらのギャラリーニュースレターを購読しているので、町にいる間にチェックする価値のあるクールなアート展示をいくつか提案します。」
「しかしそれだけではありません。あなたのフライトとホテルの確認がインボックスにあるため、実際にナッシュビルにいる時間に合わせたイベントのアイデアが得られ、多くは滞在先の近くにあります。パーソナルコンテキストがAIモードで検索をどのようにあなただけのものにし、あなた専用にカスタマイズされた推奨事項を提供するかがわかります。」
「これは常にあなたの管理下にあり、いつでも接続または切断を選択できます。パーソナルコンテキストは今夏にAIモードに追加される予定です。次に、より徹底的な回答が欲しい質問のために、AIモードに深い研究能力を導入しています。」
「あなたは今日、トピックを本当に掘り下げるために検索に来ていますが、これははるかに深いレベルにまで至ります。そのため、これを「ディープサーチ」と呼んでいます。ディープサーチは先ほど説明したクエリファンアウト技術を使用していますが、何倍にも増えています。あなたの代わりに数十、あるいは数百の検索を発行することができます。」
「それはそれらの様々な情報のピースにわたって推論し、わずか数分で専門家レベルの完全に引用されたレポートを作成します。ウェブへのリンクが全体に含まれているため、簡単に探索して行動を起こすことができます。これは、AIモード全体の構築方法の中核部分であり、AIと検索についての考え方の核心です。」
「なぜなら、AIはウェブがこれまでに見た中で最も強力な発見エンジンになると信じており、人々がウェブが提供するものをさらに多く発見し、信じられないほど超関連性の高いコンテンツを見つけるのに役立つからです。検索がどのようにより知的になっているかが見え始めています。」
「そして、もっと紹介するものがあります。私は大の野球ファンで、最近このような新しいトーピードバットについて多くの話題があります。野球をフォローしていない方のために説明すると、これはバットの重みがスイートスポットにより多く配置される新しいバットデザインです。」
「ご覧のように、これが実際にゲームに影響を与えているかどうか調査していました。そこで、数字が何を示しているか知りたいと思います。『今シーズンと前シーズンの、現在トーピードバットを使用している注目選手の打率と出塁率を表示してください』と尋ねてみましょう。」
「考えてみてください。その質問にはたくさんの部分があります。検索は注目選手が誰であるか、その中でどの選手がトーピードバットを使用しているか、そして彼らの統計を理解する必要があります。この役立つ回答と読みやすい表が得られます。」
「そして、これが最新かつ正確であることがわかります。なぜなら、最後のストライクまで継続的に更新されている私たちのスポーツデータを使用しているからです。検索はシーズンがまだ初期段階であるなどの重要なコンテキストも含めています。」
「『これらの選手は今シーズン何本のホームランを打っていますか？』とフォローアップすることができます。そうすると、このグラフが表示されます。これは、リズが言及したAIモードが各応答に適したUIを動的に生成することに戻ります。検索はこの情報を提示する最良の方法がグラフであると判断し、それを作成しました。自分専用のスポーツアナリストが検索内にいるようなものです。」
「複雑な分析とデータの可視化は、スポーツと金融の質問に関して今夏から利用可能になります。野球についてのこれらの話で、ゲームにより近づきたくなりました。次のゲームに近いような感じです。しかし、完璧なチケットを見つけるのは大変かもしれません。」
「そこで、プロジェクト・マリナーのエージェント機能をAIモードに導入することを嬉しくお知らせします。AIモードがより知的でパーソナライズされているのをすでに見てきました。そして、ここで検索がよりエージェント的になっていくのが見え始めます。検索は、あなたの管理下にありながらもあなたの代わりに作業を引き受けることができます。」
「『今週土曜日のレッズ戦のために、ロワーレベルで手頃な価格の2枚のチケットを見つけてください』と言ってみましょう。検索はクエリファンアウトを開始し、いくつかのサイトにわたって数百の潜在的なチケットオプションを分析し、私が尋ねたすべての基準で形式に記入するという面倒な作業を行います。」
「そして、それをすべてまとめ、結果にわたって推論して、リアルタイムの価格と在庫を分析します。そして、タスク完了。情報に基づいた決定ができるよう、有用なコンテキストを含む素晴らしいチケットオプションが得られます。これらの席は良い景色を持ち、合理的な価格のようです。検索はたくさんのステップをスキップするのに役立ち、チェックアウトを完了するためのリンクを直接提供します。チケット確保。」
さて、本当にクールなものとして発表されたのは「Search Live」と呼ばれるものです。Search LiveはProject Astraのようなものですが、リクエストしている情報が最新であることを確認するためにGoogleを使用してインターネットを検索することを含みます。
「次に、マルチモダリティについて話しましょう。私たちはマルチモーダル検索がそれほど一般的ではなかった頃からその道を切り開いてきました。2017年にこの同じステージでGoogle Lensを導入し、それ以来、見ているものを検索することをさらに簡単にしてきました。」
「Google Lensで写真を撮るか、単に検索を囲む円を描くだけで、瞬時にAIオーバービューを取得できます。スンダーが言及したように、視覚的検索は急速に広がっており、今日はLensが毎月15億人以上のユーザーを持っていることをお知らせできることを嬉しく思います。」
「今、私たちはProject AstraのライブケイパビリティをAIモードに導入することで、マルチモダリティの次の大きな飛躍を遂げています。DIYの家の修理、難しい学校の課題、または新しいスキルの習得など、話し合って実際に意味するものを見せることが非常に簡単な質問を考えてみてください。」
「これを「Search Live」と呼んでいます。そして今、カメラを使用して、検索はあなたが見ているものを見ることができ、リアルタイムでやり取りしながら役立つ情報を提供します。それは検索とのビデオ通話に飛び込むようなものです。」
「私には3人の子供がいて、1分間に100万個の質問をします。そして夏がすぐそこに迫っているので、チームと私はSearch Liveを究極のテストにかけ、私たちと子供たちが新しいことに取り組むのを助けることにしました。私たちは先週末に家族と一緒に自宅で録画しました。見てみましょう。」
「楽しい科学実験をしようとしているようですね。」
「準備はいい？アンナ？」
「準備はいい？AI？」
「はい。」
「科学実験の準備はできていますか？」
「はい。」
「どの実験をしようとしているか当ててもらえますか？過酸化水素と食器用洗剤と酵母があります。」
「象の歯磨き粉を作ろうとしているようですね。」
「これらのイチゴのうちどれが食べられる状態かどうかどうやって分かりますか？」
「このリモコンを動かそうとしているのですが。」
「誰かが手を汚してインゲン豆の苗を植える準備ができているようですね。」
「1平方インチあたり約50ポンドにポンプしてください。しかし90 PSIを超えないでください。」
「重曹を混ぜました。次に何をすればいいですか？」
「誰かがシナモン水に指を浸したようですね。」
「これをもっと印象的にするには何をすればいいですか？」
「別の触媒を使ってみることもできます。ヨウ化カリウムは良い選択肢です。」
「わあ、なぜそうなっているのですか？」
「熟したイチゴは甘い香りもします。上部の緑の葉は新鮮で活き活きしているはずです。」
「化学反応は順調ですね。これは素晴らしいです。ありがとう。もう一度やってもいいですか？」
「行きましょう。」
「おや。イチゴの染みをシャツからどうやって取り除けばいいですか？」
「小さじ1杯の白酢と小さじ半分の液体洗濯洗剤を混ぜたものを試してみてください。」
また、本当にクールで、ついに製品化されたのがGoogleのAI試着機能です。Generative AIが本当に得意なことの一つは、服を素早く着せて、AIが見ている体に合わせることです。Googleは基本的にこれをさまざまなeコマースウェブサイトに実装しています。
もしオンラインショッピングをしている場合、素早く服を自分の体に適用して、それが気に入るかどうかを確認できるようになります。そのような対話型ショッピングはGeminiによってアップグレードされます。ここでは完全なデモが含まれており、この機能が到着するのを本当に待ちきれません。これはショッピングを変えると思います。何回注文したものが思っていたのと違ったことがありますか？
「これがどのように機能するかについて詳しく説明します。高度な3D形状理解を取り入れており、形状と深さをより正確に認識でき、人間の体をより良く視覚化するのに役立ちます。私たちの試着体験はあなたの写真で機能します。予め撮影された画像やあなたに似ていないモデルではありません。」
「そして、あなたが興味を持っている服に関しては、AIモデルはこの素材が人々の上でどのように折り畳まれ、伸び、垂れ下がるかを表示することができます。このテクノロジーは業界で最先端のものであり、様々な人々に数十億の衣料品がどのように見えるかを視覚化することができます。」
「そして、ここでこのドレスが私にどのように見えるかの感覚を本当に与えてくれるのが分かります。さて、ドレスに決めました。検索は私が望む価格でそれを見つけ、新しいエージェントチェックアウト機能で私のために購入するのを手伝ってくれます。」
「では、ドレスに戻りましょう。そして、価格を追跡するためにこれをクリックします。サイズを選びます。次に目標価格を設定する必要があります。約50ドルに設定します。そして追跡が始まります。検索はドレスが利用可能なウェブサイトを継続的にチェックし、価格が下がれば知らせてくれます。」
「では、ライブデモモードから切り替えましょう。そしてIO魔法を少し振りかけます。価格が下がったと仮定しましょう。それが起こると、このような通知が届きます。購入したい場合、チェックアウトエージェントが正しいサイズと色をカートに追加します。すべての支払いと配送情報を確認するか、単にエージェントに私のために購入させることができます。」
さて、Gemini Liveは、ほとんどの人がその存在さえ知らないと思いますが、基本的に音声で話しかけることができるAIアシスタントです。基本的に、チャットモデルでGeminiとチャットしたくない場合、素早く会話を始めることができます。しかし今、モバイルで画面共有ができるようにアップグレードされました。
そして、カメラ機能もこれに追加されました。AIとの会話が時間とともにどのように変化するかを見るのは非常に興味深いでしょう。
「では、これらすべてがどのようにGeminiアプリでまとまっているかについてもっと話しましょう。今日5つのことを立ち上げています。まず、Gemini Liveについて話しましょう。会話がどれほどインタラクティブで自然であるかに人々は驚いています。45以上の言語、150以上の国で機能します。」
「非常に直感的で魅力的です。実際、会話はアプリのテキスト会話の5倍長くなります。そして個人的な経験から言えますが、朝の通勤中に物事について話し合うのに最適です。スンダーが言及したように、Gemini Liveにはカメラと画面共有が含まれるようになりました。どちらも信じられないほど素晴らしいものです。」
「これらはすべて本日からAndroidとiOSのGeminiアプリで無料で提供されます。そして今後数週間で、カレンダー、マップ、Keep、タスクなどのお気に入りのアプリにGemini Liveを接続できるようになります。」
「間もなく、カメラを向けてカレンダーに招待を追加するように頼むだけで、それが完了します。ルームメイトの買い物リストの手書き文字を解読する必要がある場合、Gemini Liveはそれらの走り書きをGoogle Keepの整理されたリストに変換できます。」
「私たちのGemini RAW liveロードマップはエキサイティングなことであふれています。それらはすべて、先ほど見たプロジェクト・アストラでプロトタイプ化されています。そして、それらのアイデアが成熟するにつれて、Gemini Liveを通じて全員に提供していきます。」
「そして、GeminiとAndroidは密接に連携しているため、それらの体験の多くはAndroidのエコシステム全体で素晴らしく機能するでしょう。今後の展開にご期待ください。」
何かを視覚的に概念化する方法を本当に理解したいとき、Imagin 4は高品質画像に本当に本当に優れており、現在は良質なテキスト生成も含むようにアップグレードされています。
「今日からGeminiアプリに最新かつ最も強力な画像生成モデルを導入します。これはImagine 4と呼ばれ、大きな飛躍です。画像はより豊かで、より微妙な色合いと細かい詳細があり、異なるショットの影、写真に現れる水滴などがあります。」
「私はこれらのモデルの周りで多くの時間を費やしてきましたが、このモデルと進化は良いものから素晴らしいものへ、そして驚異的なものへと進んできたと言えます。そして、Imagine 4はテキストとタイポグラフィーがはるかに優れています。」
「以前は、見た目の良いものを作成できたかもしれませんが、言葉を追加すると常にうまくいくとは限りませんでした。これをご覧ください。音楽フェスティバル用のポスターを作りたいとします。Chromeの恐竜を大見出しにしましょう。」
「Imagine 4は単にテキストとスペルを正しく理解するだけでなく、フォントに恐竜の骨を使用したり、間隔、フォントサイズ、レイアウトを調整して素晴らしいポスターのように見せるなど、創造的な選択をしています。つまり、画質が高く、速度が速く、テキストが良くなっています。」
「これらすべてにより、ポスター、パーティー、その他何でも作ることができます。そして、Geminiのネイティブ画像生成により、これらの画像をアプリ内で簡単に編集することもできます。また、Imagine 4の超高速バージョンも作成しました。あなたがそれを手に入れるのを待ちきれません。実際、以前のモデルよりも10倍速いので、多くのアイデアを迅速に反復することができます。」
そして、このGoogle IOで発表された最も驚異的なものの一つはV3でした。V3は単にリリースされただけでなく、アップグレードされた物理学だけでなく、最終的なビデオ制作にネイティブの効果音も追加されました。
デモを見ると信じられないくらいです。そして、基本的に現実を破るような様々な異なるビデオがオンラインに出回っています。しかし、それがどのように機能するかは本当に信じられないと思います。
「もう一つお見せしたいものがあります。画像は素晴らしいですが、時には物語全体を伝えるために動きと音が必要です。昨年12月、V2が登場し、業界のビデオ生成を再定義しました。そして、昨日デミスの玉ねぎ炒めの投稿を見た人は、私たちが他のものも調理していたことをご存知でしょう。」
「今日、私たちの新しい最先端モデルであるV03を発表できることを嬉しく思います。そして、今日ステージで聞いた他の多くのことと同様に、これは今日から利用可能です。視覚的な品質はさらに良くなっています。物理学の理解はより強力です。しかし、ここで飛躍的な進歩があります。V3にはネイティブ音声生成が付属しています。」
「つまり、V3は効果音、バックグラウンドサウンド、ダイアログを生成できるということです。今、プロンプトを与えると、キャラクターが話すことができます。」
「『彼らは今日ボールを置き忘れました。それは私がジャンプできる以上に高くバウンドしました。それはどんな魔法なのですか？』」
「『この海は力です。野生で、未踏の力です。そして彼女は一つ一つの光で畏敬の念を司ります。』」
「『マイクロフィルムはあなたのチケットの中にあります。彼らは北の出口を監視しています。サービストンネルを使ってください。』」
「クリエイティブコミュニティとのコラボレーションに基づいて、私たちはクリエイターのための新しいAI映画製作ツールを構築してきました。VOとImagineとGeminiの最高のものを組み合わせたツールです。クリエイティブな人々によるクリエイティブな人々のために作られたツールです。それはクリエイティブゾーンに没頭して時間がゆっくりと流れるという魔法のような感覚にインスパイアされています。」
「これを『Flow』と呼び、本日発表します。どのように機能するか見てみましょう。ヒーローに入りましょう。この祖父は羽の生えた友人の助けを借りて飛行車を作っています。これが私の素材です。老人と彼の車です。」
「ツールに自分の画像をアップロードしたり、組み込まれているImagineを使用してその場で生成したりすることが簡単にできます。描写するだけでカスタムゴールドギアシフトを作成できます。それがあります。かなりクールですね。次に、単一のプロンプトですべてのクリップをまとめ始めることができます。」
「非常に正確なカメラコントロールを含め、何が欲しいかを説明できます。Flowはすべてを配置し、シーンビルダーで反復し続けることができます。ここからが本当に刺激的になります。シーンの次のショットをキャプチャしたい場合は、プラスアイコンをクリックして次のショットを作成するだけです。」
「次に何が起こってほしいかを説明できます。例えば、後部座席に10フィートの高さの鶏を追加するなど、Flowが残りを処理します。キャラクターの一貫性、シーンの一貫性、それはうまく機能します。そして何かがうまくいかなければ、問題ありません。他のビデオツールと同様に戻って、うまく機能していない場合はトリミングすることができます。」
「しかし、Flowは逆方向にも機能します。クリップを拡張することもできます。だから、私が取り組んでいた完璧なエンディングを手に入れることができます。必要なすべてのクリップを入手したら、ファイルをダウンロードできます。お気に入りの編集ソフトウェアに取り込み、Lyriaから音楽を追加すれば、老人はついに飛行車を手に入れました。」
先ほどV3について話したことを覚えていますか？彼らは、短いAI映画を作りたい場合に、かなり簡単にできるようにするものを導入しました。そして、Twitterで見てきたAI映画は素晴らしいものばかりでした。エンターテイメント分野がこの先どこに向かうのか本当に不思議に思います。
「私が正しい道を歩んでいるかどうかわかりませんが、見つけようとしています。疑問を持ち、探し求めています。そして何かが変わり、もはや試してすらいません。私はただやっているだけで、すべてのピースが所定の位置に落ち始めます。」
「私の頭の中ではすべてがかなり明確に感じられます。ほとんど次元を旅するかのように、可能性のこれらのようなフラッシュが見えます。私は自分自身と私のキャラクターを、これらの異なる世界で見下ろしているようで、それはほとんど自分たちの力で命を吹き込んでいるようです。」
「私がそのナラティブをコントロールしていることは分かっていますが、ある時点でそれはほとんど自分自身の上に積み重なっているような感じがします。物語には無限の数のエンディングがあり得ることを知っています。」
「だから、作品はレンガを一つ一つ積み上げるようには構築されません。それは自然発生的な庭のように咲き、自然に成長し、完全に生き生きとして完成します。私はそれを強制しているのではなく、ただ見つけているだけです。そして、それは私が正しい場所にいることを知っているときです。」