
3,314 文字

イアン・バランタイン: Googleは、マルチモーダル大規模言語モデルのGeminiファミリーの最新版として、Gemini 2.0 Flash Experimentalを発表しました。Gemini 1.5のようなマルチモーダルモデルは、テキスト、画像、音声、動画を入力として受け付けます。しかしGemini 2.0 Flashは、音声や画像を含む応答を生成する機能も備えています。
この機能に加え、強化された推論能力、Google検索やコード実行などのツールにより、開発者はより高度なワークフローを持つアプリケーションを構築できるようになりました。例えば、複数のステップにわたる調査を実行し、生成されたコードで結果を視覚化することができます。注目すべき点は、Multimodal Live APIを使用してGemini 2.0とコミュニケーションを取れることです。
Multimodal Live APIは双方向ストリーミングインターフェースで、ユーザーがリアルタイムの音声対話と自然な会話を可能にします。マイク、ウェブカメラ、画面からのリアルタイムの音声と映像を使用してモデルと対話できるようになりました。モデルは中断や自然な会話の流れに対応でき、よりインタラクティブな体験を提供します。
これは今すぐに想像するのは少し難しいかもしれませんので、いくつか例を見てみましょう。このデモでは、ユーザーがGoogle AI StudioでMultimodal Live APIを使用してGemini 2.0 Flashと対話している様子を示しています。
話者1: 私の画面が見えますか?
話者2: はい、画面が見えます。タイトルがDemoのドキュメントが表示されています。また、ビデオに人物が映っているGoogle Meetウィンドウも含まれています。画面について特に話したいことはありますか?
話者1: はい、私がハイライトしたテキストを読んでもらえますか?
話者2: もちろんできます。ハイライトされたテキストには「Multimodal Live APIを使用すると、Gemini 2.0 Flashを利用したリアルタイムのマルチモーダルアプリケーションを構築できます。Google検索やコード実行、関数呼び出しなどのツール使用機能を備えています」と書かれています。
イアン・バランタイン: このデモは、ユーザーがGemini 2.0 Flashと会話している様子を示しています。アプリ自体はMultimodal Live APIで動作するように構築されています。
話者1: 「ゴッドファーザー」と「オッペンハイマー」の上映時間を比較する棒グラフを作成してください。他の2つの「ゴッドファーザー」もグラフに追加してください。ランダムに3つのスーパーヒーロー映画を選んでグラフに追加してください。
イアン・バランタイン: これがGemini 2.0 Flashとライブ会話を行う簡単なデモでした。応答の低レイテンシーによって自然な会話が可能になっていることに注目してください。双方向ストリーミングインターフェースによってモデルを中断することができ、クエリの改良や議論の反復が可能です。
では、どのようにしてGemini 2.0 Flashでの開発を始めればよいのでしょうか?これらの例では、インターフェースにアクセスするために必要なコードを確認できます。この例はWebSocketsを使用したPythonで書かれています。
話者3: こんにちは。太陽系の惑星を列挙してもらえますか?
話者4: はい、できます。太陽系の惑星を太陽からの順番に挙げると、水星、金星、地球、火星、木星、土星です。
話者3: 実は、ガス惑星だけを挙げてもらえますか?
話者4: 問題ありません。太陽系のガス惑星は木星、土星、天王星、海王星です。
話者3: ありがとう。
イアン・バランタイン: 次に、新しい出力モダリティの1つについて説明しましょう。Gemini 2.0 Flashは画像を生成し、会話形式での複数ターンの編集をサポートするため、以前の出力を基に改良することができます。テキストと画像を交互に出力できるため、デザインアイデアのブレインストーミングやステップバイステップの指示と共に視覚的要素を表示するのに役立ちます。
画像出力は早期テスター向けに提供されており、より広範な展開は来年を予定しています。Gemini 2.0 Flashは新しいテキスト読み上げスタイルの音声機能を備えており、開発者は多言語のネイティブ音声出力を利用できます。異なる点は、ネイティブ音声では8つの高品質な音声と様々な言語やアクセントの選択肢があり、モデルが何を言うかだけでなく、どのように言うかについても細かい制御が可能なことです。
多言語ネイティブ音声出力の実際の動作を聞いてみましょう。
話者5: ネイティブ音声とは正確には何でしょうか?実は今あなたがそれを聞いているところです。
話者6: このビデオで聞こえるすべては、画面に表示されているこの実際のプロンプトのようなプロンプトで生成されました。すべてが、このAI Studioのスクリーンキャプチャに表示されているように、新しい実験的なGemini 2.0 Flashモデルによってプロンプトで生成されたものです。
話者7: まるでただリラックスした感じで話すようにプロンプトを与えることができます。
話者8: あるいは、ああ、とても劇的な間を持たせて話すようにプロンプトを与えることもできます。
イアン・バランタイン: このように、Geminiが応答する際には、単に言葉だけでなく、強調、トーン、自然な間を含むスタイルも生成します。同じ応答の中で言語を切り替えることもできます。
話者9: 英語で話し始めて、その後[フランス語で話す][韓国語で話す]
イアン・バランタイン: このように音声出力を設定することで、アシスタントをより魅力的にできることを想像してください。これらの新しい出力モダリティは早期テスター向けに提供されており、より広範な展開は来年を予定しています。
これらはGemini 2.0の発表で有効になった機能のすべてではありません。Flash 2.0は1.5 Proの2倍の速さでありながら、より強力なパフォーマンスを達成しています。モデルは空間理解も改善されており、雑然とした画像の中の小さな物体のバウンディングボックス生成がより正確になり、物体の識別とキャプション付けも向上しています。
Gemini 2.0はツールの使用も学習しています。開発者の入力に基づいて、Gemini 2.0はツールを呼び出して連鎖させ、アクションを反復し、結果を処理してより高度なワークフローを可能にします。Google検索のようなツールを使用するように設定でき、これらは並列で実行して複数のソースからより関連性の高い事実を見つけることができます。
その後、コード実行や関数呼び出しを使用して結果を組み合わせ、より正確でカスタマイズされた応答を導き出すことができます。Geminiの新機能を使用してアプリケーションを構築するこれらの開発者ツールを試してみたい場合は、実験段階の間、GeminiAPI、Google AI Studio、Vertex AIを通じてGemini 2.0 Flashをテストおよび探索できます。一般提供は来年初めを予定しています。
このビデオで示されたコード例を試してみたい場合は、Gemini Cookbookの一部としてGoogle Colabノートブックのドキュメントへのリンクをたどってください。GeminiとGoogle AIのより興味深い使用事例を見るには、新しいGoogle AI for developers のソーシャルチャンネルをフォローしてください。今後数週間でさらに多くのデモや例が発表される予定なので、購読して最新情報をお見逃しなく。
いつものように、皆さんがGeminiで何を構築するのかを楽しみにしています。
コメント