15分以内でGoogle AIスタジオの90%を習得しよう！

4,861 文字

Learn 90% of Google AI Studio in Under 15 Minutes!

Put simply, #googlegemini AI Studio is perfect for professionals working with multiple Google AI models and want to have...

これはGoogle AIスタジオについての無駄のないガイドです。Geminiモデルにアクセスしたい場合、Google AIスタジオを通して使用する方が断然良いのですが、多くの人々からUIが過剰で何をどう使えばいいのか分かりにくいという声を聞いています。このチュートリアルでは、Google AIスタジオのすべてを学び、品質やカスタマイズを妥協することなく最先端のモデルを実行できるようになります。
Google AIスタジオにサインインすると最初に目にするのは、このような画面です。ここで「イーロン・マスクについてジョークを書いて」と入力して送信できます。ここで注意すべき点は、特定のユースケースに適したモデルを選択する必要があるということです。この場合、単にジョークを聞きたいだけなので、Gemini 1.5 Proのような高性能で時間のかかるモデルは必要ありません。レイテンシーを最適化できるユースケースなのです。
モデルセクションに移動すると、利用可能なモデルが表示されます。Gemini 2.0 Flash、Gemini 2.0 Flashlight（グーグルさん、モデルの命名をもっと分かりやすくして欲しいですね）、Lightモデル、Previewモデル、Thinkingモデル、Experimentalモデルがあり、さらにPreviewモデルのセクションとGemmaモデルのセクションが別にあります。
好きなモデルを選択できます。試しにGemini 2.0 Flashを選んで、速度の違いを確認してみましょう。同じプロンプト「イーロン・マスクについてジョークを書いて」を使用すると、非常に高速な応答が得られます。これは利用可能なモデルの中で最速の一つです。
モデルを選択すると、そのモデルで利用可能なトークン数が表示されます。これはモデルの短期記憶のような文脈窓です。2.0 Flashを選択すると100万トークン、GMA 2を選択すると8,000トークン、そしてGemini 1.5 Proを選択すると約200万トークンが利用可能です。このように、異なるユースケースに応じて様々なモデルを使用できます。
次に理解すべきは温度設定です。モデルの創造的な応答を増やしたい場合や、応答をよりカオス的にしたい場合は温度を上げます。客観的な真実を求める場合は温度を低く保ちます。これは基本的に、モデルが応答をサンプリングする際のランダム化です。
これが最も基本的なセットアップですが、Google AIスタジオの大きな問題の一つは、新しいプロンプトを作成すると履歴がデフォルトで保存されないことです。これは意図的な設計選択です。何かを保存したい場合は、必ず保存操作を行う必要があります。
試しに簡単な質問をして、保存してみましょう。「GoogleがAlterVistを打ち負かした理由について簡単なエッセイを書いて」と入力し、Gemini 2.0 Flashで送信します。選択したモデルの仕様がここに表示されます。完了すると、タイトルが表示され、保存できます。プロンプト名は自動生成されますが、オプションで説明を追加できます。保存すると、ライブラリに表示され、いつでも使用できるようになります。これが保存したものを取り出す最も簡単な方法です。
もう一つ興味深いのは、システム指示も利用できることです。これはモデルにどのような役割を演じてほしいか、どのような制約を設定したいかをカスタマイズするためのものです。例えば、「あなたは本当に年配のおばあさんと話しています」というようなシステムプロンプトを設定し、「スカイダイビングはできますか？」と質問すると、そのペルソナを取り入れて回答します。
これがGoogle AIスタジオでできる最も基本的なことですが、このビデオを見ているあなたは、もっと深い内容を求めているはずです。ここからが重要な部分です。
まず最も重要なのはツールセクションです。構造化出力は、大規模言語モデルからJSONレスポンスを一貫して取得する方法の一つです。関数呼び出しやソフトウェア構築において非常に有用です。例えば、「数字を含むイーロン・マスクについてのジョークを書いて」と入力し、構造化出力を有効にすると、キーが「joke」で値がジョーク本体であるJSONオブジェクトが返されます。
次にコード実行があります。これは作成したものが自動的に実行され、結果を確認できる機能です。例えば、「フィボナッチ数列の65番目の数字を知りたい」と入力してコード実行を有効にすると、コードを書き、実行し、出力を返してくれます。Pythonを使用して問題を解決したい場合に非常に便利です。
また、関数呼び出しもあり、エージェントコードなどを使用したい場合に役立ちます。
Google AIスタジオやその他の開発者ツールには見られない機能の一つが、Googleが「Google検索によるグラウンディング」と呼ぶものです。これは非常に過小評価されている機能で、多くの人が知りません。これは、あなたが尋ねた内容をGoogle検索で事実確認しようとするもので、インターネットや世界の現状について最も信頼できるニュースソースと照らし合わせて検証しようとします。
例えば、「フリースタイルチェスはいつ開催されますか？」と質問すると、単にそのまま送信した場合、フリースタイルチェスが何なのか、何について話しているのかわかりません。しかし、新しいプロンプトを作成し、Google検索によるグラウンディングを有効にして同じ質問をすると、フリースタイルチェスGLグランドスラムツアーが既に進行中で、第一レグがドイツのヴィース・アン・デア・ハウゼで本日開催されているという情報を得ることができます。これがGoogle AIスタジオをGoogle検索によるグラウンディングと共に使用する最大の利点の一つです。
ツールセクションでできることは以上です。次に詳細設定では、安全性設定やストップシーケンス（特定のトークンが出現したときにモデルを停止させる）を設定できます。また、モデルが100万トークンを持っていても100万トークンすべてを出力させたくない場合は、出力の長さを定義できます。安全性設定では、ハラスメントや憎悪などの制御レベルを選択できます。
これらすべてを設定した後、開発者としてコードを構築したい場合はどうすればよいでしょうか。例えば、画像をアップロードしてYouTubeの説明文を作成してもらいたい場合を考えてみましょう。「アップロード」をクリックし、「ファイルをアップロード」を選択して、最新のサムネイルの一つ（この場合はDeep Lama）をアップロードします。「この画像に基づいて詳細なYouTubeの説明文を作成してください」とプロンプトを送信します。
画像をアップロードしてプロンプトを与えると、応答が返ってきます。これをデスクトップアプリケーション、ウェブアプリケーション、またはAndroidアプリケーションの一部として実装したい場合は、「コードを取得」をクリックすると、実行に必要な完全なコードが得られます。APIキーを取得するには「APIキーを取得」をクリックし、「APIキーを作成」をクリックするとAPIキーが作成されます。現在、Google AIスタジオを通して使用するものは無料でプロトタイプを作成できます。
コードを取得してクリックするだけで、Google Colabに直接移動し、大規模なセットアップなしで作業を開始できます。同じ会社のプロダクトなので、これがプロンプトからコードへ移行する最も簡単な方法の一つです。
また、2つのモデルを比較する機能もあります。これはArenaで行うことと同じです。例えば、2.0 Flashと2.0 Flashlightを選択し、「8.11と9.8のどちらが大きいですか」と質問できます。8が8.11より大きいと答えていますが、なぜそう言うのかわかりません。そもそも8という数字は入力していないので、おそらく1.8と言おうとしたのかもしれません。
このように、2つの異なるモデルを並べて比較できます。最近、私は医師のユースケースを構築しようとしているので、モデルが視覚的にどのように物事を見ているかを理解することが非常に重要です。例えば、Gemini 1.5 FlashとGemini 2.0 Flashを選択し、画像をアップロードして「この写真の人物にお勧めのフェイシャルケアを提案してください」と質問できます。設定を追加し、構造化出力などを有効にして実行できます。人間の顔の画像があるため編集はできませんが、一般的な提案が得られます。これが比較機能です。
ここまでで基本的なことはすべて完了しました。プロンプトの作成、ツール、詳細設定を学びました。次に、フューショット例と呼ばれる機能について説明します。これは複数の例を与え、それに基づいてモデルに学習させる方法です。これはGoogle AIスタジオに隠された機能で、多くの人が知りません。
モデルをチューニングし、データソースを選択できます。例えば、ニュースのハイライトの例を選択できます。入力がこうで出力がこうあるべきというようにデータセットを準備する方法を示します。これにより、Google AIスタジオに入力プロンプトと出力プロンプトがどうあるべきかを伝え、これらの例を使用して最終的な応答を得ることができます。非常に効果的ですが、あまり使用されていません。
会社のツイートを作成したい場合や、カスタマーサポートに使用したい場合など、どのような下流のNLPタスクにも使用できます。標準化やモデルの操作性が必要な場合に特に有用です。
次にプロンプトギャラリーがあり、様々なことができます。例えば、ビデオQ&Aのプロンプトライブラリがあり、ビデオをアップロードしてどのような質問をしたいか指定できます。
最後に、最も重要な機能の一つが、リアルタイムストリームです。これによりGeminiと会話し、自分の顔を見せたり、画面を共有したりできます。試しにGeminiと話してみましょう。
「聞こえますか？」
（権限を与える必要があります）「聞こえますか？」
「はい、聞こえます」
「何か具体的に一貫性のないことがありますか？」
「申し訳ありません。私は視聴者の皆さんに愚痴を言っていただけです」
「大丈夫です。視聴者についてもっと教えていただけますか？」
「いいえ、ただGoogleのAIモデルの名前がいつも紛らわしい理由を知りたいだけです」
「確かに紛らわしいですね。AIモデルの命名規則は必ずしも一貫性がなく、Googleも他のテック企業と同様に異なる命名スキームを使用することがあります。特定の名前について問題がありますか？」
「いいえ、大丈夫です。ありがとうございます。さようなら」
「どういたしまして。さようなら」
このように、これは素晴らしい機能です。これについては専用の動画がありますが、これがGoogle AIスタジオでできることのすべてです。Geminiインターフェースの使用はお勧めしません。モデルが何なのかわからず、多くのことを制御できないからです。
コンピュータの基本的な知識があれば、この機能を使用することを強くお勧めします。このチュートリアルでは、Google AIスタジオでできることの90%をカバーしています。見落としている点や新しく学んだことがあれば教えてください。
ここでお見せしたすべての機能は、APIキーを含めて特定のリクエスト数まで無料で利用でき、支払いやクレジットカードの入力も必要ありません。これは本番環境に移行する前の優れた実験用プレイグラウンドとAPIです。どう思われましたか？また別の動画でお会いしましょう。ハッピープロンプティング！