
10,099 文字

私の名前はデビッド・アンドレです。ここではLlama 4を使って何でも構築する方法をお教えします。未来が到来しました。Meta AIがLlama 4をリリースしました。世界で最も強力なオープンソースモデルです。3つの異なるサイズがあり、驚くべきことに1,000万トークンのコンテキストウィンドウを備えています。このビデオでは、完全な初心者であっても、Llama 4を使って何でも構築する方法をお示しします。
Llama 4は絶対にどこにでも存在するようになるでしょう。なぜならMetaはLlamaを彼らのすべてのプラットフォームに追加しているからです。つまり、Facebook、WhatsApp、Messenger、Instagramなどです。2025年には、これらのプラットフォームの月間アクティブユーザーは合計約40億人に達し、世界で最も人気のあるAIチャットボットになり、Chat GPTをはるかに上回るでしょう。
ベンチマークに関しては、これらの新しいLlama 4モデルは間違いなく期待を裏切りません。このチャートではLM Arena ELOとモデルのコストを比較しています。高ければ高いほど、左に行けば行くほど安価です。ご覧のように、Llama 4 Maverickは他の利用可能なすべてのモデルを完全に凌駕しています。
実際、Llama 4は3つの異なるモデルサイズで提供されています。Behemoth、Maverick、Scoutです。Llama 4 Behemothは最大のもので、2兆のパラメータを持っていますが、現在は利用できません。一方、Llama 4 Maverickは利用可能で、4,000億のパラメータを持ち、Geminiモデルと同様に100万のコンテキスト長を持つネイティブマルチモーダルモデルです。
面白いのは、Llama 4 Scoutがこれら3つのモデルの中で最小でありながら、1,000万トークンという最大のコンテキスト長を持っていることです。おそらく100冊の短い本を1つのプロンプトに収めることができます。このビデオの後半では、これら2つのモデルを実行し、アプリやAIエージェントを実際に構築する方法をお見せします。
Llama 4が世界で最高のオープンソースAIモデルになった主な理由の一つは、「専門家の混合」(Mixture of Experts)です。これはLlamaが構築されているアーキテクチャで、異なるサブタスクを処理する多くの専門家が存在します。右の画像を見れば理解できます。ユーザーが「1+1は何ですか」というプロンプトを入力したとします。このプロンプトはモデルに入り、ご覧のように、句読点、動詞、接続詞、数字の4つの異なる専門家がいます。これは数字に関する質問なので、数字の専門家が活性化して答えを提供し、他の3つの専門家は活性化する必要がなかったため、多くのリソースと推論コストを節約できます。
Llama 4 Maverickには128の異なる専門家がいますが、各入力に対して少数のみが活性化されるため、モデルははるかに高速で効率的になります。
Llama 4は素晴らしいもの、つまりオープンソースで世界最高のAIモデルの一つで、超コスト効率が高いですが、大きな問題があります。Llama 4モデルをローカルで実行することは、あまりにも巨大なため、99%の人にとって実行不可能です。その上、Llama 4とチャットできるはずのMeta AIサービスは現在、ほとんどの国で利用できません。このビデオを撮影中の私でさえ使用できませんでした。
だからこそ、私はLlama 4をVectalに追加しました。ここでは完全に無料で使用できます。Llama 4 Scoutに無料でアクセスしたい場合は、vectal.aiにアクセスして登録してください。
それでは、構築に取り掛かりましょう。まず、vectal.aiにアクセスしてアカウントを作成します。完全に無料で始められます。アカウントができたら、左下に行ってモデルを選択します。無料ユーザーはLlama 4 ScoutとDeepseek R1から選べますが、Vectal Proユーザーは、Llama 4 Maverickへの無制限アクセスと他のプレミアムモデルへのアクセスが可能です。
世界で最も知的な生産性アプリで、タスク完了を支援する組み込みAIエージェントが欲しい場合は、vectal.aiにアクセスして登録してください。完全に無料で始められます。
さて、このビデオの構築アイデアを選びましょう。ちなみに、特定のAIエージェントや特定のアプリを構築してほしい場合は、下にコメントしてください。次のビデオであなたが提案したものを選ぶかもしれません。
「新しいLlama 4のパワーを紹介する構築アイデアを選ぶのを手伝ってください。7つの異なるオプションを提案してください」とLlama 4 Maverickに送信しましょう。
ご覧のように、とても速いです。マルチモーダル会話エージェント、AIパワード研究アシスタント、翻訳・ローカリゼーションツールなどが出てきました。視覚的な要素、マルチモーダルな要素に力を入れたいようですね。これは理にかなっています。Meta AIのLlama 4の記事を見ると、マルチモーダル機能に重点を置いていることがわかります。ここでご覧のように、10回も言及されています。
では、Vectalに戻って「Llama 4モデルのマルチモーダルパワーを本当に紹介するプロジェクトアイデアをブレインストーミングしましょう。7つの異なるユニークなアイデアを作成してください」と質問します。
ご覧のように、私たちのアイデアリストエージェントに委任しています。Vectal内には、アイデアのビューがあり、思いついたことをすぐに書き出せる場所です。主なものは明らかにタスクリストです。これがあなたのメインタスク、メインの仕事ですが、Vectal内にはメモもあります。長い間覚えておきたいものなどですが、アイデアはブレインストーミングを簡単に行える場所です。
プロンプトを送信するだけで、チャットエージェントがアイデアエージェントに委任し、7つの異なるアイデアを作成しました。削除するか、メモやタスクに変換するかを簡単に選べます。
リアルタイムコード説明者、AIトラベルガイド、料理アシスタントなど、どのようなアイデアが出てきたか見てみましょう。これらのアイデアは悪くはないですが、かなり簡単で予測可能なものです。
少し考えて、より良いアイデアが浮かびました。「これらのアイデアをすべてアーカイブする」と言って、私のアイデアを提案します。「数秒ごとに画面のスクリーンショットを撮り、Llama 4のマルチモーダル機能を使用して、あなたが何をしているかについて生産的な批評や意見を提供するプログラム」です。これらよりも構築は難しいですが、結果ははるかに印象的で役立つものになるでしょう。
チャットをクリアして、このプロンプトを送信し、チャットモードに切り替えます。ちなみに、Vectal内のチャットモードとエージェントモードは、Cursorのチャットモードと同じように機能します。チャットモードでは変更を加えることができません。質問する場合や、タスクを変更したり新しいアイデアを作成したりしたくない場合は、チャットモードを使用してください。エージェントモードでは、Vectalがタスクの完了、新しいタスクの作成、整理などを支援します。
Vectalは複数のステップで行う方法の概要を示してくれました。残っているのは新しいプロジェクトを作成することです。構築アイデアが選ばれたので、このタスクを完了としてマークし、Cursor内に新しいプロジェクトを作成します。
Cursorを開き、新しい空のフォルダを作成して開きます。そして、Vectalが示す指示に従います。より詳細なステップバイステップの指示を求めることもできます。「このPythonプログラムをCursor内でセットアップする方法について、より詳細なステップバイステップの指示を教えてください。簡潔に答えてください」
ご覧のように、Vectalは再びPerplexity Proを呼び出して迅速なウェブ検索を行いました。まず、Cursorをインストールする必要があります。次に、Pythonなどの前提条件が必要です。
「すべてのcond環境をリストアップして、test envを有効にしてください」と言います。ここではGemini 2.5 Proを使用しています。Cursorにllama 4が利用可能かどうか確認してみましょう。
Cursorの設定に移動し、モデルをクリックすると、Cursor内で利用可能なすべてのモデルが表示されます。Llama 4はまだないようです。Vectalでは、Cursorなどの大きなAI企業より早く追加できて嬉しいです。
Cursorエージェントが私のすべてのcond環境をリストアップし、一つを有効にしました。単一のコード行も書かずに、プレーンな英語で話しかけるだけで、望むことを実行してくれました。
「新しいmain.pyファイルを作成してください」と言うと、瞬時に新しいファイルを作成してくれます。2025年には、AIエージェントが文字通りすべてを行うことができるので、ファイルを作成する必要さえありません。
Vectalに戻って、示されたステップに従いましょう。まず、スクリーンショットのキャプチャをセットアップする必要があります。まず、構築アイデアを説明します。ファイルの先頭に構築アイデアの簡単な説明を追加しました。
あるいは、cursor_rules.mdという新しいファイルを作成し、そこに構築アイデアを追加することもできます。そうすれば、Cursorに送信するすべてのプロンプトで、私たちが何を構築しているかを認識できます。時間をかけてcursor_rulesファイルを拡張し改善することは、間違いなく良いアイデアです。
Vectalに戻り、最初のステップであるスクリーンショットキャプチャのセットアップをコピーし、エージェントに貼り付けます。「main.pyでこの最初のステップを実行するのを手伝ってください。ファイルをタグ付けし、それ以外のことはしないでください」と言います。これはAIエージェントが脱線しないようにするための良いプロンプトです。
現在、私はGemini 2.5 Proを使用していますが、これは現在世界で最高のコーディングモデルです。Gemini 2.5 Proの使用を強くお勧めします。もちろん、Vectal Proユーザーの場合は、Vectal内でも利用可能です。
コードは非常にシンプルです。これを承認すると、エラーが表示されます。これはパッケージがインストールされていないためです。チャットで修正をクリックするだけで、Gemini 2.5 Proが簡単に処理できるはずです。「pip install pyautogui」これにより、コンピュータのスクリーンショットを撮ることができます。
また、重要なのは右下隅でtest cond環境を選択することです。これでハイライト表示されなくなったので、動作するはずです。「コードは動作しますか?テストする準備はできていますか?それとも他に何か足りないものがありますか?」と質問すると、「main.pyのコードは構文的に正しいです」と回答します。
実行して、5秒ごとにスクリーンショットを撮れるか確認しましょう。スクリーンショット1がキャプチャされました。しかし、これらはどこに保存されているのでしょうか?
ターミナルを停止し、「これらのスクリーンショットはどこに保存されていますか?main.pyがある現在のディレクトリに「screenshots」という新しいフォルダを作成し、そこに保存されるようにしてください。main.pyを適宜更新し、それ以外は変更しないでください」と質問します。
これが私がAIエージェントを使ってソフトウェアを構築する方法です。このプロセスは私自身のAIスタートアップVectal.AIを構築する際に従ったものです。現在、月額5桁のMRR(月間定期収益)を上げています。これは成功したAIスタートアップです。まだ10億ドル企業ではありませんが、開発者なしで最初の3.5ヶ月間、CursorやClaudeなどのAIツールの助けを借りて自分で構築しました。
今はこれまで以上に簡単になっています。Vectalの構築を始めた時はLlama 4すら存在せず、Llama 4 MaverickはClaude 3.5よりもはるかに優れています。
スクリーンショットが現在のディレクトリの「screenshots」フォルダに保存されるように変更を要求しました。変更を承認して再度実行しましょう。
新しいフォルダが作成され、スクリーンショットが撮られるたびにここに表示されるはずです。print文は表示されますが、フォルダにファイルが追加されていません。これを停止して、「フォルダは正常に作成されましたが、ターミナルにprint文が表示されているにもかかわらず、フォルダは完全に空のままで、中にファイルがありません。何か大きな問題があるようです」と言います。
Gemini 2.5 Proはこのデバッグに十分な能力があるはずです。「Mac OSでは、アプリケーションに十分な権限がない場合、この動作は一般的です」とのことです。まだ十分な権限がないようです。
Vectalに質問してみましょう。Vectalには組み込みのPerplexity Pro Web検索があり、これを簡単に解決できるはずです。「これまでのコードを示します…MacBookでPyAutoGUIがスクリーンショットを撮って保存できるようにするために何をする必要があるか、ウェブを調べてください。簡潔に答えてください」
「PyAutoGUIのスクリーンショットを有効にするには、システム環境設定の画面収録を通じてTerminalまたはPythonに画面収録権限を付与し、TerminalまたはPythonを追加して再起動してください」
システム環境設定で「画面と音声の収録」に移動し、TerminalとPythonを追加する必要があります。Terminalが追加されました。終了して再起動します。
これでTerminalに権限が付与されたはずです。Cursorに戻って、これが機能するか確認しましょう。ただし、これをターミナルで実行する必要があるかもしれません。
Gemini 2.5 Proに問題を説明し、「MSSという別のライブラリを使用してみてください」という回答を得ました。実行してみると、スクリーンショット1が取得されました!スクリーンショット2も成功です。
異なるスクリーンショットを取得するために、ブラウザに切り替えてOpen Routerを表示し、Vectalも数秒間表示しましょう。戻ってくると、これらの異なるアプリからのスクリーンショットが取得されているはずです。
プロセスを停止します。スクリーンショット5はVectal、Open Router、Cursorからのものです。素晴らしい!これで機能します。問題を説明するだけで、Gemini 2.5 Proが解決できました。
これでスクリーンショットを正常に取得できるようになったので、次のステップはLlama 4にこれらのスクリーンショットを分析させることです。Open Routerでこれをセットアップする方法を尋ねます。「Open Routerでこれをセットアップする方法を教えてください。ステップバイステップの指示を提供してください」
「Open RouterでLlama 4統合をセットアップするには、Open Routerアカウントを持っているか確認する必要があります」。Open Routerに移動して、アカウントがない場合は作成します。APIキーを取得する必要があります。
指示をCursorにコピーして、「main.pyを適宜更新してください。目標は、プログラムによって取得された各スクリーンショットをLlama 4に分析させ、私たちが何をしているかについて簡単な批評を提供し、より生産的になるよう支援することです」と言います。
Open RouterのAPIキーを生成します。Open Router.AIにアクセスし、アカウントを作成して、右上の「キー」をクリックし、「キーを作成」をクリックします。「llama4test」と名前を付けて作成し、キーをコピーします。APIキーは誰とも共有せず、パスワードとして扱ってください。
Cursorに戻ります。変更が適用されている間、コードはまだ32行しかなく、非常にシンプルです。
これまでの変更を承認し、APIキーを入力する必要があります。なぜかGemini 2.5 Proが変更を半分適用した状態で停止していますので、チェックポイントを復元してClaude 3.7 Sonnet Maxを使用します。
変更を拒否し、新しいチャットを作成して、Open RouterのAPIキーを保存します。理想的にはENVファイルを使用するべきですが、このチュートリアルでは問題ありません。
Vectalに戻り、チャットをクリアして「AIモデルの入力パラメータに画像を渡す方法について、Open RouterのAPIコールの公式ドキュメントを調べてください。Llama 4を使用して、分析用にスクリーンショットを提供したいです。ステップバイステップで指示を教えてください」と尋ねます。
ウルトラサーチを使用します。これはVectal内の機能で、ディープリサーチの次のレベルです。Perplexityのディープリサーチを基盤とし、あなたのすべてのタスク、プロジェクト、アイデア、ユーザーコンテキストなど、Vectal内のすべてを考慮して、検索結果をあなたに関連するものにします。
これが私のお気に入りのディープリサーチ機能である主な理由です。自分で構築したので仕組みを知っているだけでなく、Perplexityのディープリサーチを基盤としており、Perplexityはウェブ検索に関して何をしているかを明確に理解しているからです。また、私に関連するすべてのコンテキストを考慮するため、常に最も関連性の高い情報を提供します。
ウルトラサーチが完了しました。OpenAIのディープリサーチとは異なり、非常に効率的です。Chat GPTでは10~15分かかることがありますが、これは約30秒で完了し、毎回50以上のソースをチェックして非常に正確です。
ウルトラサーチの結果をCursorに渡します。これが複数のAIツールを持つことが不可欠である理由です。
ウルトラサーチの結果全体をコピーし、Cursorに供給します。「最もシンプルな方法でOpen Routerを実装するようにmain.pyを更新してください。変更するコード行は少ないほど良いです。それ以外のことは何もしないでください」と指示します。
ウルトラサーチのコンテキストをすべて提供し、5秒間検討した後、コードの変更を提案しています。49行の新しいコードを追加し、モデルは正しく見えます。Llama 4 Maverickを使用しています。
Open Routerにアクセスして、モデル名が完全に一致していることを確認できます。無料版もありますが、レート制限が非常に低く、アップタイムも悪いので、無料版の使用はお勧めしません。有料版を使用することをお勧めします。$5チャージするだけで、ほとんどの人にとって数週間は十分でしょう。
このモデル名が完全に一致していることを確認する必要があり、そうなっているので良いです。ウルトラサーチは優れています。
変更を承認し、Gemini 2.5 Proに切り替えて「main.pyはテスト準備ができていますか?それとも他に何か足りないものがありますか?」と質問します。「はい」と答えています。
スクリーンショットを削除し、スクリーンショットフォルダを空にして、再度実行します。分析がどこかに表示される必要があります。スクリーンショットをキャプチャし、分析が表示されました!
スクリーンショットは、Python スクリプトが表示されている Cursor という特にコーディング環境を示しています。スクリーンショットを変更する必要があります。
Vectalに切り替えてみましょう。数秒待ちます。記憶が正しければ、現在10秒ごとに実行されているはずです。
戻ってみると、「最後のスクリーンショットは、コードエディタと一緒に複数のタブが開いているブラウザを表示しているデスクトップ画面です…アドバイス…」とあります。
スクリーンショット3はVectal内にあり、分析を見てみましょう。「左のブラウザタブはプレゼンテーションまたはLlama 4のように見え、右はVectalに関連するアプリケーションのように見えます。エディタのコードはLlama 4モデルのコンテキスト管理とエラー処理を実装しているようです」と書かれています。
もう一つのサイトをテストしましょう。Open Routerに移動してみます。プロンプトをより簡潔に変更することもできますが、これは良いですね。
スクリーンショット8を見てみましょう。「スクリーンショットはOpen RouterプラットフォームのLlama 4 Maverickのウェブページを示しています…主要な価格設定…実行可能なアドバイス」と書かれています。これは良いですね!
ターミナルを終了します。基本的に、5秒ごとにスクリーンショットを撮る生産性アシスタントを構築しました。もちろん、これは好きな間隔に設定できます。
Llama 4 Maverickを使用して(現在利用可能な最高のモデル、中間層ですが、Behemothはまだ利用できません)、世界最高のAIモデルの一つを使って、あなたが何をしているかを分析し、実行可能な生産性向上のアドバイスを提供します。
これをCursorとVectalの助けを借りて、わずか20~30分で構築することができました。唯一の障害はMac OSがスクリーンショットキャプチャで問題を引き起こしたことですが、比較的簡単に解決できました。
Open Routerに接続し、モデル設定はすでに最適化されています。Vectalでウルトラサーチを行ったからです。温度やトップpなどすべてが設定されており、自分たちでする必要さえありませんでした。Vectalが私たちのためにそれを行いました。それは私たちのタスクを知っていたからです。
これがウルトラサーチの力です。あなたのタスクを理解しているので、関連していないと思われる作業でも予測できます。デバッグ中にこれを知っていたため、予測することができました。
これで構築は完了しました。これがLlama 4 Maverickの力です。非常に優れたモデルで、AIエージェントを構築できます。コスト効率は驚異的です。マルチモーダル機能は世界最高レベルです。
これは現在、AIエージェントを構築するための私の主要なAIモデルの一つになるでしょう。Vectalに数時間以内にLlama 4 MaverickとLlama 4 Scoutの両方を追加した理由があります。もちろん、Llama 4 Behemothがリリースされたら、すぐにVectalに追加します。
Llama 4 ScoutとMaverickの両方に無制限でアクセスしたい場合は、Vectal.aiにアクセスしてVectal Proプランを入手してください。1つのサブスクリプションで、これらすべてのAIモデルと、ウルトラサーチやインフィニット・シンキングなどの他の高度なAIエージェント、そしてアイデア、タスク、メモ、プロジェクトなどのVectalが提供するすべての生産性機能にアクセスできます。
カスタムプロジェクトを作成し、各プロジェクトにカスタムシステムプロンプトを与えることができるため、AIエージェントはこのプロジェクトが何に関するものかを知ることができます。これらすべてがVectal内で利用可能で、最も良い点は完全に無料で始められることです。vectal.aiにアクセスして試してみてください。
視聴いただきありがとうございます。素晴らしく生産的な一週間をお過ごしください。
コメント