Amazonが発表した6つのAIモデルがGPT-4を圧倒（75%も安価！）

6,986 文字

Amazon Just Dropped 6 AI Models That CRUSH GPT-4 (75% Cheaper!)

Amazon recently shocked the AI world with their brand-new Nova frontier models - and the benchmarks are INSANE.Breaking ...

Amazonが突如としてAI業界に衝撃を与え、誰もこれを予想していませんでした。彼らはNovaと呼ばれる6つの新しいAIモデルをリリースし、これらはGPT-4やGeminiに匹敵するだけでなく、ほとんどのベンチマークで上回っています。しかも75%も安価なのです。これは単なるAIの新製品発表ではなく、AmazonがOpenAIとGoogleに宣戦布告したのです。なぜこれが全てを変えることになるのか、詳しく説明していきましょう。
こんにちは、Julia McCoyです。初めての方へ、私はAIが手遅れになる前に、創業者やマーケターがAIに適応できるようサポートしています。2024年における最大のAI発表かもしれないものについて、詳しく見ていきましょう。
2024年12月3日、AmazonはAGIレースに追いつき、Amazon Novaをリリースしました。これは1つではなく、幅広いタスクで最先端の知能を持つ6つの全く新しい基盤モデルです。これらのモデルは特にAmazon Bedrockの顧客が利用できるようになり、ベンチマークでOpenAIと直接競合するテキスト処理モデルのAmazon Nova microが含まれています。また、Amazon Nova light、Amazon Nova Pro、Amazon Nova Premiereもリリースされました。これらはテキスト、画像、動画を処理できるマルチモーダルモデルです。
しかしそれだけではありません。Amazonはさらに2つのモデルをリリースしました。スタジオクオリティの画像を生成し、最高のAI画像生成ツールと直接競合するAmazon Nova canvasと、OpenAI Sora、Runway cingと競合してスタジオクオリティの動画を制作するAmazon Nova realです。正直なところ、Amazonがこの6つの最先端モデルを一日で突如として発表したことには驚きを隠せません。
私たちが目にしているのは、世界最大のテクノロジー企業間での、2025年に誰が最初に公式なAGIのリリースを主張するかという真っ向勝負だと考えています。驚くべきことに、AmazonのNovaはOpenAIのGPT-4とGoogle Geminiの両方を20のベンチマークのうち17で上回り、しかも競合他社より平均75%安価で、AWS統合も完全です。
Amazonは明らかにOpenAIとGoogleに戦いを挑んでおり、最先端モデルの分野で大胆な主張を展開しています。AGIに必要な大規模なAIトレーニングをサポートする巨大なクラウドインフラ、特にAWSインフラストラクチャーを持つAmazonは、私は以前からAGIレースの勝者になり得ると考えていました。
2024年の夏頃、どのテック企業が最初にAGIに到達するかを推測し始めた時、AmazonのAWSリソースライブラリに掲載された記事を見つけました。そこには人工知能一般（AGI）の定義が示され、それに向けた彼らのミッションも述べられていました。これが以前から公開されていたことを知り、Amazonが大きな動きを見せることは分かっていました。しかし、2024年12月に彼らが行ったこと、つまり6つの最先端モデルを一日でリリースしたことは、本当に驚くべきことです。
私たちは、Amazonが既に実世界でAIを応用していることを知っています。AIを搭載した音声アシスタントのAlexa、eコマースストアの表示における推奨システムへのAIの活用、倉庫での大規模なロボティクスの展開があります。彼らは100万以上の工場の仕事を自動化し、複数のプレス記事で、これらの仕事に人間を見つけることができなかったと述べており、雇用の置き換えではなく、既存の労働力に単に追加したと説明しています。さらにAmazon goストアでのコンピュータービジョン機能も備えています。
私は、Google DeepMindチームが大きなライバルだと考えています。Google DeepMindチームには非常に多くの才能が集中しており、Googleは2024年の1年間で多くのトップ人材を失ったOpenAIよりも、一貫して人材を維持できているようです。
また、AmazonはAnthropicのClaudeという私の個人的に好きなLLMの1つとパートナーシップを結んでいることも知っています。Amazonは1年以上前にAnthropicに80億ドルを投資し、AnthropicはAWSを主要なクラウドプロバイダーとして使用しています。このように2つの大企業は密接に協力しています。
Claudeは私の個人的に最も好きなLLMです。私は継続的に全てのモデルをテストしていますが、Claudeは最先端モデルの中で断然最高のコピーライターの1つです。あなたのブランド、オーディエンス、サービス対象、そしてバイラルコピーライティングの公式やフックについての特定のトレーニングデータでプロジェクトをトレーニングすると、その出力は信じられないほどです。
実際、YouTubeのタイトル、説明文、ソーシャルメディアの投稿のほとんどは、私のClaude コピーライターによって書かれています。私自身のデータを大量に使ってClaudプロジェクトをトレーニングし、私の考え方を理解させることができたのは少し不気味に聞こえるかもしれませんが、より良いソーシャルメディアコンテンツ、より良いタイトルを得ることができます。メールの作成にも使用し、今では本の執筆にも使っています。
過去10年間にコピーライターに支払った数十万ドルよりも、より良い出力を得ることができています。考えてみれば、機械は疲れることもなく、お腹が空くこともなく、一度パラメータを設定すれば逸脱することもありません。今日の機械の本質は、時間とともに改善され続けることです。
私は自社のClaudプロジェクトやカスタムGPTで、これを直接目にしています。モデルが改良され、新しいモデルがリリースされ、モデル自体が改善されるにつれて、単純に良くなり続けています。これが、私の会社First Moversで、自分たちの分野で先駆者になりたいビジネスのためにエンドツーエンドのカスタムAI統合を構築する際に、この最先端モデルを使用し、構築するアプローチを信じている理由の1つです。
私たちは、販売、マーケティング、オペレーションのための武器を、すべて信じられないような自動化を通じて、クライアントに提供しています。私は、ビジネスの目標を持つエンドユーザーであるビジネスオーナーに、彼らが所有する武器を提供することを強く支持しています。これらの信じられないような最先端モデル上に構築すると、文字通り時間とともに改善され続けるものを作り出すことができます。
私が訓練したClaudプロジェクト、OpenAIで構築した非常に調整されたボットを使用して、はるかに優れたマーケティングを公開できることは、本当に驚くべきことです。ボタンを押すだけで、数秒で1週間分のマーケティングが全て完了します。ライターを探す必要もなく、公開も自動化できます。私たちにはCTOがいて、AIで制作したマーケティングコンテンツを全て自動公開するための統合を構築しています。
ここで話題をAmazon Novaと今後の展開に戻しましょう。Novaモデルの発表は、Amazonがこれまでで最大のAI分野での存在感を示す試みを表しています。Artificial Analysisのチャートを見ると、Nova ProはベンチマークによってGeminiとClaudeに次ぐ上位3位に位置しています。これは、全く新しい最先端モデルをリリースし、すぐに上位3位に入ったことは驚くべきことです。
AmazonのCEOはステージに登場してNovaの発表を行い、重要な発言をいくつか行いました。現在のAmazonのCEOはAndy Jasseで、彼はNovaのリリースについて説明しただけでなく、2025年に向けてNovaがどのように改善され、全機能が展開されるかについても語りました。「マルチモデルの分野で、どこよりも優れた機能と最高の組み合わせを提供する計画です」といった大きな主張も含まれていました。
ステージでのAndyの発言を聞いてみましょう：
「Amazon Novaの発表を共有できることを嬉しく思います。これは最先端の知能と業界をリードする価格性能比を提供する、私たちの新しい最先端基盤モデルです。
この知能モデルセットには4つのバリエーションがあります。最初はmicroで、テキストインプットからテキストアウトプットを生成するモデルです。非常に高速でコスト効率が良く、内部の開発者たちは単純なタスクに大変重宝しています。
次に3つのマルチモーダルモデルがあります。マルチモーダルモデルはテキスト、画像、動画を入力し、テキストを出力できます。これらは規模と知能の順にmicro、light、Proモデルとして今日から一般提供を開始します。premierモデルは第1四半期に提供予定です。
いくつかのベンチマークを共有したいと思います。可能な限り外部の公開ベンチマークを使用し、利用できない場合は自社で実施しました。手法は私たちのウェブサイトで公開しているので、再現可能です。
microモデルについて、この分野の主要モデルであるLlamaやGoogle’s Geminiと比較すると、生の数値ではLlamaに対してはすべての変数で、Geminiに対しては13項目中12項目でベンチマークが優れています。
統計的有意性テストを行い、90-95%の信頼区間で重複する数値を同等とみなしました。この方法で見ると、LlamaとGeminiと比較してすべてのベンチマークで同等以上の性能を示しています。
lightモデルも非常に競争力があります。Nova lightをOpenAIのGPT-4o miniと比較すると、19のベンチマーク中17で同等以上、Geminiと比較すると21のベンチマーク中17で同等以上、Haiku 3.5と比較すると12のベンチマーク中10で同等以上の性能を示しています。Haikuはまだ画像や動画に対応していないため、すべての次元でベンチマークを取ることはできませんでした。
Proモデルも同様です。GPT-4oと比較すると20のベンチマーク中17で同等以上、Geminiと比較すると21のベンチマーク中16で同等以上の性能を示しています。この分野で最高のモデルはSonnet V2 3.5ですが、私たちのProモデルはそのうちの約半分で同等以上の性能を示し、それ以外でも非常に競争力があります。コストとレイテンシーの特性も気に入っていただけるはずです。
我々の最大のマルチモーダルモデルとなるPremierモデルは第1四半期に提供予定です。
これらの4つの競争力のある魅力的な知能モデルには、他にも気に入っていただける特徴があります。まず、非常にコスト効率が良く、Bedrock内の他の主要モデルと比較して約75%安価です。次に、高速で、レイテンシーに関して最速のモデルとなっています。
NovaモデルはBedrockで利用可能なだけでなく、Bedrockのすべての機能と深く統合されています。これはどのモデルプロバイダーでも使用できる機能ですが、このチームは時間をかけて実装しました。つまり、ファインチューニングが可能で、多くのAIアプリケーション開発者がラベル付きの例を使用してアプリケーションの性能を向上させることができます。
また、Novaモデルは蒸留機能とも統合されており、より大きなモデルの知能をよりコスト効率が良く、レイテンシーの低い小さなモデルに注入することができます。Bedrockのナレッジベースとも深く統合されており、RAGを使用して自社のデータに基づいた回答を得ることができます。
さらに、これらのモデルは独自のシステムやAPIと連携するように最適化されており、複数の自動化された手順やエージェント的な振る舞いをより簡単に実現できます。
しかし、顧客はテキスト出力以外にも、画像や動画に関するジェネレーティブAIの機能も求めています。広告やマーケティング、トレーニング資料など、多くの用途があります。これは高額で、多くの選択肢がありますが、自分で実装するのは簡単ではありません。私たちはこの問題に取り組んできました。
さらに2つのモデルを発表できることを嬉しく思います。まず1つ目は、最先端の画像生成モデルであるAmazon Nova canvasです。canvasは自然言語テキストを入力して画像を生成できます。美しく、スタジオクオリティの画像を生成し、自然言語やテキスト入力で画像を編集することができます。カラースキームやレイアウトのコントロールも可能です。
追跡可能性のための透かし入れや、有害なコンテンツの生成を制限するコンテンツモデレーションなど、AIの責任ある使用のための多くの組み込み制御機能があります。これもベンチマークを行い、この分野で一般的に2大リーダーと考えられているDalle 3とStable Diffusion 3.5と比較しました。
最も重要な2つの変数である画質と指示への従順性でベンチマークを行い、canvasが両方の次元で両者を上回っていることがわかります。人間による評価でも同様の結果が得られました。
そして、ビデオ生成も容易にできるようにしたいと考え、最先端のビデオ生成モデルであるAmazon Nova realの発表を嬉しく思います。realでもスタジオクオリティの、本当に驚くような動画を作成できます。カメラの完全なコントロール、モーションコントロール、パンニング、360度回転、ズームが可能です。
また、透かし入れやコンテンツモデレーションを含む、安全なAIのための組み込み制御機能も備えています。まずは6秒の動画から始め、これは多くのマーケティングや広告に適していますが、数ヶ月以内に2分の動画まで対応する予定です。
これもベンチマークを行いましたが、APIを持つビデオ生成サービスは少なく、自動ベンチマークを持つものはありませんでした。そこで、この分野のリーダーの1つであるRunwayとの人間による評価でベンチマークを行い、realが他と比較して非常に好ましい結果を示しています。
これで6つの新しい最先端モデルの紹介が終わりましたが、Novaの次は何でしょうか？まず、チームは来年にかけてこれらのモデルの第2世代に取り組む予定です。また、いくつかの予告をさせていただきたいと思います。
第1四半期には、音声を入力して音声を出力する、非常に流暢で高速な音声対音声モデルの提供を予定しています。そして年半ばには、any to anyモデルを提供する予定です。これは本当のマルチモーダル対マルチモーダルで、テキスト、音声、画像、動画を入力し、テキスト、音声、画像、動画を出力できます。これが最先端モデルが構築され、消費される未来の形であり、皆様にお届けできることを楽しみにしています。
AWSのモデル戦略をどのように考えるべきか、疑問に思われるかもしれません。多くのモデルプロバイダーと深いパートナーシップを持ち、今では独自のモデルもあります。私たちが常にすべての分野で選択肢を提供してきたように考えていただければと思います。私たちは、どこよりも幅広く最高の機能を提供するつもりです。
これは選択肢を意味します。実際、皆さんは異なる理由で異なる時に異なるモデルを使用することになります。これは現実世界の仕組みと同じです。人間はすべての分野の専門知識を1人の人間に求めるわけではなく、異なる分野で優れた異なる人々がいます。
時にはコーディング、時には数学、時にはRAGとの統合、時にはエージェントのニーズ、時には低レイテンシー、時にはコストを最適化し、ほとんどの場合はこれらの組み合わせを求めることになります。AWSでは、これまで同様、これらすべての最高の組み合わせを提供します。
今日、私たちは非常に興味深いモデルをラインナップに追加しましたが、素晴らしいことに、これらのモデルはすべてBedrockで利用可能で、好きな組み合わせで使用でき、実験することができ、時間とともに変更することもできます。今後も、このような選択肢と選択を提供し続けます。
Amazonのこの大規模なリリースについて、皆さんの意見をお聞かせください。Amazonが最先端モデルのトップ3に入ったことについて、コメント欄でご意見をお聞かせください。Google GeminiとClaudeがまだ先行していますが、AmazonのNovaには今後多くの期待ができると思います。
いつも通り、まだ登録されていない方は、YouTubeのJulie McCoyチャンネルにご登録ください。次のラビットホールでお会いしましょう。