Amazonの新AI『NOVA』が業界に衝撃を与える！

7,003 文字

La nouvelle IA 'NOVA' d'Amazon CHOQUE l'industrie !

Rejoignez le groupe VISION IA et maîtrisez l'avenir : cette chaîne pour soutenir mon travail et bénéficier d'avanta...

私はAmazon Novaの立ち上げについて、喜んでお伝えしたいと思います。私たちの最新の基盤モデルシリーズは、卓越した性能を備えた最先端のインテリジェンスを提供します。長年、Amazonは人工知能革命における大きな欠席者でした。AIレースにおいて遅れをとり、ほぼ時代遅れと見なされていたAmazonですが、シリコンバレー全体を震撼させる新しい発表で、全ての予想を覆しました。
GoogleやOpenAI、Metaなど他の企業がメディアの舞台で支配的な地位を占める中、Amazonは後方に留まり、無視され、過小評価されることが多かったのです。しかし、この沈黙は実は技術戦争における戦略だったのです。今日、彼らはNovaを携えて登場し、人工知能の世界で瞬時にカードを切り直す雷のような一撃を放ちました。
この数日間の会議で発表された主要な内容についてお聞きいただきますが、これは単なる新しいモデルではありません。数秒で何年もの遅れを取り戻す戦略的な武器なのです。性能面では、すでにChatGPT-4、Claude、Geminiを凌駕し、Amazonのインフラ全体を活用した比類のない計算能力と、Amazonが提案する特殊な未来のビジョンを備えています。
これから数分の間に、Amazonが遅れを取っていた立場から、AIの王座を狙う非常に真剣な挑戦者へと変貌を遂げた過程を理解していただけるでしょう。そして、彼らがいかにして遅れを戦略的優位性に変えたのかをご覧いただけます。このNovaという新しいモデルは、単なる追いつき作戦ではありません。AIの世界における巨人Amazonの登場なのです。
すぐに、Amazonのスピーカーから各モデルの性能についての詳細な説明をお聞きいただきます。特に、現在のAIリーダーに対してNovaがどのように位置づけられているのかを数字で示していきます。今お話ししたように、これは人工知能の世界における重要な進歩です。業界のカードを切り直す可能性のある発表なのです。
この最先端の新モデルは、驚くべき性能を非常に低いコストで提供することを約束しています。Amazonは競合他社と同様に、異なるタイプと異なるレベルのモデルを発表しています。まず最初に、Amazonが重要なポイントである、ベンチマークやテストで攻勢をかけようとしたことがわかります。ここでAmazonのNovaは、かなり印象的な結果を示しています。
これから、なぜこの新モデルがAIの世界で確実に基準となるのかについて、そのベンチマークを見ていきましょう。ではスピーカーに発言を譲り、最後にこれら全てについて議論しましょう。
このインテリジェントなモデル群には4つのバリエーションがあります。最初のものはMicroで、純粋にテキストベースのモデルです。テキストを入力すると、テキストで応答します。ultra-fastで、コスト効率が高く、私たちの社内チームは多くの簡単なタスクで本当に気に入っています。
次に、マルチモーダルモデルが3つあります。これらのモデルは、テキスト、画像、動画を入力として受け付け、テキストを出力として生成します。それぞれのバリエーションは、サイズとインテリジェンスの順に分類されています。Micro、Lite、Proモデルはすでに利用可能で、Premierモデルは第1四半期に利用可能となります。
ここで、いくつかのベンチマークをご紹介します。可能な限り公開されている外部の参照を使用し、それが不足している場合は独自のものを作成しました。私たちの方法論は私たちのウェブサイトで確認できます。そこで再現することができます。
Microモデルのベンチマークをいくつか例示しましょう。生データを見ると、LlamaやGoogleのGeminiといったこのカテゴリーのリファレンスモデルと比較して、非常に競争力があります。Microはすべての変数でLlamaを上回り、13の基準のうち12でGeminiを上回っています。
しかし、90-95%の信頼区間で重複するすべての値を同等とみなす統計的検定を適用すると、このカテゴリーのモデルにおいて、LlamaとGeminiに対してすべてのベンチマークで少なくとも同等かそれ以上であることがわかります。
Lightモデルも同様に競争力のある物語です。Nova-LをGPT-4oミニと比較すると、19のベンチマークのうち17で同等か上回り、Geminiに対しては21のうち17で上回っています。まだ画像や動画を扱えないClaude 3.5に対しては、12の基準のうち10で優位を保っています。これもまた非常に競争力のあるモデルです。
Proモデルについても同様の結論が得られています。GPT-4oに対しては20のベンチマークのうち17で同等か上回り、Geminiに対しては21のうち16で上回っています。このカテゴリーで最高のモデルはSony 5.2.3.5ですが、それでもProモデルは約半分の基準で同等か上回っており、コストとレイテンシーの面で顕著な利点を持ちながら、他の基準でも非常に競争力を維持しています。
そして、最大のマルチモーダルモデルとなるPremierモデルは第1四半期に利用可能となります。これで、非常に競争力があり説得力のある4つのインテリジェンスモデルが揃うことになります。
ここからは、新しいNovaモデルの別の次元の能力に入っていきます。この部分で、スピーカーはこれらのモデルがAIの分野における重要な進歩となる主要な側面を探っていきます。コスト、速度、統合という3つの重要なポイントに焦点を当てています。
まず、これらのモデルがいかにコスト効率が良いかを説明します。現在利用可能な他のリーダーモデルと比較して、平均で約75%低いコストを示しており、この分野では驚異的です。明日、車の価格が75%下がるようなものです。これは、これはすごいことです。
次に、その速度は印象的です。競合を上回る最適化されたレイテンシーにより、ファインチューニング（モデルのトレーニング）のような高度な機能を活用することができます。独自のデータベースで独自のモデルをトレーニングすることができ、また、Amazonが考案した「インテリジェンスの注入」という用語で説明される、ディスティレーションを通じて大きなモデルを小さなモデルに蒸留する機能も備えています。
最後に、スピーカーはNovaの機能をさらに拡張する2つの革新的な新モデルを披露します。画像生成のためのNova Canvasと、ビデオ作成のためのNova Realについてです。そう、彼らはSoraのような機能を持つAIを私たちに提供したのです。
Canvasでは、他のAIと同様にスタジオ品質の画像を生成することができ、Nova Realでは、彼らの発表によると、独自のブランディングや独自のテンプレートで簡単にビデオを生成および統合できる一連のツールを提供します。このモデルは、特にマーケティングと広告の分野で革命を起こす可能性があります。
それでは、これらすべてについてスピーカーが説明することになりますが、その前に非常に手短に、私がPatreonを作成したことをお知らせしたいと思います。チャンネルでは最も真摯であり続けたいため、商品プレイスメントは一切行っていません。そのため、このPatreonを作成しました。
そこでは、キャリアや人生全般を推進するためのすべてのAIツールについて教えています。まず、数多くのAIツールに関する私の完全なトレーニングにアクセスできますが、より重要なのは、Vision AIコミュニティにアクセスできることです。そこでは、最新のテクノロジーとそれをすべてのプロジェクトに適用する方法について議論しています。
ビジネスでも個人生活でも、マーケティング、トレーディング、eコマース、そしてほぼすべてのビジネス分野について話し合っています。一緒に前進するための結束したコミュニティです。ご興味がありましたら、説明欄にリンクがあります。これ以上時間を取らずに、動画を続けましょう。
これらのモデルのいくつかの側面は、本当に気に入っていただけるでしょう。第一に、非常にコスト効率が良いです。他の主要なBedrockモデルと比較して約75%安価です。第二に、高速です。レイテンシーの面で最も速いモデルです。また、低レイテンシー推論用に最適化された様々な構成でNovaモデルを利用可能にします。
これらはBedrockに統合されているだけでなく、すべての機能に深く接続されています。これは、ラベル付きの例でパフォーマンスを向上させたい生成アプリケーション開発者のためのファインチューニングを意味します。Novaモデルは、より大きなモデルのインテリジェンスをより小さく経済的なモデルに注入できるディスティレーション機能とも統合されています。
レスポンスを独自のデータにアンカリングするために、BedrockのKnowledge Baseと深く統合されています。プロプライエタリなシステムやAPIと連携するように最適化されており、エージェントの振る舞いや自動化されたステップを大幅に容易にします。これらのモデルは非常に有望で、皆さんに使っていただくのが待ち遠しいです。
顧客は、特に広告、マーケティング、コミュニケーション資料のために、テキスト出力を超えて画像や動画に関する重要なニーズを持っています。そのような解決策の開発は複雑でコストがかかり、選択肢も限られています。Amazon Nova Canvas、私たちの画像生成モデルの発表を喜んでお伝えします。[拍手]
NovaCanvasは、自然言語で、色やレイアウトのコントロールと編集オプションを備えたスタジオ品質の画像を生成できます。トレーサビリティのための透かしや有害なコンテンツの生成を制限するコンテンツモデレーションなど、AIの責任ある使用のためのコントロールも備えています。
パフォーマンステストを実施し、主要な競合モデルと比較しました。特にDalle-3とStableDiffusion3.5と比較しました。画質と指示の正確さという2つの重要な基準を評価しました。Canvasはこれら2つのモデルを明らかに上回っています。人間による評価もこれらの結果を確認しています。これは特に有望なモデルです。
また、ビデオ生成も簡素化したいと考えていました。Amazon Nova Real、私たちの最先端のビデオ生成モデルの発表を喜んでお伝えします。[拍手]
Nova Realは、本当に印象的なスタジオ品質のビデオを作成することができます。動きとパンのオプションを備えた完全なカメラコントロールを提供します。360度回転やズームが可能で、セキュアなAIコントロールを統合しています。ローンチ時は6秒のビデオでマーケティングに最適で、今後数ヶ月以内に2分まで拡張される予定です。
比較テストも実施しました。APIを提供しているビデオ生成サービスは少なく、私たちのベンチマークは非常に好ましい結果を示しています。これらが革新的な新モデルです。
Novaの次のステップは何でしょうか？まだ終わっていません。Amazonはこれらのモデルを公開するだけでなく、2025年に何が来るのかについての展望を示しています。彼らの未来のビジョンです。そしてそれは単に素晴らしいものです。
この部分で、スピーカーはNovaモデルの開発の次のステップを共有し、人工知能の限界をさらに押し広げるイノベーションについて語ります。まず、2025年第1四半期に、Amazonはスピーチ・トゥ・スピーチ（音声から音声へ、または発話から発話へ）の新しいモデルの立ち上げを計画しています。
このタイプのモデルは、特に自動翻訳やビデオ翻訳の分野で、教育、コンテンツ作成、マーケティングなど、実に様々な分野で大きな可能性を開きます。
次に、年半ばまでにAmazonは真のマルチモーダル・トゥ・マルチモーダルモデルを公開する予定です。このモデルでは、テキストだけでなく、画像、音声、動画など、あらゆるものを入力できるようになり、AIがあなたに最適な方法で応答するように適応します。つまり、音声やビデオ、あるいはテキストのみ、画像などで返答することができ、最適な応答が提供されます。
そして最後に、スピーカーは今後数年間のAmazonの哲学について説明します。ここが非常に興味深いところです。単一のタイプのモデルにすべてを集中させるのではなく、Amazonは多様性と柔軟性に賭けています。プログラミング、数学的計算、データベース統合など、特定のニーズに最適化された一連のモデルにアクセスできるようになります。
その考え方は、モデルの使用において完全な自由を提供し、あなたの特定のケースに最も適したものを選択できるようにすることです。最後に、スピーカーはAIのグローバルエコシステムにおけるAmazonのポジショニングを私たちに思い出させます。
Amazonのスピーカーが野心的なプロジェクトについて発表することを一緒に見ていきましょう。まず第一に、チームは来年一年間、非常に懸命に働くことになりますが、先行してお伝えできる要素がいくつかあります。最初に、第1四半期には、非常に流暢で迅速な音声応答を得られる音声から音声へのモデルを提供する予定です。
次に、年半ばには、any-to-any、つまり真のマルチモーダル・トゥ・マルチモーダルモデルを提供します。テキスト、音声、画像、ビデオを入力し、出力としてテキスト、音声、画像、ビデオを得ることができます。これは、最先端のモデルが構築される方法の未来です。私たちはこれを提供できることを本当に楽しみにしています。
AWSのモデル戦略をどのように考えるべきか疑問に思われるかもしれません。彼らは複数のモデルプロバイダーと強力なパートナーシップを持っており、今や独自のモデルも持っています。私が説明する方法は、私たちが行うすべてのことで常に幅広い選択肢を提供しているということです。
つまり、他の場所で見つけることができる最も広範な機能と最高の機能を提供するということです。これは、実際に皆さんが異なる理由で異なる時期に異なるモデルを使用することを意味します。ちなみに、これは現実に対応しています。人間はすべての分野のエキスパートとして一人の人物だけに頼ることはありません。
異なる人々が異なる分野で優れています。時にはコーディングのため、時には数学のため、時にはRagとの統合のため、時にはエージェントのニーズのため、時には低いレイテンシーのため、時にはコストのため、そして最も多くの場合、これらの要素の組み合わせのために最適化が必要です。
AWSでは、常にそうしているように、これらすべての最高の組み合わせを提供します。今日、私たちは非常に興味深いモデルを提供に追加したと考えていますが、大きな利点は、これらすべてのモデルがBedrockで利用可能であり、望む組み合わせで使用できることです。
実験することができ、時間とともに変更することができます。今日も、そして将来も、この選択肢と選定を提供します。では、頑張ってください。Matに戻ります。
発表された性能は既に巨大ですが、これらの発表を信じられないものにしているのは、その背後にAmazonがいることです。彼らの巨大なインフラストラクチャと位置づけにより、このマーケットで理想的な位置にいるのです。
AmazonはAWSで世界最強の計算インフラを持っていることを思い出してください。クラウドコンピューティングの何年もの経験を持つ真の巨人なのです。そのため、これらすべてをスケールアップするために必要な経験を持っています。そして、これこそがAIが必要としているもの、つまり巨大な計算能力なのです。
しかし、それだけではありません。Amazonの最大の潜在力は、Alexaデバイスがあちこちにあることで、何百万もの家庭への入り口を持っているということです。明日、AlexaでこのAmazon Nova、この新しいAIが有効になったらと想像してみてください。
NovaによってAmazonは、単にMetaやGoogle、OpenAIと競争するためだけではなく、本当にAIの分野で王座を狙うために存在していることを証明しています。私たち利用者やクリエイターにとって、このAIの発展とAmazonが近い将来に何をするのかを見るのは非常に興味深いことになるでしょう。
まだこの場にいて、まだ行っていない方で、この動画が気に入った方は、私を支援するためにチャンネルを登録していただけると嬉しいです。それが支援する最良の方法の一つです。繰り返しになりますが、もしご興味があれば、AIについてもっと学び、特に人生でのスキルを向上させたい方のために、Patreonを作成しましたのでご確認ください。
もしそれらがすべて済んでいれば、画面に表示される次の動画をご覧ください。