AIニュース: NvidiaがCESで驚きを、OpenAIはAGIを予告

11,823 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

今週は非常に多くのAIニュースがありました。主な理由は、ラスベガスで開催されたCESがあったからです。これは毎年開催される最大のテックイベントで、多くの企業が世界中が注目するこの週に合わせて大きな発表を控えています。今年も例外ではありませんでしたが、発表の量と内容の面で他のすべての企業を圧倒した1社がありました。それがNVIDIAです。
CESでNVIDIAが発表した新しいニュースについて触れる前に、NVIDIAが私のCES出張の一部をスポンサーしたことを明らかにする必要があります。このビデオはNVIDIAのスポンサー付きではありませんが、NVIDIAは私がそこにいることに対して支払いをした企業の1つでした。
それを踏まえた上で、早速内容に入っていきましょう。まず、NVIDIAがついに50シリーズGPUを発表したことから始めます。ゲーマー、動画編集者、そして私のようなAI愛好家たち全員が、この新シリーズのグラフィックスカードのリリースを待ち望んでいました。そして、ついに公開された時、それは期待を裏切りませんでした。
これらの新しいGPUはNVIDIAのBlackwellアーキテクチャーを採用しており、生成AIモデルを前世代のGPUと比べて最大2倍の速度で実行できます。現在市場にある現行世代のGPUと比較して、最も高負荷なビデオゲームや、Fluxを使用したAI画像生成などの生成AIにおいて、ほぼ2倍の性能を発揮することが確認できます。
これらの新しいGPUは4モデルあります。RTX 5070、5070 TI、5080、そして5090です。Jensenのキーノートによると、新しい50シリーズモデルの中で最も安価なRTX 5070(549ドル)は、現行の4090(約1,600ドル)と同等の性能を発揮すると主張しています。
つまり、現在GPUを購入するとすれば、ゲーミング、AI、その他のあらゆる用途で最高の選択肢は1,600ドルのRTX 4090ですが、RTX 5070が発売されれば、550ドルで4090に近い性能を得られるということです。
オンラインでは、これらの新しい50シリーズGPUが生成ピクセルを使用し、より高いフレームレートを実現するために追加フレームを生成したり、欠落したピクセルを補完したりしているため、完全な比較にはならないと不満を述べる人もいます。しかし、世界の99%の人々にとっては、4090と同等の性能を発揮していると感じるでしょう。
近々これらのグラフィックスカードが一般に発売されれば、550ドルで生成AIモデルをコンピュータで実行し、最高峰のビデオゲームをプレイし、4K動画を非常にスムーズに編集できるようになります。これらすべてに私は大変興奮しています。私はゲーマーであり、動画編集者であり、AIオタクなので、これらすべてが素晴らしいニュースです。
私はこれらの50シリーズの登場を心待ちにしています。個人的には5090を選択する予定ですが、このGPUシリーズ全体に期待しています。これはJensenがCESキーノートで行った最初の発表に過ぎませんでした。
すべての発表内容には触れませんが、私が最も興味深いと感じ、このビデオを見ている大多数の人々が興味を持つと思われる内容について話していきます。次に私が本当に興奮したのは、この写真で彼の手に持っている小さなコンピュータの紹介です。これはプロジェクトDigitsと呼ばれる個人用AIスーパーコンピュータです。
技術的には通常のコンピュータとしても使用できますが、デスクトップに置くクラウドコンピュータとして設計されています。ClaudeやChatGPTのようなサービスを使用する場合、プロンプトを入力するとOpenAIやAnthropicのサーバーに送信され、応答が返ってくるのと同じように、このデスクトップに置ける小さなボックスをメインコンピュータに接続すれば、それがサーバーの役割を果たします。
これらはGrace Blackwellハードウェアを使用しており、基本的に大手企業がAIモデルを実行しているのと同じタイプのハードウェアです。つまり、デスクトップに自分専用のAIスーパーコンピュータを置き、別のコンピュータから接続して使用できるようになります。推論やトレーニング、その他の作業はすべてデバイス上で実行されるため、インターネット接続なしで使用することができます。
これらの小型スーパーコンピュータは約3,000ドルで、5月から入手可能になる予定です。これらが発売されるのを私は非常に楽しみにしています。なぜなら、発売されたら私もおそらく1台入手して、今後のビデオでその性能を試し、家庭用AIスーパーコンピュータで何ができるのかを詳しく探っていきたいと考えているからです。
はい、3,000ドルという価格は多くの人々にとってかなり高額です。しかし、これは始まりに過ぎません。50シリーズGPUで見てきたように、小型AIスーパーコンピュータも時間とともにどんどん安価になっていくでしょう。将来的には、誰もがMicrosoft、Google、Anthropicのような大企業に依存することなく、すべてのAI処理を自宅のデバイスで行える世界が見えてきます。価格が下がれば、ほとんどの人々にとってそれが現実的になっていきます。
キーノートでは、NVIDIAはまた、Nimマイクロサービスを使用したエージェントAIブループリントについても言及しました。Nim(NVIDIA AI Microservices)は、小さな事前構築ツールです。例えば、何かを構築する際にVision AIが必要な場合はそのためのNimが、言語AIが必要な場合はそのためのNimが、テキスト読み上げが必要な場合はそのためのNimがあります。これらのNimは小さな事前構築AIツールです。
ブループリントは、より複雑なエージェントワークフローを完了するために、これらの複数のNimを組み合わせたものです。例として、DAのボイスエージェントブループリントは、NVIDIAのReva自動音声認識とテキスト読み上げNimマイクロサービスを、Llama 3.3 70bのNimと組み合わせて使用し、リアルタイムの会話AIを実現しています。
複数のNimを組み合わせて事前構築されたワークフローを作成することで、開発するソフトウェアやツールで、これらのブループリントを利用でき、すべての接続を自分で考える必要がありません。
別のブループリントの例として、NVIDIAのPDFからポッドキャストへのAIブループリントがあります。おそらく皆さんは、NotebookLMを使用したり、少なくとも聞いたことがあるでしょう。PDFやテキストファイル、URLなどのドキュメントを与えると、それを聴くことのできるオーディオポッドキャストに変換してくれます。これは、NVIDIAが利用可能にする予定の別のブループリントで、NVIDIAが事前に構築したワークフローを使用して、独自のカスタムビルドのNotebookLMタイプのツールを持つことができます。
私が本当に興奮している別のブループリントは、ビデオを分析できるAIエージェントのブループリントです。この例では、監視映像について話しています。例えば、作業フロアに100台のカメラを設置して生産を監視している企業があるとします。問題が発生して映像を調べる必要が出るまで、おそらく誰もその映像を見ていません。
NVIDIAが構築しているこのNimを使用すると、入力される映像を常に監視・分析している人がいるようなものです。何か問題が発生した場合、より積極的に対応し、企業に「ここに注目すべき何かがあるかもしれません」と警告を発します。
この記事では、これらのNimがスポーツにも使用できることについても触れています。Nimを使用してフットボールの投げ方、ゴルフスイング、野球のスイングなどの映像を分析し、AIからフィードバックを得て改善することができます。
私が本当に楽しみにしているのは、これらが利用可能になる時までにNVIDIAから提供されていない場合は自分でブループリントを構築したいと考えているのですが、大量のB-ロール映像、例えばCESを歩き回って撮影した音声なしの映像をアップロードし、すべての映像を分析して今後のビデオで共有するのに最適な映像を見つけ出すことができるようなものです。
そのようなブループリントは、私のような動画制作者のワークフローにとって素晴らしいものになるでしょう。彼らが構築しているブループリントは、そのようなことを可能にし、それは本当にエキサイティングです。
NVIDIAはまた、新しい大規模言語モデルも発表しました。これらのモデルには、Nanoモデル、Superモデル、Ultraモデルが含まれます。Nanoモデルは、より小さく最適化されたモデルで、高速に実行できるように設計されていますが、おそらく世界で最も賢いモデルではありません。非常に単純なタスクを実行します。
そして、Superモデルは中間的なモデルです。これは、ほとんどの人々がChatGPTで使用するGPT 4oのようなものです。そして、Ultraモデルは、彼らの最も強力で賢いモデルです。これらはすべてMetaのLlamaモデルをベースに構築されていますが、リリース予定の新しいNVIDIAハードウェアで動作するように最適化・設計されています。
NVIDIAのキーノートから最後に触れたいのは、Cosmos World Foundation Modelsについての部分です。これが本当に興奮させられる理由は、2,020万時間の実世界の映像でトレーニングされ、実世界環境のデジタルツインを作成するように設計されているからです。
これにより、ロボットや自動運転車を実世界ではなく、実環境のデジタルツイン内でトレーニングすることができます。つまり、実際の人命や実際の機械を実世界でリスクにさらすことなく、これらの仮想環境内でシミュレーションし、これらのデジタルワールド内で良好な結果を示したという確信が得られてから、ロボットや自律走行車を実世界に展開することができます。
これは本当に興奮する技術です。新しいロボットのトレーニングや自律走行車のトレーニングなどを大幅に加速させるのに役立つでしょう。また、製造業の生産計画にも役立ちます。実世界の製造シナリオをシミュレーションし、仮想環境内で工場のフローを最適化し、最適なフローが見つかったと感じたら、それを実際の工場に構築することができます。
これはまた、これらの機械が想像できるあらゆる可能性のあるシナリオをシミュレーションする可能性も与えます。彼らが話していたシナリオの一つは、雪の中を走行する自律走行車の前に動物が飛び出してくるというものでした。彼らは車がそのシナリオに遭遇した場合をシミュレーションし、車が取る異なる行動に基づいてどうなるかをシミュレーションして、どのように展開するかを確認することができます。そして、大量のシミュレーションが実行されると、すべてのシミュレーションに基づいて最良の結果を車が知ることができます。
本当に本当に素晴らしい技術です。私が説明したのはおそらくかなり単純化されていますが、エキサイティングな内容です。JensenのCESキーノートをまだ見ていない方は、実際にかなり衝撃的な内容です。私はNVIDIAが向かっている方向に大変興奮しており、このすべての経験とCESでのNVIDIAキーノートに直接参加できたことをとても嬉しく思います。すべてが実世界に展開され、私たちがすべてを手に入れて使用できるようになるのが待ち切れません。
NVIDIAを超えて話を進めましょう。世界シミュレーションモデルについて話していましたが、Google DeepMindも独自の世界シミュレーションモデルを構築する計画を立てているようです。DeepMindでビデオ生成とワールドシムを担当しているTim Brooksは、これらの構築を支援する人材を募集しています。彼は、DeepMindには世界をシミュレートする巨大な生成モデルを作る野心的な計画があると述べています。現在、NVIDIAがこの分野をリードしているようですが、Google DeepMindもまもなくこの道を進んでいくことになりそうです。
そしてGoogleと言えば、現在「Daily Listen」という新機能を展開中です。これはNotebookLMのようなもので、ポッドキャストを作成してくれますが、読んでほしい文書を入力する代わりに、検索履歴を見て、あなたが見ているものの種類を知り、Googleのエコシステムにいれば彼らはあなたについてすべてを知っているので、あなたの興味に基づいてNotebookLMスタイルのポッドキャストを作成できます。そして毎日新しいものを作成できるので、興味がありそうなことの要約を得ることができます。
これは現在展開中とのことですが、私が試してみたところ、現時点では利用できないと表示されました。どのくらいの速さで展開されているのかわかりませんが、展開中とのことです。展開されたら、将来のライブストリームで試してみる予定です。検索履歴やその他見ているものが、ポッドキャストで公開できるほど穏当なものであることを願っています。指を crossed しておきましょう。
Microsoftも今週小さなアップデートがありました。54モデルをHugging Faceでオープンソース化しました。記事によると、Microsoftは54モデルを完全なオープンソースプロジェクトとして、ダウンロード可能なウェイトとともにHugging Faceでリリースしています。54について気になる方のために説明すると、数学やMGSMのような難しいベンチマークで80%以上のスコアを記録しています。MGSMとは、多言語小学校数学ベンチマーク(Multilingual Grade School Math benchmark)で、小学校レベルの数学問題のベンチマークです。
オープンソースの観点からすると、数学を扱うのに最適なモデルの一つかもしれません。この記事では、関数コード生成のヒューマンエバルでも印象的な結果を出していると主張しており、また小規模なモデルで、わずか140億パラメータのモデルだとのことです。
数学とコードが得意なオープンソースモデルを探しているなら、by4が良い選択肢かもしれません。Hugging Faceで利用可能です。ファイルを見ると、全体で約30GB程度ですが、おそらくGrok、GRQ Grok、Perplexity、Mind Studioなど、よりモデルに依存しないツールでも利用可能になるのは時間の問題でしょう。
大規模言語モデルの話題に関連して、Xは今週iPhoneアプリとしてGrokをリリースしました。私も電話にダウンロードしてみましたが、かなりベーシックです。現時点では画像を描くことができ、「私を描いて」という提案プロンプトを使用すると、これが私がどう見えるかということになります。Grok 2とのチャットか一時的なチャットのオプションがあり、それがアプリのほぼすべての機能です。かなりベーシックですが、GrokがChatGPTやClaudeのような世界と競争したいのなら、Xアプリとは別のアプリが必要だと考えているのだと思います。
Xアプリを使用することを拒否する人々もいますが、他のプラットフォームよりもかなり検閲が緩いことを知っていれば、Grokプラットフォームを使用するかもしれません。
今週のもう一つの大きなニュースは、Sam AltmanがAGIへの到達方法を知っており、ASIへの焦点を移していると述べたブログ記事です。AGIは人工汎用知能、ASIは人工超知能を指します。
このブログ記事の多くは、過去1年の振り返り、OpenAIの運営、解任、復帰といった物語についてですが、最後の方に行くと本当に興味深い内容になります。彼はここで、「我々は今、従来理解されているようなAGIの構築方法を確信している。2025年には、最初のAIエージェントが労働力に加わり、企業のアウトプットを実質的に変化させる可能性があると信じている」と述べています。
繰り返しますが、AGIは人工汎用知能で、理論的には最も賢い人間と同程度の賢さを持つAIです。あらゆるトピックについてのあらゆる質問に答え、正確に答えることができます。
記事をさらに下に進むと、彼は「我々は、その先にある真の意味での超知能に向けて目標を向け始めている。現在の製品も好きだが、私たちは超知能のある素晴らしい未来のためにここにいる。超知能ツールは、私たちが単独でできることをはるかに超えて、科学的発見とイノベーションを大きく加速させ、その結果、豊かさと繁栄を大きく増大させることができる」と述べています。
ASIつまり超知能について言及する際、彼らは最も賢い人間よりも賢いAIについて話しています。AIの知能が私たち自身の知能を超えてしまい、彼らが何をしているのかについての論理や理由づけを私たちが理解できないかもしれないポイントに移行しつつあり、それこそがOpenAIが今取り組み始めていることです。
OpenAIについてのもう一つの興味深い注目すべき点として、Sam Altmanは「狂ったことに、現在OpenAI Proの購読で損失を出している。予想以上に人々が使用している」とXでツイートしています。月額200ドルのプランは、OpenAIの01プロモデルが予想をはるかに超えて使用されており、実行コストがかなり高いため、実際に損失を出しているようです。
Stability AIも今週ニュースがありました。リアルタイム編集と完全なオブジェクト構造生成が可能なStable Point-aware 3D(別名SPAR 3D)を発表しました。これは入力画像を与えると3Dメッシュに変換するツールです。1つの角度からの画像だけで、3Dオブジェクト全体を把握します。
実際にコードはHugging Faceで利用可能ですが、テストや使用が可能なHugging Face Spacesもあります。おもちゃの車の例を見ると、左上に元の画像があり、背景を削除してポイントクラウドのようなものに変換し、そのポイントクラウドを3Dオブジェクトに変換して、あらゆる角度から見ることができます。
完璧ではありません。元の画像が撮影された角度の方が、反対側の角度よりもはるかに良く見えます。反対側の角度は下側を推測しようとしているだけで、少し変に見えます。しかし、1枚の画像をアップロードするだけでAIが3D画像に変換できるポイントに近づいています。
私はこれに興奮しています。自分の写真をアップロードして3Dバージョンの自分を作り、Unreal EngineやBlenderで使用し、ビデオを作成したり、そのような楽しいことをしたいと思います。かなり印象的です。これをもっと試してみるのが楽しみですが、主に改善されていくのを見るのが楽しみです。これは史上最悪の状態で、今後はどんどん良くなっていくはずです。
Adobeも先週かなり素晴らしいものをリリースしましたが、大きな発表もなく、密かに行われました。TransPixar AIと呼ばれるものを立ち上げ、これは実際にビデオを生成できますが、ビデオには透明な背景があります。私は動画を作るので、おそらくこれを大いに活用することになるでしょう。動画に小さなアニメーションやオーバーレイを入れるのに便利です。
ここでジェット戦闘機やスクリーンに向かって頭を回すロボット、爆発、ナッツを食べるリスなどの例を見ることができます。これらはすべて透明な背景を持ち、AIで生成されました。グリーンスクリーン動画で得られるような緑色の光も背後にありません。
これはGitHubで利用可能ですが、完全なオープンソースではありません。非営利の研究目的でのみ使用する権利が与えられています。また、Hugging Faceにもアップロードされているので、試すことができるスペースがあります。私は「明るく美しい色で花火が爆発する」というプロンプトを与えてみました。これは13フレームしか生成しないので、本当に短い2秒のビデオですが、ここで私の小さな花火の爆発を見ることができます。これがアルファバージョンで、MP4としてダウンロードして動画で使用することができます。
CESからは他にも興味深い発表がありました。このビデオではCESでの私の経験については深く触れませんが、実際にはそれを月曜日の太平洋時間午前11時のライブストリームで行う予定です。私の経験を共有し、撮影したB-ロールの一部を見せ、CESについてもっと話すつもりです。
しかし、CESで人々の話題を集めた大きな発表のいくつかを紹介します。その一つがSamsungのスマート冷蔵庫です。実際には冷蔵庫だけでなく、スマート洗濯機と乾燥機、スマート家電、スマート電球、ほぼすべてのものをスマート化して展示しました。
Samsungのアイデアは、すべてが相互に接続され、ニーズを先取りすることです。例えば、Samsungのギャラクシーリングを着用していて、寝ている間に体温が上がっていることを認識すると、スマートサーモスタットに伝えて、自動的にエアコンの温度を上げることができます。
また、先ほど触れたスマート冷蔵庫も展示されていました。スマートな点は、冷蔵庫の中を見て、牛乳や卵などが切れていることに気づくと、自動的にInstacartに注文して同日配達してくれることです。
私のライブストリームで、自律エージェントにAmazonでトイレットペーパーを注文させ、止める前に700ドル近くのトイレットペーパーを注文してしまった経験を覚えている方もいるかもしれませんが、このようなアイデアは本当に心配です。アイテムの前に何かがあって見えない場合、それを切れていると判断してしまうのはどうなのか、複数のものを重ねた場合はどうなるのか、この技術については多くの疑問があります。
しかし、彼らが思い描いている未来は理解できます。これらのツールがニーズを先取りし、注文すべきものを考える必要もなく、必要なものを知って注文してくれる未来です。ただし、個人的にはこのような技術を信頼できるようになるまでにはまだ時間がかかると思います。
Withingsという会社もスマートミラーを展示しました。鏡を見るだけで、あらゆる種類の健康データを提供する鏡です。心拍数分析や血圧分析があり、スマートリングやスマートウォッチと同期して、その日の活動レベルや歩数を表示します。また、鏡を見ているときにモチベーションメッセージも表示してくれるとのことです。
これを実際に見ましたが、自分では試していません。試すための列ができていて、CESで飛び回って行っていたことのために待つ時間がありませんでした。しかし、実際に見て、他の人々が使用しているのを見ました。かなり興味深く見えました。モチベーションメッセージを表示する鏡にはあまり興味がありませんが、毎日さまざまな統計を提供してくれる鏡は本当に便利かもしれません。
潜在的には命を救うことにもなるかもしれません。例えば、何らかの健康上の問題を事前に察知し、鏡が問題が起きそうだと警告してくれたことで医師に相談するようになれば、それは一部の人々にとってはゲームチェンジャーになる可能性があります。
Holiという会社は、新しいAIスマートグラスを展示しました。これらが他と異なる点は、グラス自体に小さな画面やヘッドアップディスプレイを持つのではなく、レーザーが画像を直接目に投射することです。
Googleのアストラグラスをテストした時、グラスの中に小さな四角い部分があり、正しい角度から見ないと見えませんでしたが、そこにヘッドアップディスプレイがありました。これはここの画像の一つで見えるように、小さなレーザー装置があり、このレーザーが文字やイメージ、方向などを示すものを直接あなたの目に投射します。周りの人には何も見えません。
私の最初の疑問は、これが目に安全なのかということです。常に光を目に当てないように、レーザーを目に向けないようにと言われてきましたが、これらは文字通り目に物を投射するグラスです。技術としてはとても素晴らしく、エキサイティングだと思いますが、本当に目の健康に良いのか、もう少し長期的な確認が欲しいところです。しかし、とても興味深い技術だと思います。
これも非常に素晴らしく、便利だと思いました。VLCプレーヤー、MacとPCの両方で使えるメディアプレーヤーで、私もコンピュータでビデオを再生する際に使用していますが、デバイス上でリアルタイムのAI字幕生成を追加します。クラウドなどは必要なく、ビデオをダウンロードしてVLCで視聴すると、字幕ファイルがなくても自動的に字幕を生成してくれます。これは本当に役立つと思います。
このビデオを締めくくるにあたり、今週私が見つけた絶対に魅力的なものをもう一つ紹介したいと思います。ウラジーミル・プーチンについての新しい映画が公開されますが、基本的に映画全体でプーチンをディープフェイク化しています。
バックグラウンドに著作権のある音楽が入っている可能性が高いので、このビデオはミュートにしますが、少し早送りすると、この映画での彼の姿を実際に見ることができます。これはプーチンを演じる俳優で、そこにAI技術を使用してプーチンの実際の顔を重ねています。プーチンの顔の画像を大量にアップロードし、彼の顔のイメージをトレーニングし、それをこれらのビデオ内でこの俳優に使用しています。
これは私にとって信じられないことです。この映画の製作者が謎めいた形で姿を消すことがあれば…そこまでは言いませんが、私の理解では、この映画はプーチンに対して好意的な映画ではないので、これが実際に起こることについて彼がどれほど喜ぶかはわかりません。ただ、誰かが実際にこれを行うことを決めたのは、非常に興味深く、また少し大胆だと思います。
今日はここまでです。実は、CESで私はAIニュースビデオを全て録画していたのですが、私のミスで、そのビデオの音声が全て台無しになってしまいました。設定を間違えていて、何度も修正しようとしましたが、音声を適切に動作させたり、同期させたり、良い音にすることができませんでした。
そのため、CESのホテルの部屋で作ったAIニュースビデオを全て破棄せざるを得ず、帰宅してからニュースビデオを録画するのを待たなければなりませんでした。そのため、このビデオは通常よりも少し遅れて公開されています。
しかし、太平洋時間月曜日午前11時のライブストリームでは、CESでの経験を共有し、私の考えを話し、そこで撮影したビデオ映像の一部を共有する予定です。また、今週リリースされたいくつかの本当に素晴らしいAIツールもあり、ライブストリームで試すのが楽しみです。
もし太平洋時間月曜日午前11時に時間があれば、ライブ配信に参加してください。チャットに参加して、質問をしてください。CESでの経験を共有し、ツールをライブで試し、NVIDIAの発表などについてもっと話し合います。本当にエキサイティングで楽しい時間になるはずです。
このようなビデオが好きで、最新ニュースを常に把握し、生産性や素晴らしいAIビデオの作成などのクールなワークフローを構築する方法についての素晴らしいAIチュートリアルを得たい場合、また最新のAIツールについて常に情報を得たい場合は、このビデオをいいねして、このチャンネルを購読してください。
私が継続的に情報を提供し、このようなビデオがYouTubeフィードに表示されるようにします。また、まだ確認していない方は、FutureTools.ioをチェックしてください。これは私が出会う最もクールなAIツールをキュレーションし、AIニュースを常に更新し、無料のニュースレターがある場所です。
この無料のニュースレターに参加すると、AIインカムデータベース、AIを使用した副収入を得る方法の無料データベースを提供します。完全に無料で、最もクールなニュース、最もクールなツールが週に2回メールボックスに直接届きます。すべてがFutureTools.ioで無料で見つけることができます。
視聴していただき、私と一緒に最新のAIニュースについてオタク談議してくれてありがとうございます。次回また、月曜日のライブストリームでお会いできることを願っています。さようなら、また後で。

コメント

タイトルとURLをコピーしました