NVIDIA Project R2X: PCにおけるAIアシスタントの未来

3,022 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

NVIDIAはCESで多くの製品を発表していますが、その一つがProject R2Xと呼ばれるものです。基本的にはここに見えるアバターで、後ほどその機能を見ていきますが、これは私たちのコンピューター用のアバターです。基本的にはビジョン機能を備えた仮想アシスタントのプロトリタイプで、画面で何が起きているかを見ることができ、あなたを見ることもでき、それによってデスクトップアプリケーション、ビデオ会議、文書などに統合することができます。
つまり、画面上のあらゆるものに対応できます。プログラミングをしている場合は画面を見て何が起きているかを説明でき、会議中であれば参加者の発言を聞いて、あなたが注意を払っていなくても要約を作成できます。文書を読んで要約することもできます。そして見ての通り、視覚的な部分も備えており、アバターはNVIDIA RTXと生成アルゴリズムを使用して、画面上で起きているすべてを組み合わせ、人間の形をしたこのアバターを生成し、さらに話しかけることもできます。
唇と舌のアニメーションには、音声から口の動きを生成するAudio to Faceモデルの一つを使用しています。これは多くの人々が投資しているモデルの一つで、様々な用途があり、これもその一つです。さらにこのアシスタントは、GPTのようなクラウド上のモデル、OpenAIのモデル、また基本的にマイクロサービスと接続することができます。
では、どのように機能するか動画を見てみましょう。
「Photoshopでこの写真の…生成フィル機能を使用してください。まず選択ツールでジャケットを選択し、コンテキストタスクバーの生成フィルをクリックします。置き換えたい内容を説明すると、Photoshopがオプションを生成します。」
「保険証券を共有してもよろしいですか?」
「はい、どうぞ共有してください。」
「保険証券を受け取りました。どのようにお手伝いできますか?」
「屋根の氷による漏水は保険でカバーされますか?」
「あなたの保険は融雪による損害をカバーしています。」
「NVIDIAのレイトレーシングパネルはいつですか?」
「申し訳ありません、わかりません。もう一度試してみましょう。」
「NVIDIAのレイトレーシングパネルはいつですか?」
「1月8日午後2時です。」
「NVIDIAのG-SYNCを有効にしてもらえますか?」
「G-SYNCサポートを有効にしています。」
「私が持っているものは何ですか?」
「休暮シーズン仕様のデザインが施された赤と白のスターバックスの使い捨てコーヒーカップを持っています。」
「マンダレイベイホテルから一番近いスターバックスはどこですか?」
「マンダレイベイホテル内にスターバックスがあり、コーヒーを買いに行くのにとても便利です。」
「ラスベガススフィアの解像度はいくつですか?」
「ラスベガススフィアの解像度は約16K×16Kだと思います。」
さて、ここで見たアイデアに戻りましょう。画面を共有している部分では、Photoshopが開いていて、「ジャケットを変更したい」などと尋ねることができます。私たちは皆、Photoshopにそのタスクを実行できる機能があることを知っていますが、問題は実際にそれをどのように行うかを知ることです。インターネットで検索する代わりに、アシスタントが提供するのは非常に良いオプションです。
もう一つの興味深い例は、保険証券のファイルをドラッグしているところです。保険証券があり、その後、様々な質問をすることができます。例えば、車の事故で扉に傷がついた場合などについて尋ねることができます。文書を持っていれば、単に質問するだけでなく、時間とともに「保険は私の車の傷をカバーしますか?」といった質問に対して、保険でどのように処理できるか、修理工場に持っていく必要があるか、査定員が来る必要があるかなどのプロセスを管理できます。これはこの技術の初期段階であり、NVIDIAの人々が導入したい進歩は、ChatGPTやGeminiで見られる典型的なチャットを持つだけでなく、アバター形式を持つことです。
これが成功するかどうかはまだ分かりません。というのも、ご存知の通り、チャットはかなり普及しており、ここでは画面上にアバターが占める部分があって質問できるというのは、良いかもしれませんし、悪いかもしれません。また、これらの種類の製品は現在NVIDIAの製品でのみ機能することを覚えておいてください。GPT-4やGrockにクラウドを通じて接続できると言っていますが、そのためにはこれらの企業のAPIキーを入力する必要があり、料金が発生します。
かなり興味深いですね。もう一つの例を見てみましょう。チャットを共有している部分です。ここで見られるように、これは将来的にかなり興味深いユースケースになる可能性があります。アバターが画面に表示され、ここでは3人がラスベガスのイベントについて質問していましたが、例えば企業でプロジェクトXについて話し合っているとき、すべての文書にアクセスでき、「納期はいつか」「どのような技術が使用されているか」といった、その時点で会議の参加者が知らないかもしれないことを自分で検索できるけれども、会話をよりスムーズにする助けとなるようなことを尋ねることができます。
このような種類のエージェントが会話に組み込まれても驚きません。ただし、アクセス権を持っている場合、サイバーセキュリティは2025年に成功する大きな仕事の一つになるでしょう。なぜなら、ここで見たようにPCの設定を最適化させることは良いことです。「PCのこの設定を構成して」と言うことはできますが、結局、実際に何をしているのか分からない場合、ハッカーがこの種のオプションに侵入しようとし、あなたのコンピューターを自分たちに有利になるように設定する可能性が非常に高くなります。なぜなら、結局のところ、ユーザーは裏で何が起きているのか分からないからです。
このProject R2Xはとても興味深いですね。次に、NVIDIAの人々がAIファクトリーをどのように考えているかについての2番目の動画を見てみましょう。
トークン、AIの構成要素。トークンは新しいフロンティアを開きました。無限の可能性が生まれる非凡な世界への第一歩です。トークンは言葉を知識に変え、画像に命を吹き込みます。アイデアを動画に変え、どんな環境でも安全に進むことを助けてくれます。トークンはロボットにマスターのような動きを教え、私たちの勝利を祝う新しい方法を生み出します。
「マティーニをください。ありがとう、アダム。」
そして、最も必要なときに安心を与えてくれます。
「こんにちは、エマ。」
「また会えて嬉しいです。」
「こんにちは、エマ。今日は採血をさせていただきます。」
「大丈夫、私がずっとそばにいますからね。」
トークンは数字に意味を与え、私たちの周りの世界をよりよく理解するのを助けます。私たちを取り巻く危険を予測し、私たちの内部の脅威に対する治療法を見つけます。トークンは私たちのビジョンを実現し、失ったものを取り戻すことができます。
「ザカリー、僕の声が戻ったよ、バディ。」
トークンは私たちが一歩ずつ前進することを助け、共に大きな飛躍を遂げることができます。そしてここが、すべての始まりの場所なのです。

コメント

タイトルとURLをコピーしました