XAIが巨大リリースの準備、AIゲーミング、OrionとGPT-5

4,685 文字

XAI Prepares COLOSSAL Release, AI gaming, Orion and GPT-5
The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

今日は大きなAIニュースがありました。誰もが注目しているのは、Grok 3のリリースです。イーロン・マスクは、本日2月17日太平洋時間午後8時にリリースされる、地球上で最も賢いAIになると述べています。そしてサム・アルトマンがGPT-5について言及していますが、これはAGIの瞬間を感じさせるものです。イーロン・マスクがGrok 3をリリースする直前に何かをリリースすることを示唆しているのでしょうか。これがライブで展開されるのを見るのはとても興奮します。
リリース前に、皆さんに「Grok 3は地球上で最も賢いAIになるか」と尋ねました。現在800票あり、まだ投票は続いています。太平洋時間午後8時前であれば、ぜひ投票してください。現時点では、「現在のトップモデルと競争力を持たない」と「トップに近いがベストではない」がそれぞれ約30%で並んでおり、「他のすべてを上回る」が15%となっています。
これが重要な理由は、一見思われるよりもはるかに重要かもしれません。まず、XAIはコロッサスデータセンターを建設し、この建設に信じられないほどの資金を投入しています。おそらく地球上で最大規模であり、他の競合他社をはるかに上回る規模です。
Googleの概要を簡単に見てみると、20万台以上のNVIDIA GPUを保有し、100万台のGPUを目指しているとされています。イーロン・マスクはそこからさらに10倍、つまり200万台になる可能性があると述べています。この施設が建設された速度は驚異的です。
サム・アルトマンはサイバートラックやテスラの工場の1つについて言及し、それはFactorioのスピードランのような感じだと述べています。Factorioをプレイしたことがない方のために説明すると、非常に複雑な先進的な工場を建設するゲームです。
この施設はテネシー州メンフィスに122日で建設され、世界最大の液冷GPUクラスター展開となっています。以前、マイクロソフトのエンジニアが、大規模なコンピュートクラスターを1か所に集中できないという噂がありました。それは州の電力網に負荷がかかりすぎるためだと言われていました。ワシントン州のことを指していると思われますが、これは噂レベルの情報です。
しかし、ここではすべてを1か所に集中させることができました。3層構造の床上データホールを採用し、電源、冷却、GPUクラスターを備えています。Google、OpenAI、Microsoftを含むグローバルな競合他社の計算能力を上回ると予想されています。
これらの重要性は何でしょうか。まず、DeepSeekのモデルは多くの人々を驚かせ、NVIDIAの株式を売却する人も出てきました。スケーリング則が影響を受け、すべてが変化していると考えたためです。
しかし、もしGrokが非常に強力で効果的、そして現在アクセス可能な他のモデルよりも優れていることが示されれば、スケーリング則が継続することを示唆することになります。つまり、チップが多いほどモデルが良くなるということです。
一方、期待を下回る場合は、まったく逆のシグナルとなります。DeepSeekモデルのニュースでNVIDIAなどの株を売却した人々の見方が正しかったことを示唆し、より効率的な中国のモデルが同じような計算能力を必要としないということになるかもしれません。
では、このデータセンターから何が生まれるのでしょうか。これまで多くの創業者が新製品のリリースを宣伝してきましたが、今回のケースは異なるレベルの宣伝だと思います。
イーロン・マスクは朝4時まで、実際には朝5時まで起きていたと述べ、XAIのデータセンターやスーパーコンピューターセンターについて、設置開始からトレーニング開始まで19日という、誰も達成したことのない速さで完了したと語っています。
これはメンフィスにある施設で、古代エジプトの首都について言及する中で、「おそらく、そこから私たちの新しい神が生まれるかもしれない」という発言までしています。新製品のリリースに関する宣伝としては、かつてないレベルのものと言えるでしょう。
イーロン・マスクのXAIはAIゲームスタジオを立ち上げてゲームを制作する予定です。これは今後の企業のプロトタイプとなる可能性があります。まず、小規模で機動的なチーム、自身がゲーマーであり良いゲームを作ることに興味を持つ人々が、AIの支援を受けてゲームを制作します。
同じビジョンを共有する少人数のグループが集まり、AIの支援を受けてアイデアを実現できるということです。残念ながら、ゲームスタジオやハリウッドスタジオは非常に収益性が高いため、最終的には集中化が進み、上層部の数人が何を制作するかを決定できるようになります。
配給のほとんどを支配しているため、競争を排除することができ、気に入らなくても選択肢はあまりないという状況になってしまいます。AIビデオがハリウッドに大きな影響を与えると予測しましたが、ビデオゲーム業界についても同じことが言えると確信しています。
まだ初期段階で、どのように展開されるかの証拠や例はそれほどありませんが、この展開を見たい場合は、これらの人々に注目する必要があります。AIのビデオゲームへの応用方法は100万通りあることを覚えておいてください。
コーディングの支援だけでなく、グラフィックの作成、スクリプトやプロンプトの作成の支援、ゲーム内のインテリジェンス(ニューラルネットを使用してより賢くなる対戦相手)、大規模言語モデルを使用してより生き生きとしたNPCなど、現時点では気付いていない多くの可能性があります。
例えば、画面上で何が起こっているかを認識し、それと対話できる大規模言語モデルとビジョンモデルの能力は、より多くのインタラクティブな要素を提供する可能性があります。DoomやMinecraftのようなゲームがニューラルネットによってリアルタイムで生成できるようになっていることは、ゲーム制作に新たな要素を加える可能性があります。
過去には、戦場で部隊に音声コマンドを使用して指示を出すようなゲームがありましたが、それらのゲームは時代を先取りしていたと言えます。今では、そうしたアイデアを実現する技術が揃っています。
これは非常に興味深く、また、新しいGrok 3が強力なコーディング機能を持っていることを示唆しているのかもしれません。先ほど、Strawberry Man I Rule The Worldは、Xでのライブチャットスペース機能で、Grok 3に早期アクセスし、音声モードをライブでテストしているようでした。
Grokアプリは Android ストアにあり、iPhoneのApp Storeにも同様のものがあるはずです。本日後半にリリースされる可能性があるので、興味がある方は事前登録することをお勧めします。
作成中の動画の早期プレビューについて、皆さんの助けが必要です。画面上のユニコーンのような物体の色は何色でしょうか。これはトリッククエスチョンではありません。より明るい色、この色を何色と表現しますか。言い換えると、プレイヤーの色で表現すると、青いプレイヤー、赤いプレイヤー、そしてこのプレイヤーは何色でしょうか。後ほどの動画で理由が分かります。
Grok 3の音声モードは実在するようで、早期アクセスを得た人々は素晴らしかったと報告しています。Shivon Zillisは、物理学のオーディオブックを受動的に聞く代わりに、Grok 3のARAと1時間にわたって科学的なトピックについて会話を交わし、それが予想外に充実した時間だったと述べています。
私自身、ChatGPTの高度な音声モードを最近よく使用しています。現在アクセス可能な中で最高のものです。最近大幅なアップデートがあり、かなり改善されたことが分かります。車の運転中に電話を車のステレオにBluetooth接続し、高度な音声モードを使用して会話するのはとても良い体験でした。
ウェブ検索を要求すると、検索中を示すクリック音が聞こえ、数秒後に答えが返ってきます。私は健康やサプリメント、体内のプロセスについての理解を深めるために使用しました。
また、アイデアやある事柄の表現方法についてブレインストーミングする際にもよく使用します。アイデアをチャットボットに説明し、タイトルや命名方法について20の類似案を求めるなどの使い方ができます。特に反復的に改善していく場合、このブレインストーミングは非常に効果的です。
音声によるインタラクションは非常に自然な対話方法に感じます。コード生成やディープリサーチなどの機能と統合されればいいのですが、それらの要素は既に存在しているので、互いに独立して通信できるようにする必要があるだけです。
これは急速に実現されつつあるようです。Grok 3の高度な音声モードの録音かもしれませんが、Eleven Labsを使用して好きな声を選べるようです。これはかなり素晴らしいことになりそうです。一部の方は私がどの声を使用するか既にご存じでしょう。
Rachel、NVIDIAのお気に入りの声、滑らかな声のTwitchストリーマー、そしてVoice 1、Voice 2があります。これはTesting Catalogニュースからの情報で、彼らのリークは通常かなり正確です。このような形になる可能性は十分にあります。
最後に、2月12日の情報について、ほとんどの方がすでにご存じだと思いますが、これは先ほど話していた様々な要素が統合されることについてです。モデルを手動で選択する代わりに、必要に応じてモデルを呼び出す統一されたシステムになるようです。
モデルピッカーを廃止し、統合されたインテリジェンスに戻るということです。次のモデルであるGPT-4.5(内部ではOrionと呼ばれている)は、思考の連鎖を持たない最後のモデルになります。LRM(Large Reasoning Model)対LLM(Large Language Model)という用語が使用されていますが、この用語が定着するかどうかは不明です。
ChatGPTアプリとAPIの両方で、GPT-5は03を含む多くの技術を統合したシステムとしてリリースされ、03は単独のモデルとしては提供されなくなります。ChatGPTの無料版ユーザーは、標準インテリジェンス設定としてGPT-5への無制限のチャットアクセスを得ることができ、これにはコーディング、音声、キャンバス検索、ディープサーチなどのすべての機能が含まれます。
ChatGPTのディープリサーチ機能を使用している方へ、私は100回近く使用していますが、まだ制限には達していません。ほぼ毎日複数回使用していますが、非常に印象的な機能です。
私の理解では、Twitterの一部の人々との会話に基づくと、ディープリサーチオプションを選択した場合、ここで選択したモデルは実際には関係ないようです。ディープリサーチを実行するのは完全な03モデルだからです。しかし、フォローアップの質問については、このモデル選択は関係があるようです。
以上です。Grokのリリースまでお待ちください。ご意見をお聞かせください。Grok 3のリリース後にまたお会いしましょう。ここまでご視聴ありがとうございました。私はWes rthです。また次回お会いしましょう。

コメント

タイトルとURLをコピーしました