AIニュース：AIの軍拡競争がますます激化

AI News: The AI Arms Race is Getting INSANE

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

今日はGoogleとOpenAIから大きなニュースが飛び込んできました。まず第一に、サム・アルトマンはAGIを感じていると言っています。こちらがOpenAIのコアチームとの写真で、みんながとても元気そうで何よりです。イリヤ・サツケーバーも元気で幸せそうですし、みんなが笑顔で嬉しそうです。私の唯一の疑問は、イリヤ、このシャツはどこで手に入れたのか？ということです。残念ながら、これは楽しいことや心地よいことが原因ではありません。どうやらイリヤとOpenAIは別々の道を歩むようです。それだけでなく、OpenAIのスーパーアラインメントを共同リードしている機械学習研究者のヤン・レイも「辞職した」と言っています。もちろん、これは良い兆候ではないと言われています。

もちろん、OpenAIから情報を漏らしている複数の人々が解雇されているという情報もあります。イリヤが去り、ジョン・レイが去る、何が起きているのでしょうか？まずはここから始めましょう。イリヤとOpenAIが別々の道を歩むことになったというのは非常に悲しいことです。イリヤは間違いなく私たちの世代で最も偉大な頭脳の一つであり、私たちの分野の指導的存在であり、親しい友人です。今、私はすべてを読み上げるつもりはありません。こういった時には、一般的に言うべきこと、みんなが期待することを投稿するものです。サム・アルトマンが普段のカジュアルな無大文字の文字を使わずに、よりフォーマルな形式で書いていることにも気づくでしょう。彼が言っていることは本当にそうだと思いますが、これは明らかに磨かれていて、多くの人々に向けて送られるものだからです。ここにある通り、420万回の閲覧があります。

いくつか目を引く点があります。彼は「私は彼がここでやってくれたことに永遠に感謝しており、一緒に始めた使命を完遂することを約束します」と言っています。これが、2016年か2017年に彼とイーロン・マスクとグレッグが形成した、Googleに対抗するための最初の役割でした。あるいは、もし記憶が正しければ、2015年にも話し始めたかもしれません。そして、ジェイコブが新しいチーフサイエンティストになります。これはジェイコブ・パトキで、写真の左側に写っている彼です。彼は以前、GPT-4とOpenAI 5の開発を先導する研究ディレクターを務めていました。OpenAI 5を覚えていないかもしれませんが、これは非常に古いAIタイムラインの中で、2019年にOpenAI 5がDota 2で人間のプレイヤーを完全に打ち負かした時のことです。

もちろん、OpenAI 5とDeepMindのAlphaStarは、両社が競り合ってBlizzardのゲーム、あるいはBlizzardのゲームの一部だったゲームのアイデアで競り合ったAIでした。DotaはWarcraft 3のカスタムマップとして始まったと思いますが、この写真ではジェイコブが右側に写っており、彼がそのマッチのリプレイをしているようです。正確な詳細はわかりませんが、ここで見えるように、OpenAI 5のプレイヤーの名前はOpenAI 3、OpenAI 2となっており、引用符で「ボット」と書かれています。彼らは実際の人間のプレイヤーがプレイするように動いているようです。後に人間のプレイヤーがボットと対戦したインタビューで聞いた興味深いことは、OpenAIのボットは戦闘に参加するタイミングと参加しないタイミングを非常によく理解しているということです。つまり、退却する場合、それは攻撃すれば負けると分かっているからで、攻撃すれば高確率で勝てるということです。人間のプレイヤーがそのことに気づくと、ボットが戦闘に参加するのは彼らにとって良くない兆候だと理解するようになりました。つまり、ゲームオーバーで、OpenAIがゲーム2を取り、シリーズを2対0で勝ち取ったのです。これがAIがエスポーツのプロをライブストリームで初めて打ち負かした時です。

もう一つの大発見は、トレーニングプロセスが他のボットを打ち負かすことに専念していた一方で、OpenAI 5は人間と協力する能力を発見したことです。つまり、人間と一緒にプレイして他のチームを打ち負かすための協力プレイです。さて、ジェイコブがOpenAIの新しいチーフサイエンティストとして登場します。イーロン・マスクも最近「約10年後にOpenAIを去る決断をしました。会社の軌跡は奇跡的で、サム、グレッグ、ミル、マディのリーダーシップの下で、そして今やジェイコブ・パトキの優れた研究リーダーシップの下で、安全で有益なAGIを構築することを確信しています」と投稿しました。イーロンは「次に何が起こるか楽しみです」と述べています。

アンドレとイーロンが本当にオープンなAI会社を立ち上げるのでしょうか？多くの人々が独立して新しいことを始めるのではないかと感じています。確かに、Anthropic AIがその一例です。Anthropic AIは座視していません。インスタの共同創設者兼CTOがAnthropic AIに参加し、彼はAI製品の未来を形作る手助けをすることになります。そして世界の反対側では、あるロボットがコンピューターブレインインターフェースを使用して中国語の文字を書くことができるようになりました。ニューロリンクと似たような方法で、画面に文字を書き出すのです。投稿によれば、ロボットが神経インプラントの助けを借りて、麻痺した76歳の男性が歴史を作りました。この男性は自分の考えを使って8つの中国語の文字を書いたのです。この驚くべき成果は、脳インプラントを使用して中国語の文字を書くことを可能にした最初の成功例です。患者は自分の考えでロボットの手を制御し、中国語の文字を書くことができました。これにより、失った言語能力や運動能力を再びコミュニケーションする希望が提供されます。

アルファベットの書き方と異なり、脳コンピュータインターフェースを通じて中国のスクリプトを実装することは非常に複雑です。ボランティアは書き方の過程を想像し、それが運動領域のニューロン活動に反映されます。その後、システムは信号を分析して意図された書き方をキャプチャし、ロボットアームを制御して文字を書かせます。Groは以前、Street FighterでLLMモデルを戦わせる実験を行いましたが、今回はGroチップを使用して非常に高速に行われました。ここで見られるように、キャラクターは非常に速く動いており、ラグやダウンタイムはほとんどありません。常にお互いにブロックやカウンタームーブを繰り出しています。非常に印象的です。これがGemma 7B対Chad BT4 Turboの対戦で、レトロゲームで2人のKenキャラクターを制御しています。商標名を省略しているのですが、テキスト画面の赤いテキストでわかるように、Gemmaが非常に多くのムーブを繰り出しているのがわかります。赤いテキストが非常に多いですね。AIのさまざまな能力を示すためにビデオゲームを使用するのは非常に興味深いと思います。これは非常に良い組み合わせだと思いますし、可能であればビデオゲームを使用してAIの能力を示すべきだと思います。これはロボットの3つの法則のように、AIの法則ができた時には、その中の一つは「ビデオゲームを使用してAIの能力を示すべし」とするべきだと思います。誰が賛成ですか？

コールセンターは消えつつあるかもしれません。ジェネレーティブAIの側面に焦点を当てたいと思います。ヘッドラインを集めた理由は、「ジェネレーティブAIが顧客サービスの700人の仕事をしている」と言ったからです。まだ700人ですか？もっと増えていますか？多分、今では少し増えています。私たちがその数字を共有したのは注意を引くためですが、それは部分的にAIに対する多くの誇大宣伝があるからです。そして、Googleが今日何かを発表したと言っていたように、いくつかの実際のビジネスリーダーは、自分のビジネスに実際に影響を与えるものは何かと考えています。これは、少しだけではなく実際の応用例であり、消費者がそれを好む理由は、人間のエージェントよりも高い顧客満足度を提供し、使用が速く、質が高く、深い影響を与えているからです。

人間に払う理由があるでしょうか？AIがより安価で、より良く、より速く、よりスケーラブルにできるなら。今では消費者が人間よりもAIとの対話を好むようになっているようです。そして、Googleは自分たちの一連の製品やAIエージェントで強く反撃しています。デモの一つでAIメガネを使用していたことに気づいたかもしれませんが、それが何か疑問に思っているなら、Googleの幹部がARメガネが復活する可能性があることを示唆しています。10年前のGoogle Glassを思い出してください。2014年の製品で、うまくいかなかった時のことです。多くの人がそれを着用して公衆で攻撃されたという話もありました。特にサンフランシスコでは、うまくいかなかった製品でしたが、今では新しいAI機能がAIメガネの復活の舞台を整える可能性があることを示唆しています。

ARは拡張現実で、メガネを通じて現実の世界に投影されるオーバーレイのようなもので、AIアシスタントのようなものと組み合わせられます。これがプロジェクトAstraのデモの一部です。女性がオフィスを歩き回り、さまざまな物にカメラを向けながら質問をし、アシスタントが非常に迅速かつ知的に応答しているのを見ました。以前、Googleのデモの一つが宣伝通りに機能せず、編集されていたことが発覚したことを覚えているかもしれませんが、それはビジョンデモでした。ページに何かを描くと、アシスタントがそれを即座に認識し、迅速に提案を行うように見せていましたが、実際にはそうではなかったと後で分かりました。しかし、開発者会議に参加した人々のフィードバックに基づくと、その回答が迅速に生成されることは実際のようです。

まず、Demiが投稿したプロジェクトAstraのデモをご覧ください。

「この画像の有名な文学作品は何ですか？」「それはハムレットを思い起こさせます。シェイクスピアの作品は好きですか？」「はい、好きです。」「この有名な思考実験は何で、1文で説明できますか？」「それはテセウスの船の思考実験です。すべての部品が交換された場合、その物が根本的に同じ物であり続けるかどうかを問うものです。」「これらの物について創造的な詩を作ってください。」「鮮やかな球体、心が露わに、時間の静かな通過が空気を満たす、思考の果実、落ちる砂、その記憶は何を呼び覚ますだろうか。」

サンティアゴはGoogleのデモに問題があったと指摘しています。以下をご覧ください。

「私はプロジェクトAstraをテストする機会を得ました。これはGoogleのOpenAIアシスタントへの回答です。少し奇妙で、テストする時間は2分しかありませんでした。ブースに4人入り、2分間テストしました。いくつかの物があり、下向きのカメラ、大きなスクリーン、ヘッドホンとマイクを使ってアシスタントと話すことができました。物を使ってAstraの前に置き、質問や物語を頼むことができました。うるさくて騒がしかったのでフェアにしたいと思いますが、デモはうまくいきませんでした。アシスタントは指示に従うのに苦労し、繰り返し「続けて」と言わなければなりませんでした。前の人が物について物語を書いてと言ったとき、アシスタントは「はい、できます」と言って止まりました。指示を導く必要がありました。スクリーンに行ってスマイルフェイスを描いたところ、アシスタントは認識しましたが、スムーズではありませんでした。」

別の人がプロジェクトAstraを試した様子の画像です。

「それは虫ですね？」「はい、それだけです。」

確かに、良い結果を得た人もいますし、すべてが完璧ではなかったと感じた人もいます。これが出た時にどうなるかを見てみましょう。遅延は少なく、非常に迅速に回答が出るようです。次に、電子メールエージェントがあなたの受信トレイのすべての領収書をスプレッドシートに整理するという機能も発表しました。これは非常に便利だと思いました。すべての領収書を整理し、AIが財務を常に更新してくれるというのは素晴らしいですね。これが正確かつ効果的に行われるなら、本当に素晴らしいと思います。

他にも、注文を返す機能もあります。例えば、好きでない靴を返品したいとき、自分で処理する時間がない場合、このAIがすべての処理を代わりに行い、何を期待するかを教えてくれます。さらに、パイロットクラスを見つけるためのマルチステップの研究と推論を行う検索エージェントもあります。AGIに向かって進んでいることを示すとき、ヨガクラスの見つけ方やマイアミへの旅行計画、返品の方法などの使い道を示すのはどうなのかと思う人もいます。これがAGIの方向性なのかと。

また、OpenAIのSoraに対するGoogleの回答であるVoも発表されました。テキストからビデオアニメーションを作成する能力で、非常に良さそうです。もちろん、Soraには及ばないかもしれませんが、Runway MLやPika Labsと同じレベルかもしれません。実際に手に取って遊んでみた時にわかるでしょう。どのような製品をリリースしても、競合他社がすぐに追いつくことは間違いありません。Gemini 1.5フラッシュも発表されました。これは、非常に高速で効率的なマルチモーダルモデルで、非常に安価なタスクに使用されます。入力100万トークンあたり35セント、出力100万トークンあたり53セントと非常に安価です。さらに、2百万トークンのコンテキストウィンドウを発表しました。目標は無限のコンテキストウィンドウを持つことですが、現在はプライベートプレビューで2百万トークンのコンテキストウィンドウがあります。これにはウェイトリストがありますので、試したい場合はぜひ参加してください。

また、Geminiファミリーの追加も発表されました。Pali Gemmaは、画像キャプションやビジュアルQ&A、その他の画像ラベル付けタスクに最適化された最初のビジョン言語オープンモデルです。例えば、24時間録画される監視カメラの映像のキャプションを自動的に作成することで、多くのビジネスに役立つでしょう。病院の患者の部屋に設置され、薬の投与時間を記録するなど、さまざまな用途があります。

また、Gemini 2も6月に発売予定で、最も有用な開発者サイズで業界をリードする性能を提供し、2倍のサイズのモデルを上回る性能を発揮し、単一のTPUで効率的に動作します。これはGoogleのAIハブであるVertex AIに関連しています。

Googleは、GeminiがChromeをツールとしてネイティブにブラウジングできるようになり、Appleとの提携も発表しました。AppleのiPhoneやMacOSで利用できるようになります。GoogleにはAndroidのエコシステムがあり、多くの製品がAndroidで動作しています。世界のスマートフォン市場シェアを見ても、Androidの存在は非常に大きいです。ビジネスは将来的にFactorioのようになると言われており、AIエージェントを管理することがビジネスの未来になるかもしれません。

また、Andrew NgがDeepLearning.AIを立ち上げ、無料のトレーニングを提供しています。彼のクルーAIと提携してマルチエージェントシステムのコースを提供しています。これは無料で短期間のコースで、AIエージェントの構築に興味がある人には非常に役立ちます。私もこのコースを試していますが、非常に良いと感じています。私のNatural 20プライベートグループに参加して、AIを使いこなす方法を学びましょう。興味がある方は、ぜひ参加してください。

このビデオを見ていただき、ありがとうございました。私の名前はWes rthです。また次回お会いしましょう。