GPT-5の遅れ、超知能、ヒューマノイドロボット工学、そしてGPT-4はあなたが思うほど賢くない

この動画では、AIにおける最も重要なニュースについてカバーしていきます。実際、取り上げるべき内容が多すぎるので、時間を無駄にせずにすぐに始めましょう。
GPT-4が初めてリリースされた際、多く報道されたのが、弁護士試験に合格したということでした。弁護士試験に合格しただけでなく、上位90パーセンタイルで合格したのです。これは2023年のスタンフォード大学の報告でしたが、要するに法律分野でAIツールがどのような意味を持つのかを示していました。なぜなら、単に合格したのではなく、上位90パーセンタイルで合格したということは、かなり驚くべき出来事だったからです。そしてこれは多大な影響を及ぼすことでしょう。
しかし、なぜ私が2023年の出来事について話しているのでしょうか?実はこの結果、つまりGPT-4の弁護士試験の成績は、必ずしも正確ではなかったようです。最近の論文で、研究者たちはGPT-4の弁護士試験の成績の90パーセンタイル主張を再評価することにしました。この論文は次のように述べています。
『おそらくGPT-4のローンチで最も大々的に宣伝されたことは、統一弁護士試験で90パーセンタイルの成績を収めたという主張でした。この論文はまず、90パーセンタイル主張を文書化し検証する際の方法論的課題を調査し、次の4つの発見を提示します。これらの発見は、オープンAIのGPT-4のパーセンタイル推定値が実際には過大評価されていることを示唆しています』
要するに、彼らの研究によれば、この結果は大幅に過大評価されているということです。彼らは次のように述べています。
『GPT-4の統一弁護士試験の得点は、イリノイ州弁護士試験の類似問題から見ると、たしかに90パーセンタイルに近いものでした。しかしこれは、7月の本試験に不合格となり再受験した受験者に大きく偏っており、一般的な受験者集団よりもかなり低い成績です。そして最近の7月の本試験のデータでは、GPT-4の統一弁護士試験の全体のパーセンタイルは69パーセンタイル未満で、論文部門では49パーセンタイルでした』
これは非常に重要です。なぜなら、この論文が示すように結果が実際には過大評価されているのであれば、おそらくAIシステムの実力をある程度は再調整する必要があるということです。たしかに全く悪くない成績ですが、かつて多くのニュース記事やAI研究者が「このシステムは非常に賢い」と言っていた根拠の1つが、実は過大評価されていたということになります。
この結果が重要だったのは、彼らが「GPT-4の能力を過小評価すれば、法的な作業での誤用につながり、貧弱な法的結果をもたらしかねない」と述べていたからです。実際に、特化したGPT-4のバージョンを使わずにいた人々は、モデルによる存在しない事例の反復という「ハリソン現象」に惑わされていたのです。
つまり、これは研究所から出てくる情報をしっかり検証し確認する必要があるということを示しています。企業はもちろんモデルの能力をアピールするでしょうが、独自の評価を行うことが重要なのです。そうすれば、GPT-4の実際の能力は90パーセンタイルではなく69パーセンタイルであると認識できますし、この技術の進化をより正確に捉えられるはずです。
また興味深かったのは、情報誌『The Information』の記事でした。ほとんどの人が気づかなかったことですが、私はこの記事が本当にクールだと思いました。要するに、この記事は、オープンAIの先行者利益がいつまで続くのかについて述べていました。これは重要なことで、他の企業もさまざまなモデルの支払いを始めていることが示されていました。つまり、オープンAIはClaudeをリリースして以降、徐々にリードを失いつつあるということです。
これはAnthropicがClaudeの新しいバージョンでマーケットシェアを急速に獲得していることを示しています。これはもちろん重要なことで、オープンAIがその市場支配力を維持したければ、対応を強化する必要があるということです。競争は良いことですが、顧客が最高の製品を手に入れられるようになることが重要です。
さらに、この記事で重要な情報があります。それは、GPT-5のリリースに関する情報です。記事は「まだGPT-5があり、12月に登場すると聞いています。そうなれば今日のモデルを吹き飛ばすことでしょう。時間が経てば分かります」と述べています。
この情報を参考にするのは、この媒体がAIコミュニティの裏側で起きていることについて、驚くほど正確な情報を得ていたからです。サムの解雇についても、他の大手メディアに先駆けて報じていました。
つまり、GPT-5のリリースは12月になる可能性が高いということです。これは少し驚きました。一般選挙は11月5日ですが、私は11月にリリースされると考えていたからです。最近の会議でオープンAIは明言しませんでしたが、次のAIモデルのリリース予定日をグラフに示していました。そしてその時期は12月ではなく11月だったのです。
つまり、11月か12月にリリースされる見込みで、夏にはGPT-4の新しいモデルが出るということでしょう。おそらくオープンAIが音声モデルの強化を予告していたものがそうなるのだと思います。オープンAIは、夏場は学生がいないためトラフィックが落ち込むことを受け、夏にも新製品をリリースしてユーザーを維持する戦略を取っているようです。
ですから、皆さんはGPT-5のタイムラインを更新する必要があります。明日の木曜日にリリースされると言う人もいましたが、それは驚くべきことでしょう。The Informationの情報は非常に確かなので、軽く見るべきではありません。
GPT-4については、オープンAIが新しい動画をリリースし、新AIシステムでキャラクターの声の動的な範囲を紹介しました。つまり、AIがどれほど人間らしく現実的に聞こえるかを示したのです。その動画をご覧ください。

この全体のデモが非常に興味深かったのは、このAIシステムの音声の動的な範囲が本当に驚くべきものだったからです。笑い声や音効果、さらにはロボット音声までできる能力は、私がずっと疑問に思っていたことでした。なぜ他の音声合成企業がこれをやっていないのか不思議でした。もしこれができれば、ゲームチェンジャーになるはずです。
注目すべき点は、AIを簡単に割り込んで話すことができるという機能でした。つまり、GPT-4がこの能力を備えていることを示しています。GPT-4の何かが明日の木曜日にリリースされるかもしれませんが、何がリリースされるのか、まだ情報が錯綜しています。
水曜日にはGemini イベントのアップデートが予定されていますから、おそらくオープンAIはGoogleを凌ぐ何かを発表するのでしょう。リード・ホフマンは、本物と見分けがつかない完全なディープフェイク動画が数カ月内に登場すると述べる新しいクリップがありました。これは重要な発言です。なぜなら、状況がどれほどクレイジーになるかをお見せするものがあるからです。

リード・ホフマンはGPT-4について話しているのです。これが重要なのは、あの単調な音声から動的に変化する音声に移行することにより、詐欺師がAIを使ってより効果的に人を騙す可能性が生まれるからです。この技術が進化すれば、私たち自身も同じように騙される可能性があります。
また、マイクロソフトVersaは「リアルタイムで生成された、オーディオに動かされる生々しい会話による顔」を発表しました。リアルタイムAIシステムがさまざまな驚くべき進化を遂げていることがわかります。

スタートアップのHig fieldは、NeBisの公式サポートを受けてCreative Video Modelの「Nova 1」を発表しました。これはかなり魅力的です。競争は良いものだと常々言ってきましたが、Pavsのようにものを公開し、活発に活動する企業が出てくることで、この分野が前進するはずです。
PavsはクワイエットにSL向上を出荷していましたが、これはもっとアピールしてもよかったでしょう。GoogleもVoが素晴らしいモデルを発表しましたから、GoogleやOpenAIのSoraに匹敵するモデルが登場すれば、大規模な影響が出るはずです。
OpenAIなどから支援を受けたOnxは、自律ロボットの群れがさまざまなタスクを実行できることを実証しました。

このデモは人々が評価しているよりはるかに印象的でした。なぜなら、人間の音声コマンドを受け入れ、適切なポリシーを選んでタスクを実行するロボットの姿を、初めて現実的に見られたからです。おそらくこれが、特定の場所で複数のロボットが人間の音声コマンドに応じて作業する未来の姿なのでしょう。
ただし、ハードウェアの高価さが障壁となっています。Eveロボットの価格は6桁の金額だと記憶しています。しかし時間とともにコストは下がり、ロボット工学の発展が加速するはずです。
AIの安全性について語ったロマン・ヤシアコフのインタビューもおもしろかったです。彼は、人工知能により人類が滅ぼされる確率を99.99%と見なしています。つまり、人工汎用知能(AGI)を作ってしまえば人類は終わりだと主張しているのです。

彼がいちばん興味深かった点は、AGIを作る必要はないということです。現在の進化の方向性から、いずれAGIは生み出されてしまうと考えています。代わりに、数学や運転などの特定分野で「超知能」を作ることに集中すべきだと言うのです。AGIを作ると予測不可能な事態が起こるため、人類にとってはるかに危険だからです。
彼はまた、人間の価値観の対立を解決する唯一の方法は、誰もがハッピーな仮想世界を作ることだと語っています。

最後に、Gemini UIを使ってコーディングできるようになったことを紹介します。画像からコードを生成するアプリで、Gemini 1.5 Prosの強化された視覚能力を利用しています。GPT-4のUIを画像から完全に再現できるなど、驚くべき出来映えでした。
このように、今後はイメージからコードを自動生成できるようになるでしょう。私が見落としたことがあれば教えてください。今後も多くの興味深い出来事が起こるはずですから。