

月曜日にOpenAIがGPT-4oという革命的なモデルをリリースしました。これは間違いなく、現時点で最高のAIモデルです。この動画ではいくつかのデモクリップをお見せしましたが、まだ見ていない方はぜひチェックしてください。しかし、GPT-4oにはさらに多くの隠された機能があります。例えば、ポケモンのゲーム全体を再現できたり、チェスが驚くほど得意だったり、国際数学オリンピックの問題を1つのプロンプトで解くことができたりします。この動画では、GPT-4oの仕組み、構築方法、そしてなぜこれが革命的なのかについて詳しく解説します。
まず、私のYouTube動画のコメントで、この技術はただの音声からテキストへの変換や、安定した画像生成のための拡散法を使っているだけだという意見を見かけましたが、それは真実ではありません。例えば、リアルタイムのAI音声アシスタントの場合、伝統的には音声をテキストに変換するニューラルネットワークが必要です。このアルゴリズムは音声からテキストへの変換を行い、その後、大規模言語モデル(例:GPT)にテキストを入力し、テキストで応答します。この中間ステップが、チャットボット(例:ChatGPT)の基本的な仕組みです。そして、もう一つのアルゴリズムを使って、テキストを音声に変換します。これがテキストから音声への変換です。このように、3つの別々のプロセスを経るため、非常に非効率で遅いのが従来の方法です。
しかし、GPT-4oは全く別物です。これは真のマルチモーダルです。テキスト、音声、画像データを一つのニューラルネットワークで訓練し、テキスト、音声、画像のいずれかを出力することができます。これが真のマルチモーダルです。このため、おそらく全く新しいモデルが最初から訓練され、ネイティブにマルチモーダルになっています。つまり、画像を生成させる場合、DALL-E 3のAPIを呼び出して画像を生成しているわけではなく、音声で応答する場合もテキストから音声へのAPIを呼び出しているわけではありません。同じニューラルネットワーク、GPT-4oがネイティブに音声を出力します。これにより、より高速です。彼らはこれを小型化または計算効率の向上を実現したのでしょう。
少し前、GPT-2チャットボットがLMSアリーナに登場しました。LMSを知らない方のために説明すると、これはユーザーが全てのAIモデルをブラインドテストできるプラットフォームです。例えば、ユーザーはプロンプトを入力し、異なるAIモデルがそのプロンプトに応答し、ユーザーはどちらの応答が優れているかを選びます。どのチャットボットがどちら側にいるのか分からないため、ブラインドテストです。これらのブラインドテストから分かったことは、少なくともGPT-4oの前はGPT-4 Turboがナンバーワンだったということです。
1~2週間前、新しい挑戦者、GPT-2チャットボットがモデルリストに現れました。誰もそれが何なのか分かりませんでしたが、今、これは確かにGPT-4oであることが確認されました。そして、GPT-4oの全体的な性能を見てみると、他のAIモデルと比較して圧倒的に優れていることが分かります。他のモデルは全く太刀打ちできません。過去2年間、MistralやMixol、Claude 3、Llama 3など多くのLMSがリリースされましたが、これらは前のモデルよりも少しずつ良くなっただけで、特に目立った進化はありませんでした。しかし、GPT-4oはすべての他のモデルを凌駕しています。
OpenAIが最高のモデルをリリースするのは当然のことです。なぜなら、他の競合会社は少なくともある程度、GPTのデータを使ってモデルを訓練しているようだからです。例えば、フランスの会社Mistralは、GPTの応答を訓練データとして使用することで、このように速くオープンソースのLMSを作成できました。しかし、その場合、OpenAIの最高のモデルと同等にしかならず、それを超えることはできません。MetaのLlama 3、AnthropicのClaude 3 Opus、GoogleのGemini 1.5 Proなど、大手技術企業からの大々的な発表があったにもかかわらず、少なくとも月曜日までの時点では、依然としてナンバーワンのモデルはOpenAIのGPT-4 Turboでした。そして、今やGPT-4oがすべてを打ち負かしています。
次に、このパフォーマンスに関する別のチャートをご紹介します。これはコーディングにおける性能を示しています。以前のモデルはわずかに改善された程度ですが、GPT-4oは他のすべてを凌駕しています。これは非常に印象的です。
コーディングに関するリアルタイムアシスタントも実演されました。背景を少し説明すると、コンピュータの画面にコードが表示され、右側にChatGPTの音声アプリがあります。ChatGPTは私の声を聞くことができますが、画面上のものを見ることはできません。コードをハイライトして、それをChatGPTに送信します。
「チャットGPT、今日はコーディングの問題を手伝ってもらえますか?」 「もちろんです。どんなコーディング問題ですか?」 「今コードを共有します。」 「了解です。どうぞ。」 「コードを共有しました。コードの概要を一文で説明してください。」 「このコードは特定の場所と期間の天気データを取得し、ローリング平均を使って温度データを平滑化し、結果のプロットに重要な天気イベントを注釈し、その年の平均最低・最高温度を表示します。」
このように、コードの視覚的な結果も解析できます。
「チャットGPT、今プロットを共有します。概要を一文で説明してください。」 「プロットは、2018年の平均最低・最高温度を表示し、9月下旬の大雨イベントを注釈しています。」
GPT-4oはリアルタイムでコーディングのサポートが可能であり、非常に高度なチェスパズルも解ける能力があります。これは非常に難しい問題であり、人間でさえ解くのが難しいものです。GPT-4oは他のモデルよりもはるかに高い精度で解けます。
また、リアルタイムの音声機能も非常に優れています。例えば、言語学習アプリ「Duolingo」は発表後に5%の株価下落を経験しました。GPT-4oは、テキストだけでなく、音声での対話や学習も可能です。
さらに、GPT-4oはポケモンレッドのゲーム全体をコマンドラインインターフェイスで再現することができます。これも非常に印象的です。
Nvidiaのジム・ファン博士は、GPT-4oについて興味深い洞察を述べています。彼によると、OpenAIは音声を直接音声にマップする方法を見つけ出し、リアルタイムで動画をトランスフォーマーにストリーミングする方法を開発したとのことです。これは、トークン化とアーキテクチャの新しい研究を必要としますが、全体的にはデータとシステムの最適化の問題です。
GPT-4oの他の機能も非常に印象的です。例えば、顧客サービスのシナリオをシミュレートすることもできます。GPT-4oは顧客サポートエージェントとしても非常に優れています。
さらに、GPT-4oは国際数学オリンピックの問題を一発で解ける能力も持っています。これも非常に印象的です。
このビデオのスポンサーはUpixです。Upixは、ワンクリックで高品質のリアリスティックな画像を生成するサービスを提供しています。これはデスクトップとモバイルの両方で利用可能です。
このように、GPT-4oは非常に多機能であり、さまざまな用途に使用できることがわかります。テキスト生成、画像生成、リアルタイムの音声対話など、多くの分野で革命を起こす可能性があります。
コメント