OpenAIが早期にO1をリリースした…

3,892 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

ほな、OpenAIが昨日、O1モデルを完全版でリリースしてもうたみたいやね。これは明らかにミスやったんちゃうかなと思うんですわ。今現在、O1モデルについてご存知の方もおられると思いますが、これは応答する前に考えるモデルなんです。今のところ、完全版のO1モデルにはアクセスできへんかって、O1プレビューという簡略版だけが使えたんですけど。
これがなんで大きな違いかというと、O1プレビューと本来のO1を比べると、あらゆる面でO1の方が圧倒的に優れとるんです。だからこそ、O1のリリースは機能面で大幅なアップグレードになるはずで、それゆえに私はこれがミスやったんちゃうかなと考えてるわけです。
信じられへん方のために、具体的に何が起こったのか、そして私がどうやってこのモデルを使って、どんな応答を得たのかをお見せしますわ。
まず最初に「O1ファーストコンタクト」というツイートがありまして、これは私とjcraft39によるものでした。この時点では何を見てるのかよう分からへんかったんですけど、このツイートを確認してみようと思いまして、そこで興味深いことに気づいたんです。
ユーザーがチャットGPTに単純なBingのチャットの画像を入力して、それを説明するように求めたんです。そしたら更に面白いことに「7秒間画像の説明について考えました」という応答があったんです。これは完全版O1モデルが画像編集機能を持ってることの証明になりますわ。
このユーザーは画像について数秒間考えることができるO1タイプのモデルと対話できたわけです。私も同じことをやってみて、すぐにお見せしますけど、これが全く異なるモデルやったことが分かりますわ。
彼がこれを投稿した後、さらに別の投稿で異なるベンチマークでモデルをテストしました。シンプルベンチのサンプルでテストしようということになったんです。シンプルベンチについてご存知ない方のために説明しますと、これはAI Explainedが作成した推論ベンチマークで、ほとんどの人間が正解できる超シンプルな質問を集めたものです。人間の平均正答率は93%から96%くらいなんですが、GPT-4やClaude 3.5 Sonnetのような高度な推論モデルでもこれらの質問に失敗することが多いんです。
ただ、新しいパラダイムのモデルをテストすると、結果が大幅に改善されてきてるんです。この完全版O1モデルに対する質問はこんな感じでした:「ジャグラーが青い球を1メートル上に投げ、同じサイズの紫の球を2メートル上に投げます。その後、彼女は高いはしごの一番上まで登り、頭の上に黄色い風船を慎重にバランスを取って載せています。紫の球は青い球と比べてどこにある可能性が最も高いでしょうか?」
正解は「青い球と同じ高さ」なんです。そして私たちが見た応答は興味深いものでした。完全版O1モデル、つまり私がお見せした、テスト結果でもっと多くの点数を取るモデルは、これを正しく答えられたんです。「青い球と同じ高さ」と答えたわけです。
一方で、O1プレビューと比較すると、答えが間違ってるんです。「青い球の上」という完全に間違った答えを出しました。このように、O1は合格したのに対して、O1プレビューは何度試しても一貫して失敗したんです。
さらに、裏側では実際に使用してるモデルを確認することができまして、そこには「O1は最も能力の高いモデルで、創造性と高度な推論を必要とするタスクに適しています」と書かれてました。これは結構すごいことです。なぜかというと、これらのモデルが人間のような推論の上限に近づくにつれて、AIの面で本当の指数関数的な進歩が見られるだろうというのが多くの人の推測やったからです。
このモデルがこの質問に正解したという事実は、O1が当初考えられていたよりも少し強力やということを示してるんです。次に私がTwitterで見たのは、OpenAIのウェブサイトのコードを定期的にチェックしてリークを見つけるT.blahoという人が、O1に新しい機能、つまり画像分析機能があることを発見したということでした。
これは特に興味深いですわ。というのも、数日前にSam Altmanがその分野での急速な進歩を期待してると言うてたからです。「新しい推論時間のパラダイムで視覚機能はどのようにスケールするのでしょうか?」という質問に対して、「ネタバレはしたくありませんが、画像に関して急速な進歩が期待できます」と答えてました。これは少し意味深な発言でしたね。
つまり、もしかしたら来週にも画像分析機能が追加される可能性があるということです。信じられないくらい早いペースですけど、彼らはすでにこれを実装できたみたいです。
コードを見ると、「最も能力の高いモデルで、創造性と高度な推論に適している」というタグがA1についてるのが分かります。さらに、マルチモーダルの添付タイプと、画像タイプとしてPNG、WebP、GIFが受け入れられることも確認できました。つまり、これらの画像を分析できるということです。
私自身もこれをテストしてみたかったんです。その時点ではまだ少し懐疑的でした。Twitterではときどきデマみたいなうわさが流れることもあるんで、フェイクには注意せなあかんからです。けど、彼らが言うてたOpenAIのリンクを入力してみました。
最初はかなり懐疑的で、「あなたは何ですか?」という最初のメッセージを入力しました。数秒間考えた後に応答がありましたが、どのモデルかは教えてくれませんでした。でも、thinking modelと対話できるかどうかを確認して、画像を入力してみたかったんです。
そこで「これを説明してください」と入力しました。これは別の動画用に作成してた Vision Transformer の画像です。このモデルがこの画像を受け入れられるなら、その人たちが真実を語ってた可能性が高いと思ったんです。
そしたら案の定、「この画像の説明について数秒間考えました」という応答が返ってきました。これで彼らが実際にO1をリリースしたことが確認できたんです。これがどうやって起こったのかは分からへんのですが、このモデルと会話できるリンクが単純にクリックできる状態でありました。
ここに書かれてるように、Vision Transformerのアーキテクチャについて、パッチ埋め込み、クラス埋め込み、Transformerなどを示す図の説明が詳しく書かれてます。下にスクロールすると、このVision Transformerの詳細な説明が全部書かれてるんです。
ChatGPTの応答と比べたら、これはもっと詳細な説明になってるように思います。これらのVisionモデルがどれくらい優れてるのかは完全には把握できてませんが、O1の新しい画像推論機能の比較テストができた人の例を見せたいと思います。
Anna GHというユーザーが、左側にO1モデル、右側にGPT-4の推論を並べて比較することができました。これは私も気づいてたらよかったんですけど、その時は動画を作ってて忙しかったんです。彼はインターネットでよく見かけるこんな質問をしました:「この写真には何個の三角形がありますか?」同じ質問をGPT-4にも並行して投げかけました。
画像が入力されると、これらのモデルが画像について推論を始めます。ちなみに、この答えが気になる方のために言うておきますと、正解は24です。これが可能な三角形の組み合わせの全てです。
そして、GPT-4は素早く推論しましたが、答えを間違えて19と出力しました。一方、左側のO1は画像を分析し、パズルのピースを組み合わせ、この画像のさまざまな要素を特定していきます。
興味深いことに、残念ながらO1もこれを間違えたと思います。なぜかは分かりませんが、この質問は多くの人が思うよりもずっと難しいんだと思います。ただ、この動画から見える面白いことの一つは、画像を分析する際にどれだけ多くのことができるかということです。
三角形の分解、ピラミッドの分析、パターンの検証、図形の解読、プロセスの分解など、画像機能でできることが山ほどあるんです。O1モデルの背後にどんな画像機能があるのかは分かりませんが、かなり高度なものであることは明らかです。
実際のモデルの応答を得る前に、約1分30秒ほど考えていたと思います。その後、応答が得られ、三角形の数について24、25、27という答えが出て、最終的に27という応答になりました。これはかなり間違ってます。
ただし、「このようなパズルでよく引用される数字は27です」と述べています。つまり、思考プロセスでは正解に近づいていたにもかかわらず、一般的に参照される答えを引用してしまったようです。これは少し変な話ですが、画像に関して高度な推論能力があることを示してると思います。
これら全てが1日か1週間早くリリースされたということは本当に驚くべきことです。Sam Altmanは最近、O2モデルやO1モデルについて次々とヒントを出してきてます。彼は「完全版O1を解き放て」と言い、「そう長くはかからないはず」と答えています。
つまり、来週にはO1モデルが公開される可能性が高そうです。「そう長くはない」という返事をしたことと、開発者デーでのインタビューで画像推論機能について語ってたことからも分かります。AIにおける画像は過小評価されがちですが、実は驚くべき可能性を秘めてるんです。

コメント

タイトルとURLをコピーしました