
2,922 文字
たしかに、o3モデルの利用コストに関する文書があり、このグラフによると1ユニットあたりのコストが1000を超えています。このウェブサイトはArc Priceのもので、昨日アップした動画で触れましたが、これはo3とo3 miniの発表動画です。ここに映っているのがArc Price社の社長です。タスクを完了するのに3000数百ドルというのは、これらのモデルを使用する際の価格だと理解しています。
ここで確認しますと、OpenAIのo3は新しいモデルシステムで、公開トレーニングセットArc AGI 1で学習され、75.7という革新的なスコアを達成しています。また、計算リソース制限1000ドルの範囲内で、高リソース構成のo3は87.5のスコアを達成しました。
このグラフを見ると、o miniでタスクを完了するのは0.1ドル未満のようですが、プレビュー版では1ドルを超え、スコアは13%です。o1のlow、medium、highは、計算能力に応じて約5ドル前後です。そしてo3のlow tunet、o3 high tunetのバージョンでは、76のスコアを達成していますが、タスク解決には約30ドルかかります。しかし、このグラフでは、1000がここにあり、10000がここにあるとすると、タスク完了に3000から4000ドルかかることになり、これは信じられない金額です。1000ドル未満であれば問題ないと言っていますが、とんでもない金額だと思います。
これはAIの能力における驚くべき重要な進歩であり、これまでのモデルには見られなかったような新しいタスクへの適応能力を示しています。文脈として、タスク完了率が0%から5%に上がるのに4年かかったということです。AIの能力に関する直感は、これらの新しいモデルによって更新する必要があります。
このベンチマークの使命は単なるスコアを超えて、AGIへの指針となることを目指しています。来年には、人間にとって簡単でAIにとって難しい、同じフォーマットで検証された第二バージョンがリリースされる予定です。
このウェブサイトについて説明すると、基本的に入力と出力のセットが与えられます。人間はすぐにパターンを見つけることができます。ここの濃い青は、ここに空いているスペースに入れると、濃い青になります。同様に、この出力では2つの例があります。この場合は3つありますが、濃い青を3回入れているのが分かります。
面白いのは、このような例が与えられ、この部分を塗る必要があるということです。濃い青などを使って進めていきます。ご覧のように、このようなパターンの例がさらにあります。濃い青を入れると、オレンジで囲まれ、ここでも同じように、赤を入れるとこのように黄色で囲まれます。青が入っても問題なく、黄色が入っても同様で、ピンクでも同じです。これが与えられ、これを行う必要がありますが、AIにとってはかなり複雑なようです。この人々はこのアイデアを思いつき、それはかなり良いものです。
ここでは、半プライベートおよび公開評価の結果について述べられています。半プライベートセット、タスク、効率性についてです。スコアの結果を見ると、リテールコストは6000、トークン消費量は3300万、57億、1億1100万、タスクあたりのコストは20、17となっています。
これがAGIかどうかについて、少なくともこの企業の所有者たちの観点から見てみましょう。これは重要な参照点として機能し、このような進歩を確認するためのものです。より要求の少ないベンチマークでは示せない生成能力を強調していますが、このような試験がAGIの決定的な証明ではないことは重要です。私たちが何度も繰り返してきたように、これは基本的に研究ツールです。AGIという名前を付けたのは、それが今年のキーワードだからですが、パターンの検出を始める必要がある直感を示すため、研究ツールとしては悪くないアイデアだと思います。
これはAIの未解決の最も困難な問題に注意を向けるために設計された研究ツールです。第二段落を見ると、このテストに合格してもAGIの達成とは同じではなく、実際、o3はAGIではないと思います。これは明確です。単なる名前であり、マーケティングです。さらに、最初のデータは、次のベンチマークが依然として重要な課題となり、スコアが30%未満に低下する可能性があることを示唆しています。
つまり、法則があれば抜け道もあるということです。以前は、人間にとってはこのようなパターンのルールを見つけるのは非常に簡単ですが、人間でない存在にとっては簡単ではありませんでした。ご覧の通り、これは非常に簡単で、一目でわかります。すべてが下に配置され、2つある場合は2つ同じように、ここではすべて下に、これが下に移動します。人間はパターンを簡単に検出できますが、このタイプのAIはパターンを見つけるのに時間がかかります。
さらに読み進めると、o3が以前のモデルと比べて何が異なるのかについて書かれています。基本的に、o1がGPT-4よりもはるかに高いスコアを獲得しているため、より高いスコアを獲得していると述べています。これらの結果は、私にとって価値のあるデータを提供していると思います。つまり、今後はこのようなパターンやロジックで学習させれば、トレーニングデータにそれがあれば、より早く解決できるようになるでしょう。これで学習していなければ、出力で何をすべきかを理解するのはほぼ不可能だったでしょう。これにより、すべてがより簡単になっていくのが分かります。
また、LLMの精神モデルがベクトルプログラムのリポジトリとして機能し、入力を受け取ると、メッセージに最も似たプログラムを探してそれを提供されたデータで実行すると述べています。これは良い説明だと思います。LLMは、人間が生成したコンテンツへの受動的な露出を通じて、何百万もの有用なミニプログラムを格納して操作する方法です。
この記憶、検索、適用のパラダイムは、適切なトレーニングデータセットがあれば、任意のタスクで任意のレベルのスキルを達成できますが、リアルタイムで新規性に適応したり新しいスキルを習得したりすることはできません。つまり、流動的な知性は関与していません。これは、このベンチマークの例で示されています。このタイプの適応性を測定するために特別に設計された唯一のベンチマークです。GPT-3は0%、GPT-4も0%を獲得しました。ここに示されているように、GPT-4は5%を獲得しましたが、これはこの種のトレーニングが含まれていたからだと理解しています。結局のところ、記憶、検索、適用です。
この場合、これらを可能な限り拡張しても、これで学習していなければAGIの数値を達成するのは難しいでしょう。非常に興味深いです。この組織の社長がこれを自社のページに掲載し、このタイプのタスクを解決するのにこれほどの価格がかかるとは驚きです。まさに狂気の沙汰です。
いつも通り、動画が気に入っていただけたら、いいねとチャンネル登録をお願いします。
コメント