
8,957 文字
みなさん、こんにちは。このチャンネルへようこそ。わたくしZeb pattyがホストを務めさせていただきます。
OpenAIが新しいモデル、o1とo1ミニのプレビューをリリースしたんですわ。これらのモデルについて、なんでこんなに大騒ぎされてるんでしょうか?o1って一体何なんでしょう?
これらは新しい種類のモデルで、その名前は従来のGPTモデル、例えばGPT-4や将来のGPT-5なんかとは多くの点で異なることを強調するために付けられたんです。OpenAIのo1は、GPTファミリーの次のバージョンというわけやないんです。
つまり、今後OpenAIからは2つの異なるシリーズのモデルが登場すると予想されるわけですな。o1モデルと従来のGPTシリーズです。
OpenAIやAnthropicのClaude 3.5 Opus、GoogleのGemini 1.5なんかの他の大規模言語モデル(LLM)とは違って、o1シリーズのモデルはプロンプトに応答して数秒で何百文字もの文章を吐き出すようなことはしません。
o1は時間をかけて、人間のように考える過程を経るんです。人間は答える前に考えますよね。まあ、ほとんどの人はそうするはずですけどね。
o1シリーズは、「考えるモデル」と呼べる新しいモードのモデルを導入したんです。従来のLLMとo1の違いを、モデルがプロンプトに応答するモードを検証することで説明しましょか。
ご存知の方もおられるかもしれませんが、LLMは技術的には確率に基づいて次の単語を予測するだけのものなんです。LLMは考えません。大量のデータで学習して、文章の次の単語を予測するだけなんです。
だから、物語や詩、エッセイなんかのテキスト生成は得意ですが、数学や他の論理的なタスクは苦手なんです。
LLMが次の単語を予測する簡単な例を挙げましょか。「猫が座っている」という文があって、次に何が来るかわからないとします。
LLMは文脈と学習データに基づく確率を分析して、次に来そうな単語を予測します。アルゴリズムは確率分布を生成するかもしれません。例えば、「マット」が30%、「椅子」が25%、「窓枠」が20%、「屋根」が10%、というような感じです。
モデルは通常、最も確率の高い単語、この場合は「マット」を次の単語として選びます。だから、出力される完全な文は「猫がマットの上に座っている」となるわけです。
もちろん、これはLLMの仕組みを極端に単純化した例です。実際のLLMはもっと複雑な文脈を扱い、文章全体や段落を生成できます。また、もっと幅広い単語とその確率を考慮します。
でも、ご覧のように、そのアルゴリズムは文章の次の論理的な単語を予測するように設計されているんです。AnthropicのClaude 3.5 Opus、GoogleのGemini 1.5、GPT-4.0は全てこのカテゴリーのモデルに分類されます。
一方、OpenAIのo1シリーズは、GPT-4.0ができることを全てこなし、さらにそれ以上のことができるんです。実際に多少は考えたり推論したりできるんです。これが本当のブレークスルーなんです。
一部の人々はこのブレークスルーを、汎用人工知能の最初の火花と呼んでいます。汎用人工知能、略してAGIとは何でしょうか?
AGIは今のところ、人間と同じレベルで理解し推論する能力を持つ仮説的な種類の人工知能と考えられています。理論的には、AGIは人間の能力に匹敵する知的タスクを理解し、推論し、実行できると予想されています。
つまり、AGIは人間が想像できるあらゆる知的タスクを実行できるということです。
超高度なビデオゲームをプレイしているけど、操作しているキャラクターが本物の人間のように学習し、決断を下せるようなものです。AGIは、あなたと同じくらい賢いか、もっと賢いロボットやコンピュータープログラムのようなもんです。
チャンピオンレベルのチェスをプレイすることから、物語や音楽を想像して創造したり、映画を作ったり、コンピューターコードを書いたり、複雑な数学の問題を解いたりすることまで、何でも学習できるんです。
でも、AGIは実現できるんでしょうか?実現できるとして、どのくらい早く実現できるんでしょうか?
この両方の質問は科学界で激しく議論されていて、共通の見解はありません。意見が一致しない主な理由の1つは、AGIが実際にどのようなものになるかという定義にあります。
単に具現化の面だけでなく、能力、エージェンシー、自律的思考、活動の実行という面でも定義が曖昧なんです。
ある学派は、AGIを構成する主な指標は経済的影響と科学的影響だと考えています。私たちが望む全ての経済的利益を実現するために、具現化は必ずしも必要条件ではないということです。
OpenAIの界隈で受け入れられている考え方もあります。リモートワーカーを雇って、その人が人間と同じくらい優秀なら、それがAGIだという考え方です。
ここで重要な点を1つ挙げておきましょか。AGIという用語に関して意見の一致がないにもかかわらず、AGIが単一の点ではないということには同意があるんです。
これは道のりのようなものだと考えられています。まず新興AGI、次に有能なAGI、さらに達人レベルのAGI、最後に超人レベルのAGIというように想像できます。
そして、これらのレベルの間のどこかで具現化が現れるでしょう。ゴミ収集、建設作業、ライフガード、警察官、兵士などのタスクを自動化するためにね。そのために適切なアンドロイドやロボットが登場するでしょう。
しかし、当初のAGIは、クラウド上の膨大なデータセットとLLMにアクセスできる天才的なAIアルゴリズムの集合体に過ぎないでしょう。クラウドというのはデータセンターのことですね。
OpenAIは、AGIを最初に導入してこの分野を占有することを目指してきました。o1の開発において、OpenAIがAlphaOの結果と深層強化学習(RL)の可能性に触発されたという強力な証拠があります。
彼らはRLとロボット工学での素晴らしいスケーリングを目の当たりにし、非常に有能な人工知能を実現するために、一般的な領域で強化学習を実装する方法を見出したんです。
もちろん、彼らはすでにGPTパラダイムにおける監督学習のスケーリングで驚くべき結果を経験していました。そこで、これら2つの異なるパラダイムを1つに組み合わせたわけです。
この全ての取り組みは、Jacob Uscite、Shimon Whitson、Lucash Eliaらによる初期の探索から始まりました。彼らは強化学習、マルチエージェントシステム、適応型学習アルゴリズムの研究で有名です。
つまり、OpenAIはこれに長い間取り組んできたんです。そして、AGI開発競争が進行中だと考えられているので、全ての大企業が対応せざるを得なくなるでしょう。
OpenAIのQARに基づく「ストロベリー・プロジェクト」の噂が最近流れています。Q学習を用いたQARは、AIが人間の助けなしに完璧に数学の問題を解決するのを助ける天才的な方法です。
だから、OpenAI o1が数学に優れているのは驚くべきことではありません。Q学習の強化戦略は、正確な数学的問題解決におけるOpenAI o1の可能性を示しています。
最大規模のフラッグシップモデルのトレーニングを実行し、研究実験を行うための大規模で信頼性の高いインフラストラクチャを構築することに加えて、OpenAIには特別なことがあります。
それは、これらのモデルのトレーニングに必要な合成データの作成における進歩です。OpenAIは明らかに、膨大な量のデータを合成するために多額の投資をしました。
基本的に、はるかに高品質のデータでモデルを再トレーニングしたんです。だから、o1には損失関数の改善、注意ウィンドウの改善、データ準備の改善があるんです。
これらの全てが蓄積され、組み合わさって、o1を独特なものにしているんです。
ちょっと説明させてもらいますと、GPT-4.0などを使ったことがある人の中には、複雑なタスクや思考を必要とするタスクをGPT-4.0にもさせることができると主張する人もいるかもしれません。
それは部分的に正しいです。プロンプトの専門家で、GPT-4.0やClaudeなどの使い方を知っていれば、驚くべきことをさせることができます。
でも、1つ大きな違いがあります。OpenAI o1シリーズが1つの十分に考え抜かれた応答でできることを、従来のモデルでは恐らく何十ものプロンプトが必要になるでしょう。
これがアルゴリズムの進歩が重要な理由です。OpenAIのアルゴリズム進歩における天才ぶりは、o1シリーズでも示されています。
o1では恐らく3つの主要な技術が使われています。思考の連鎖、モンテカルロ木探索、そして反省です。これらは全て、言語モデルの振る舞いを形作るためのプロンプトや訓練のための異なる技術です。
各技術について説明する前に、推論の概念について説明しましょう。推論能力は、人間が持っているけど、これまでのAIは持っていなかった主要な能力の1つです。
自律的に機能し、知的な決定を下すことを可能にする能力です。推論の1つの考え方は、質問をして即座に答えが必要な時があるということです。
例えば、アメリカの首都は何かと聞かれたら、ワシントンD.C.だとすぐに答えられます。あまり考える必要はありません。
でも、複雑な数学の方程式を解きたい場合や、博士論文やフィクション小説を書きたい場合は、恐らくしばらく考えたいでしょう。そして、考えれば考えるほど、結果は良くなります。
つまり、推論とは、考える時間を私たちが行うどんなタスクでもより良い結果に変える能力なんです。
OpenAI o1は推論モデルです。だから、質問に答える前にもっと考えるんです。このモデルは非常に優秀で、しばしば人間よりも優れています。
後で見るように、複数の博士号を持つ人と同等です。また後で、この強力な能力自体が、モデルが制御不能になって意味のないことをするかもしれないという恐れから、その採用の障害や課題になる可能性があることについても触れます。
さて、思考の連鎖について話しましょう。これは、モデルが自分自身と対話し、より良い答えを提供するために必要な推論のステップや問題解決のステップを自分で歩むことを可能にする、モデルのトレーニングやプロンプトの方法です。
これは本質的に、AIに最終的な答えだけでなく、推論プロセスをステップバイステップで示すよう促すプロンプト技術です。
「考えながら話す」ことで、モデルはしばしばより正確で信頼性の高い結果を生み出します。特に、複数のステップの推論を必要とする複雑なタスクにおいてそうです。
人間は直感的にこの種の思考をします。今まで直面したことのない問題に直面したとしましょう。恐らく、まずは考える時間を取るでしょう。
あなたの思考は反復的なループに入り、すでに知っていることや、問題のどの部分がすでに馴染みがあるか、何が上手くいきそうで何が上手くいきそうでないかを精神的に評価するでしょう。これが本質的に、非常に高いレベルでの思考の連鎖推論なんです。
例えば、数学の問題に単に答えるだけでなく、思考の連鎖を使用するモデルは、計算の各ステップを書き出し、その論理を説明するかもしれません。
裏では多くのことが起こっています。可能性について考え、可能性をフィルタリングし、可能性を検証し、組み合わせ、コードの選択を評価し、答えに関連する他の多くのことを行っています。
これは正確さを向上させるだけでなく、モデルの推論をより透明で解釈可能にします。
実際、モデルにより多くの考える時間を与えることで、パフォーマンスを数桁向上させることができます。AI用語では推論時間計算とも呼ばれます。
繰り返しますが、この推論時間は基本的にモデルが実行されている時間です。単に直感的な反応に頼るのではなく、モデルは基本的にステップを考え、ステップを検証してから応答を与えます。
従来のLLMでは、このタイプのパフォーマンスを実現するには、自分でメガプロンプトを構築する必要があります。これは時間がかかるだけでなく、非常に面倒で、エラーが発生しやすいです。
しかし、o1では、この思考の連鎖推論がモデルにネイティブに組み込まれています。
次はモンテカルロ木探索(MCTS)です。これは元々、特にゲームプレイAIにおける複雑な領域での意思決定のために開発されたアルゴリズムです。
OpenAI o1の文脈では、MCTSは最も可能性が高いテキストの異なる可能な継続を探索するために使用され、モデルが次に計算したり言ったりすることについてより良い選択をするのを助けます。
基本的な考え方は、多くの可能な将来のシナリオ(例えば、会話がどのように進むかの異なる方法)をシミュレーションし、それらのシミュレーションを使って現在の決定に情報を与えることです。
これにより、より長いシーケンスにわたってより一貫性があり、目標指向の出力を生成するのに役立ちます。
最後に反省について触れました。これは、モデルが自身の出力を批評し改善するようにトレーニングする技術です。
このプロセスは人間の反省と自己改善を模倣し、モデルが外部からのフィードバックなしに自身の間違いを捉え、曖昧さを明確にし、応答の質を向上させることを可能にします。
2つのクラスのOpenAIモデルの主な違いは、o1が思考の連鎖推論をネイティブに備えた推論ベースのモデルであるのに対し、他の従来のモデルは難しいタスクを実行させるのに多大な努力が必要だということです。
先ほど、推論は人工知能がまだ持っていない人間の特性であり、その障壁が破られれば人工知能が人工汎用知能(AGI)レベルに引き上げられると言いました。
OpenAIの思考の連鎖推論とエージェント的思考におけるブレークスルーは、AGIへの大きな一歩です。
o1プレビューのリリースにより、私たちは基本的なレベルではありますが、人工汎用知能の領域に実質的に入ったと言えるでしょう。
2020年からGPT技術を使用しているチームがあり、非常に熟練した人々が多くの時間を費やして、今ではo1で1回のプロンプトで得られる結果を得ていたという報告があります。
このエージェント的ワークフローの革新のおかげですね。
さて、モデルの実際のパフォーマンスを本質的に評価するために使用されているいくつかのベンチマークについて見てみましょう。
MMLUは、Massive Multitask Language Understandingの略で、LLMでよく使われるベンチマークです。
このベンチマークでは、OpenAI o1は他の全てのモデルを凌駕し、その結果は博士レベルの人間を超えています。
今日まで、GPT-4.0、Claude 3.5 Opus、Meta 45bなどの最も強力なLLMのMMLUスコアは87から88の範囲で停滞していました。
しかし、OpenAI o1シリーズのMMLUスコアは驚異の92.3です。
約4年前、40パーセンタイルのスコアが最先端と考えられていました。世界で最も賢い人間を想像してみてください。
2020年にMMLUの統計を追跡していた人たちは、100点満点中90点を超えるスコアを達成するには約20年かかると推定していました。
しかし、ここにいる私たちは、スタートラインからわずか4年で92.3点です。驚くべき偉業です。
進歩を評価する1つの方法は、世界で最も賢い人間と比較することです。専門家は、世界中の最も賢い人間全員がMMLUを受けたら、約89%のスコアを獲得すると推定しています。
o1のベンチマークスコアは、このシリーズのモデルの非常に大きな可能性を示しています。
o1の実際の学術的、科学的、経済的影響は、多くの能力において人間と競合するか、あるいは凌駕しています。
報告されている1つの現実世界の例は、o1プレビュー(o1のプレビューモデル)が、以前は1年かかっていた論文全体を約1時間で完成させたというものです。
これが大きな進歩でなければ、何が進歩なのでしょうか。
とはいえ、o1が優れると期待できる即時の使用事例にはどのようなものがあるでしょうか?
まず、コーディング、デバッグ、科学および数学研究、実世界の問題に対するソリューションの作成に使用されることが期待できます。
様々な複雑な技術的主題について質問すればするほど、幻覚が少なくなり、これまでのどのモデルよりも上手くそれらの概念を説明できるため、教育や学習のための強力なツールになるでしょう。
また、最終的な答えを出す前に考えることができるため、アイデアをより上手く結びつけることができ、構造化されていない思考を合理化するための優れた思考パートナーとして使用したい人々に大いに役立つでしょう。
o1シリーズには、ブラウジング、ファイルのアップロード、コンピュータービジョン機能などの一部の機能が欠けていますが、最終リリースまたはそれほど遠くない将来のアップグレードでは、これらの機能や他の機能が提供され、特にビジネス部門の誰もがより使いやすくなると予想されます。
より楽観的な専門家たちは、OpenAI o1や将来のこの種のモデルにより、多くの人々が従来のフルタイムの仕事の代わりに自分のビジネスや小規模な会社を持つことができるようになると信じています。
これは、これらのモデルが問題を解決でき、まだ解決されていない問題が単純に多すぎるからです。
強力な思考の連鎖推論により、人々はビジネスプランやビジネス戦略から予算、運営、ワークフローまで全てを作成し、徐々にエージェントワークフローベースのAIアシスタントを構築して、ビジネスの大部分の平凡な部分を運営することができるようになるでしょう。
企業によるo1の採用はより大きな障害となる可能性があります。その理由は、企業は有名なリスク回避的であり、特にo1モデルの能力と強みを考えると、不適切に使用される可能性があるからです。
しかし、一旦運用部門がこれらの恐れを克服し、技術的にエージェントワークフローを格安で手に入れられることを認識すれば、より速い採用が見られるかもしれません。
賢い人間を雇って、ビジネスプランを書いたり、スプレッドシートを分析したり、監査を行ったり、ビジネス提案を読んで要約したりするのに、月額約1,000ドルで済むことはありません。
これはOpenAI o1がAPIとクラウドサービスへのアクセスに課金すると私たちが信じている価格です。
これは安くありませんが、Claude、Meta、Google、さらにはオープンソースモデルが思考の連鎖推論とエージェントワークフロー機能を導入すると予想できます。
そしてモデルが改善し続けるにつれて、完全なエージェントワークフローのコストは月額100ドルにまで下がる可能性があります。
最後に、締めくくる前に、AGIの具現化に関する議論に触れたいと思います。
AGIの観点から見て最も価値のあるタスク、例えば科学的モデリング、ソフトウェア開発、飢餓、病気、地球温暖化などの解決策の発見には、物理的な存在は必要ありません。
必要なのはAPIとデータセンターへの高速アクセスだけです。
しかし、物理的な性質を持つ多くのタスクにはロボットが必要になるでしょう。
その場合、ロボット工学とAIアプリケーションにまたがるAARの経路探索アルゴリズムの関連性が期待されます。これは意思決定プロセスのナビゲーションと最適化の重要性を強調しています。
QARとAARの経路探索能力、そしてo1のようなモデルの思考の連鎖推論を融合することは、具現化されたAGIにとって非常に妥当なシナリオに思えます。
多くの人々にとって、AGIが技術的に存在していても、本当にそれを信じるのは難しいものです。これは、人間のように振る舞い、人間よりも何かをうまくこなすロボットを見るまでは、人々がそれを体験できないからです。
今のところ、人間の器用さを持つロボットはまだありません。だから、少なくとも今後数年間は労働組合からの反発を心配する必要はないと思います。
結論として、AGIレースが過熱すると予想できます。もしまだ過熱していないとしてもね。
OpenAIのプロジェクトOrion(GPT Nextかもしれないし、GPT-5かもしれません)が年末までにリリースされるのを期待できるでしょう。
Anthropic、Google、Metaが予想よりも早く強力なエージェント思考・推論エージェントをリリースすることも期待できます。
もちろん、MistralやXIなどのオープンソースモデルもこのAGIレースで競争することが期待されます。
OpenAIによるo1シリーズの形での最初のAGIの火花は、間違いなく一連の発表の波を引き起こし、政府や規制当局による規制が強化される可能性が高いです。
これはAGIへの道の1つに過ぎないことを覚えておいてください。この道は、大規模言語モデル(LLM)に基づいており、通常、人間のフィードバックによる強化学習(RLHF)を使用して能力を洗練させるトランスフォーマーベースのアーキテクチャを使用しています。
人工汎用知能が近い将来の現実に近づくにつれ、他の種類の潜在的なプレイヤーについても聞くようになるでしょう。
例えば、Metaが開発しているYan LaKunの強化学習ベースのアプローチや、Versusが開発しているKarl Fristonのアクティブ推論の概念などです。
このビデオを楽しんでいただけたと思います。このような内容の動画をもっと見たい方は、ぜひチャンネル登録をお願いします。
ご視聴ありがとうございました。また次回のチャンネルでお会いしましょう。
コメント