
8,886 文字

ボブ・マグリュー: はい、私はボブ・マグリューです。OpenAIの研究チームを率いております。今回、新しいモデルシリーズのo1とo1 miniのプレビューをリリースしまして、非常に興奮しております。チーム全員でこれらについてお話しさせていただきます。
o1とは一体何なんでしょうか。新しいモデルシリーズを「o」という名前で始めることにしました。これは、GPT-4oなどの以前のモデルと比べて、oを使うときに違いを感じていただけるということを強調するためです。後ほど他の人が説明しますが、o1は推論モデルです。つまり、質問に答える前により多くの思考をするんです。
o1プレビューとo1 miniという2つのモデルをリリースしています。o1プレビューはo1の今後の展開を予告するもので、o1 miniはより小さく高速なモデルで、o1と同様のフレームワークで学習されています。新しい命名方式のo1を気に入っていただければ幸いです。
そもそも推論って何なんでしょうか。推論を考える一つの方法は、質問に対して即座に答える必要がある場合と、じっくり考える必要がある場合があるということです。例えば、イタリアの首都は何かと聞かれたら、すぐにローマと答えられますよね。あまり考える必要はありません。
でも、複雑なパズルを解いたり、優れたビジネスプランを書いたり、小説を書いたりする場合は、しばらく考えたいと思うでしょう。そして、考えれば考えるほど、結果は良くなります。だから、推論とは、考える時間をかけることで、どんなタスクでもより良い結果を生み出す能力なんです。
このプロジェクトにはどれくらい取り組んでこられたんですか?
OpenAIの初期段階で、私たちはAlphaGoの結果と深層強化学習の可能性に非常に刺激を受けました。そこで、深層強化学習の研究に力を入れ、DQAやロボティクスでの素晴らしいスケーリングを目の当たりにしました。そして、非常に有能な人工知能を実現するために、一般的な領域で強化学習をどのように行うかを考えていました。
その後、GPTパラダイムにおける教師あり学習のスケーリングの驚異的な結果を目にしました。それ以来、この2つの異なるパラダイムをどのように1つに組み合わせるかを考え続けてきたんです。
この取り組み全体が始まった正確な時期を指摘するのは難しいですが、ヤコブとシモンによる初期の探索、ルカシュとイリヤによる初期の探索がありました。そして、ジェリーとの協力で物事を統合し、この大規模な取り組みを構築したのも重要な瞬間でした。
長い間取り組んできましたが、研究で本当にクールなのは、あの「アハ!」の瞬間です。驚くべきことが起こり、物事が本当にうまくいく特定の瞬間があるんです。皆さんにとって、そんな「アハ!」の瞬間はありましたか?
GPT-2、GPT-3、GPT-4を学習させたとき、最初のモデルが出来上がって会話を始めると、みんなが「わぁ、このモデルすごいやん!」って言い始めたんです。学習プロセスの中で、これまで以上の計算能力を投入して、最初のモデルが一貫した思考の連鎖を生成し始めたとき、「おっ、これは今までとは明らかに違うものや」って感じました。これが私にとっての「アハ!」の瞬間でしたね。
推論のためのモデルを学習させる際、すぐに思いつくのは、人間に思考プロセスを書いてもらってそれを学習させることです。でも、強化学習を使ってモデルに自分で思考の連鎖を生成し、磨きをかけさせると、人間が書いた思考の連鎖よりもさらに良い結果が得られることがわかったんです。これが「アハ!」の瞬間でした。この方法で本当にスケールアップでき、モデルの推論を探求できるってことがわかったんです。
私がここにいる間、ずっと数学の問題をより上手く解けるようにモデルを改良しようとしてきました。たくさんの作業をして、いろんな方法を考え出しましたが、モデルの出力を読むたびにいつもイライラしてたんです。モデルが間違いを疑問視したり、自分のミスに気づいたりすることがなかったからです。
でも、この初期のo1モデルの1つを学習させて実際に対話を始めたとき、数学のテストでより高いスコアを出し始めました。その推論過程を見ると、モデルが自分自身に疑問を投げかけ、本当に興味深い内省をしているのがわかったんです。これが私にとっての「アハ!」の瞬間でした。「わぁ、何か新しいものを発見したな」って。これは新しい何かになるぞ、って。本当に力強い、あらゆるものが一つになる瞬間でした。
モデルの思考を読むとき、人間を見ているような感じがしますか?それともロボットを見ているような感じですか?
まるで精神的な体験みたいなもんです。でも、モデルに共感できるんです。「あぁ、これは多くの人がしそうな間違いやな」とか、一般的な常識に疑問を投げかけてるのが見えたりして。精神的な体験やけど、その振る舞いが不思議と人間らしいんです。
モデルに限られた思考時間しか与えられてない場合、タイムアウト直前に「もう終わらなあかん!」って感じで「ここが答えや」って出すのを見たときも、結構クールでしたね。
私は若い頃、競技数学に夢中になってて、それがAIに興味を持つきっかけになったんです。この過程を自動化しようと思ったんですね。だから、モデルが実際に私が問題を解くときとほぼ同じステップを踏むのを見るのは、本当に大きな感慨深い瞬間でした。全く同じ思考の流れというわけじゃないですけど、すごく共感できるんです。
これらのモデルが工学や科学を本当に進歩させる境目に立っていると信じられるのも、すごくクールです。私たちが専門家と呼べるような難しい問題を解いているように見えるなら、他の専門家にとっても難しい問題を解決し、科学を前進させることができるかもしれません。
素晴らしい瞬間や、すべてがうまくいった時のことについて多く話してきましたが、実際に困難だった部分や、うまくいかなかった場面はありますか?
大規模なモデルを学習させるのは根本的にすごく難しいことなんです。何千もの間違いが起こる可能性があって、実際に何百もの間違いが毎回の学習で起こりました。ここにいるほとんど全員が、これらのモデルを学習させ、どうやって学習を継続させ、改善の道筋を見つけるかということに、本当に血と汗と涙を注いできたんです。
成功への道のりはとても狭くて、失敗の道は数え切れないほどあるんです。例えば、月や惑星にロケットを打ち上げるのを想像してみてください。角度が1つでもずれたら目的地に到達できません。それが私たちの仕事なんです。
モデルは非常に優秀で、しばしば人間よりも優れていて、複数のPh.D.相当の知識を持っています。これが時には課題になることもあります。モデルが常軌を逸していないか、何か非常識なことをしていないかを確認するのに、真剣な時間がかかることがあるんです。
モデルをスケールアップするにつれて、業界標準の評価指標をすべて飽和させてしまい、次に何を探せばいいのかわからなくなることもありました。これも課題の1つです。
でも、これらの問題に直面することも、ある意味で達成感につながっています。新しいパズルに出会うたびに、このチームが乗り越えるべき新たなハードルになるんです。私たちが乗り越えてきた小さなハードルの1つ1つを本当に誇りに思います。
モデルをテストする方法はどんなものがありましたか?モデルが改善されたのを見て、お気に入りの質問はありましたか?
「イチゴには何時間ありますか?」という質問があったんです。なぜかGPT判定では、この質問に確実に答えられなかったんですが、o1は1年半の作業を経て、今ではイチゴの中の時間を数えられるようになりました。あれをハードコーディングしておけばよかったですね(笑)。
私には、Twitterを見ていて「大規模言語モデルはこれができない」という投稿を見つけたら、それをコピーペーストして、私たちの大規模モデルがそれを確実にできることを確認する癖があります。他の人もそうしているようですね。
ユーザーがモデルをどのように使えるかイメージしやすいように、o1をどのように使っているか教えていただけますか?
私はo1をコーディングに使っています。仕事の大部分がコーディングなので、問題定義により焦点を当てるようになりました。テスト駆動開発と呼ばれる方法を使っていて、機能を実装するコードを書く代わりに、正しい振る舞いを指定するユニットテストを書くことに集中しています。
そして、それをo1に渡して実際の実装をさせるんです。こうすることで、高レベルの問題、つまり何が重要で、どんな問題を解決すべきかに集中できます。これは私の作業方法を大きく変えました。
デバッグの分野でも役立っています。エラーメッセージが出たら、そのままo1に渡すんです。時には即座に解決してくれますし、そうでなくても少なくともより良い質問の仕方や問題の考え方を提供してくれます。これは本当に重要な変化で、他の人にも役立つと思います。
私はo1を学習のためにどんどん使うようになりました。複雑な技術的な主題について質問すればするほど、以前のモデルよりも幻覚が少なく、概念をより良く説明してくれることに気づきました。
私はo1をブレインストーミングのパートナーとして使うのが好きです。具体的な機械学習の問題の解決方法から、ブログ記事やツイートの書き方まで、何でも相談できます。
例えば、最近、言語モデルの評価についてブログ記事を書いたんですが、記事の構成のアイデアや、特定のベンチマークの長所と短所、さらには文章のスタイルについてもo1に相談しました。最終的な答えを出す前に考えることができるので、アイデアをより良く結びつけたり、候補となるアイデアを修正したり批評したりすることができるんです。
短いテキストをより創造的に、全く違うものにしたい場合にも、o1は素晴らしい使い方ができます。「5つの異なるアイデアを出して」と言えば良いんです。また、まとまりのない考えがある場合も、優れた思考のパートナーになります。
いくつかのアイデアがあるけど、「これらをどうつなげればいいか」「何が足りないか」といった場合、o1の最終的な回答やその思考プロセスを読むことで、はるかに良い結果につながることがあります。
私は、内部の秘密のアイデアをたくさん試してみました。o1は実際にそれらを改善しようとしてくれるんです。
単独のプロジェクトには本当に素晴らしいですね。例えば、GitHubのプラグインを追加する必要があったんですが、私はGitHubプラグインの追加について何も知りませんでした。でも、「PRについてこの情報とあの情報を表示するGitHubプラグインが欲しい」と言うだけで、コードを生成してくれたんです。「このコードをどこに貼り付ければいいの?」って聞いただけで、「ここに置いてください」って教えてくれました。すごく簡単でした。
多くの人にとって、本当のAGI(汎用人工知能)を実感するのは難しいと思います。自分が本当に大切にしている分野で、モデルが人間よりも優れた能力を発揮するのを目の当たりにするまでは。囲碁や将棋のプレイヤーにとっては数年前にそれが起こったでしょうが、数学やコーディングを重視する私たちにとっては、今まさにそれを感じ始めているところです。きっと、私たちの母親も誇りに思ってくれるでしょうね。
このプロジェクトの中で、本当に必要だったけど、人々があまり気づいていないかもしれない重要な部分はありますか?
大規模で信頼性の高いインフラを構築することは、最大規模の主力モデルの学習実行や研究実験を行うために不可欠です。研究自体ほど刺激的ではないかもしれませんが、絶対に必要なことで、プロジェクト全体の成功に大きな影響を与えています。
OpenAIの研究組織の特別なところは、アルゴリズムの進歩と、信頼性の高い大規模システムの構築、そしてモデルの学習に必要なデータの構築を同じように重視していることです。私はOpenAIのそういうところを本当に誇りに思っています。
これは私たちの大きなプロジェクトの多くで一貫したパターンになっています。新しいものを1桁スケールアップするたびに、アルゴリズムとインフラの両方で新たな問題が山のように出てきます。私たちは両方を集中的に進歩させる能力を確実に築き上げてきました。
最終的なモデルは文字通り美しい芸術作品のようなものです。それを機能させるためには、すべてのステップが正しく動作することを確認しなければなりません。何か課題を見つけたら、それを解決するんです。それがOpenAIの運営方法だと思います。ここで働けることを本当に誇りに思っています。
また、ここには本当に優秀な人たちがいるだけでなく、心の優しい人たちもいます。一緒にコーディングしたり、お昼を食べたり、モデルと話をしたりできる同僚たちに感謝しています。
ストロベリーチームで働くのはどんな感じですか?
素晴らしいアイデアを持つこともできますが、ほとんどの時間は、そのアイデアを実行したり、実行に失敗したりすることに費やします。最後に失敗したことについて助けを求められる人が近くにいるのは本当に良いことです。ほとんどの時間は、うまくいかなかったことをデバッグすることに費やすからです。
この問題のデバッグを1週間も続けていて、たまたま通りかかった人に聞いたら、すぐに解決してくれたということが何度もありました。それを「Wの祝福」と呼び始めて、人々を「祝福」するようになったんです。これは本当に効果的で、「これは聞くには愚かすぎるかな」なんて考えるのをやめて、すぐに聞くようになりました。
OpenAIで働いていて本当に良いと思うのは、このような大きなプロジェクトから本当に学べることです。DQAからはエンジニアリングの重要性を、GPT-4からは研究の重要性を学び、このように繰り返し学んでいます。
その効果として、ストロベリーチームは再び最高の大規模研究プロジェクトチームになっています。これまでのプロジェクトから学んだすべてのことの上に構築されているからです。ここで本当にそれが機能しているのが見てとれます。
人々は本当に良い直感を発展させ始めています。例えば、いつ何かをハックするべきか、いつより強力な基礎を開発する必要があるのか、いつ徹夜するべきか、いつ実際に週末を休んで新鮮な気持ちでその特定の問題に取り組むべきかなどです。会社として私たちが進歩していくのを観察するのは本当に素晴らしいことです。
私が好きなのは、このプロジェクトがどれほど有機的に感じられたかということです。アイデアは文字通りこのチームのあらゆる場所から出てきました。そして、人々は「ここに私が本当に信じているアイデアがある」と言って、それを推し進める力を感じています。
また、みんなが喜んで手を汚す覚悟ができています。多くの締め切りがあり、中には自分たちで課したものもありましたが、私たちは本当に団結して、それを実現するために必要な仕事をする意欲がありました。
このプロジェクトは、モメンタムの力を本当に示しました。最初に良い結果が出て、特定の分野や特定の研究にどんどん多くの人が興奮し、新しいアイデアを貢献しようとします。そのアイデアがさらに良い結果を生み、そしてそれがどんどん雪だるま式に大きくなり、より多くのモメンタムを得ていきます。人々はこれが正しいことだと信じ、この研究を続けるべきだと思うようになるんです。
関連して、私たちには非常に賢い人々がたくさんいますが、同時に非常に意見の強い人々もいます。でも、反対の結果を目の当たりにすると、みんな喜んで意見を更新する準備ができています。それが物事を本当に楽しくしているんだと思います。
素晴らしい科学者やエンジニア、そして信じられないようなシステムを構築できる人々の組み合わせの場所にいるのは、とてもクールです。本当に謙虚な気持ちになります。
数ヶ月前、モデルはとても賢かったけど、ちょっと退屈だったのを覚えています。モデルにパーソナリティを与えるのはどんな感じでしたか?
そうですね、面白いことがありました。モデルに人生の意味について尋ねたら、「42」という答えが返ってきたんです。まあ、悪くない答えですよね(笑)。
そして、「愛とは何か」と聞いたら、「ああ、それは奇妙な人間の感情です」みたいな答えが返ってきました。でも、実際にモデルにパーソナリティを与えて、チャットで動作するようにしたら、答えがかなり面白くなりました。
その日、愛について聞いたら、「ロマンティックな愛、家族愛、自己愛、無条件の愛、条件付きの愛がある」などと教えてくれました。より有用で、より楽しくなったんです。
一番面白かったのは、全く同じ質問をしたのに、代数学を使って愛を定義しようとしたときです。
o1 miniの話をしましょう。それはどのように生まれたんですか?
動機は、oシリーズをより広い層に、はるかに低いコストで提供することでした。そこで、o1パイプライン全体のフレームワークを最小限に実証するo1 miniを作りました。
推論の専門家として設計し、必ずしも私たちのお気に入りの有名人の誕生日を知っているわけではありませんが、本当に効果的に推論する方法を理解し、多くの知性を持っています。
モデルは実際にとても賢いんです。強化学習に関しては以前の最高モデルよりずっと賢く、また、最高モデルのo1とほぼ同等です。でも、コストと待ち時間のほんの一部で済みます。
科学や技術に関係のない外部の知識をあまり知らないという制限はありますが、以前の最高のミニモデルであるGPT-4oミニとほぼ同等になるよう努めました。さらに改善を続けているところです。
外部のユーザーの皆さんに、この推論と思考の稲妻のような体験を試していただけることを本当に楽しみにしています。
研究をする動機は何ですか?
この世界には知性と推論を行うことができるものがあり、それらは思っているよりもずっと小さくて、異なる方法でこれを行うことができるという事実が本当に魅力的です。
人生の良いものには時間がかかるものです。私たちのモデルは答えを出すのが速すぎる傾向があります。最終的には、例えば何ヶ月も何年も研究できるモデルを持ちたいと思っています。これは、1つの問題について非常に長く考えることができるモデルへの最初の一歩だと感じています。
今は数分のレベルですが、これは月単位や年単位で考えることができるモデルへの長い道のりの最初の一歩だと思います。時間が経つにつれて、そうなっていくことを願っています。
少数の人々と一緒に、世界に実質的なプラスの影響を与えることができるのは、非常に意味のあることだと感じます。また、日々の仕事が楽しいんです。コンピューターと話すのが好きだし、クラスターでジョブを開始するのが好きです。そして、コラボレーションを本当に楽しんでいます。単純に美しいんです。
私は本当にモデルに役立ってほしいと思っています。技術には人間の生活を改善するチャンスと約束があると思います。モデルに推論能力を与えることで、これまでできなかったことを私たちのためにしてくれるようになります。日常の問題を助けてくれて、私たちがより生産的に時間を過ごせるようにしてくれるんです。これについて本当にわくわくしています。
これらのパラダイムは、モデルが以前にはできなかったことを可能にします。単にいくつかのクエリにもう少し上手く答えるだけでなく、計画や誤り訂正を通じて、新しい能力を引き出すところまで来ているんです。
科学や発見のために新しい知識を生み出す能力は、最も刺激的な部分の1つだと思います。短期間のうちに、それ自身の開発にますます大きな貢献をする、あるいは貢献者になっていくと思います。それは本当にエキサイティングな領域です。
チームの中には、過去に数学やコーディングのオリンピアドに参加した人もいて、自分たちが最も得意とするシステムを打ち負かすシステムを作ることに大きな個人的なモチベーションがあります。
また、JTやリアムが指摘したように、推論は人々が信じている以上に強力な原始的な能力だと思います。タスクを確実に達成することを考えると、その基本的な能力は推論でなければなりません。ボトルネックに直面し、それを乗り越える方法を見つけなければならないからです。その未来に本当にワクワクしています。
AI研究者の仕事は、より多くの計算能力を投入する方法を見つけることです。ハードウェアの人々は長い間非常に良い仕事をしてきて、コストは指数関数的に下がっています。私たちには、より多くの計算能力を投入する別の方法を見つるための時間があまりありません。
それは私の肩にのしかかる重みがどんどん大きくなっているような感じです。この新しいパラダイムは、おそらく長い間その重みを軽くする方法を見つけたんです。
このプロジェクトを進めてきた中で、他に何か気づいたことはありますか?何か言及する価値のあることはありますか?
興味深いメタな観察として、私たちが学習させる毎回のモデルが少しずつ違うということがあります。それぞれ独自の癖があって、まるで職人技のようなんです。
こんなにたくさんの異なるタスクをこなせるモデルを見ると、学習させる度に全く同じパフォーマンスにはなりません。あるタスクではより優れていて、別のタスクではそうでもないかもしれません。
そこには、各モデルのユニークな個性のようなものがあって、それが少し美しいんです。
ありがとうございます。そして、リリースおめでとうございます。
コメント