
9,213 文字

みなさんこんにちは、私はMarkでOpenAIのリサーチを率いています。昨日、私たちはO1のプレビューを終了し、ChatGPTでローンチしました。まもなくAPIでもローンチする予定です。O1についてご存知ない方のために説明すると、これは私たちの最新のモデル改良シリーズで、モデルが応答する前にしばらく考えることができるようになっています。
本日、私たちは非常に興奮してモデルカスタマイズプログラムにおける最新の進歩をプレビューします。これによりユーザーは自身のデータセットでO1を強化学習によって微調整できるようになります。これは標準的な微調整ではなく、私たちが高校上級レベルから専門家のPhDレベルへと進化させた強化学習アルゴリズムを活用するものです。
これは来年パブリックにローンチする予定のものをプレビューすることを強調しておきたいと思います。もし大学関係者や研究者、企業の方であれば、後ほど私たちのアルファプログラムへのアクセス方法についての情報をお伝えします。
なぜこれが必要なのでしょうか?これにより、あなたのゴールデンデータセットを、ユーザーや顧客に対して私たちと同じような魔法をかけるユニークなオファリングに変えることができます。それでは、John、Julie、Justinに少し話してもらいましょう。
John: はい、みなさんこんにちは。私はJohn Allardで、OpenAIのエンジニアです。
Julie: みなさんこんにちは、私はJulie Wで、OpenAIの研究者です。
Justin: 私はJustin Reeで、Berkeley Labの計算生物学者です。
John: 本日、私たちはO1シリーズのモデルに対する新しいモデルカスタマイズの方法、強化学習による微調整(RFT)を紹介できることを大変嬉しく思います。初めて、開発者、研究者、機械学習エンジニアが強化学習を使用して、特定のタスクで優れた性能を発揮できる専門家モデルを作成することができるようになります。AIモデルに深い専門知識を必要とするあらゆる分野が恩恵を受けると考えています。法律、金融、エンジニアリング、保険などの分野で働いている方々、これはあなたのためのものです。
例えば、最近私たちはThomson Reutersと提携して、強化学習による微調整を使用してO1 miniを法務アシスタントとして微調整し、彼らのco-counsel AIに組み込みました。このツールは、法務の専門家が最も分析的なワークフローを達成するのを支援します。
Julie: 昨年初めにローンチした教師あり学習による微調整APIをご存じの方もいらっしゃるでしょう。教師あり学習による微調整は非常に強力で、入力テキストや画像に見られる特徴をモデルに複製させようとするものです。これは、モデルのトーンやスタイル、応答フォーマットを変更したい場合に最適です。
強化学習による微調整は異なります。単に入力を模倣するようにモデルを教えるのではなく、カスタムドメインで全く新しい方法で推論することを学習させます。これは、モデルが問題を見たときに、問題について考える時間を与え、モデルの最終的な回答を評価し、強化学習の力を使って正しい回答につながる思考の道筋を強化し、誤った回答につながる思考の道筋を抑制するという方法で機能します。わずか数十の例で、モデルがカスタムドメインで新しく効果的な方法で推論することを学習するのを目にするでしょう。
Mark: たった12個の例でそれができるなんて驚きですね。通常の微調整ではできないことですよね。
Julie: その通りです。大規模言語モデルや機械学習の分野では、数十の例というのは基本的に無に等しいものです。
John: 初めて、私たちのモデルカスタマイズプラットフォームが強化学習をサポートします。注目すべきは、これがGPT-4やO1シリーズなど、OpenAIのフロンティアモデルを内部で訓練するのに使用しているのと同じ技術だということです。
多くの興味深い応用分野の一つが科学研究です。しかし、私たちの言葉だけを信じるのではなく、そのために本日はJustin Reeに参加していただいています。Justinはバークレー研究所の研究者で、研究分野の一つは計算手法を用いて希少疾患の遺伝的原因を理解することです。Justin、参加していただきありがとうございます。研究内容と強化学習による微調整がどのように役立つかについて、もう少し詳しく教えていただけますか?
Justin: ありがとうございます。ここに参加できて嬉しく思います。私の研究分野の一つは希少遺伝性疾患です。名前に反して、希少遺伝性疾患は実際には希少ではありません。個々の希少疾患は確かに希少ですが、全てを合わせると実はかなり一般的です。世界中で3億人もの人々が希少疾患に苦しんでいます。さらに、これらの人々は多くの場合、自分の状態を知るまでに数ヶ月から数年の長い診断の旅を経験します。
Mark: アメリカの全人口に匹敵する数ですね。
Justin: 少ない数字ではありません。私たちは、より良い計算ツールと方法を開発して、何が重要なのかを本当に研究し、これらの疾患を理解し治療するのを助けることに取り組んでいます。私たちは学術的な環境で研究を行っており、希少疾患とその原因についてより多くを学び、将来的にはこれらの人々の医療を進歩させることを望んでいます。
希少疾患の評価は難しいです。なぜなら、医学的側面に関する専門的な領域知識と、生物医学データに対する体系的な推論の2つが必要だからです。これは、O1モデルがその推論能力で本当に私たちを助けることができる分野だと考えています。
Julie: それは理にかなっていますね。私たちの大規模言語モデルには領域知識があり、O1モデルは本当に体系的な推論者なので、これらの問題に対処するための優れた計算手法が現在あるように見えます。
Justin: その通りです。
Julie: 使用しているデータセットについて、もう少し詳しく教えていただけますか?
Justin: これは、私たちのグループとドイツのシャリテ病院、Peter Robinsonの研究室、Monarch Initiativeとの共同研究でした。私たちが行ったのは、疾患に関する数百の科学論文から疾患情報を抽出することでした。これらは症例報告でした。私たちは情報を整理し、患者に存在していた徴候や症状のリスト、患者に存在しなかった徴候や症状のリスト、そしてもちろん彼らが持っていた疾患を記録しました。そして、この会話にとって重要なのは、問題を引き起こしていた原因遺伝子の変異です。
Julie: なるほど。つまり、あなたと医師たちは、患者の症状から、どの遺伝子が変異して症状を引き起こしたのかを理解しようとしているわけですね。
Justin: その通りです。私たちはOpenAIチームと協力して、O1モデルを訓練し、疾患の原因についてより効果的に推論できるようにすることに取り組んできました。
John: 素晴らしいですね。ありがとうございます、Justin。これから強化学習による微調整の実際の動作をプレビューでお見せします。先に言ってしまいますが、O1 miniを使って、このタスクでO1の性能を超えるようにします。昨日ローンチしたばかりのO1のことですよ。これが重要なのは、O1 miniがO1よりも小さく、高速で、安価なモデルだからです。
Justinのデータセットを使用して、症状のリストから遺伝性疾患の原因となっている可能性のある遺伝子を予測するというこのタスクで、O1 miniの性能を劇的に向上させる方法をお見せします。このプロセスの概要として、まずモデルの訓練に使用されるデータセットと、モデルを評価するために使用される評価者を見ていきます。次に、OpenAIのトレーニングインフラストラクチャで訓練ジョブを開始し、最後に結果として得られた微調整モデルを評価して、開始時のベースモデルからどのように改善されたかを確認します。
まず、OpenAI開発プラットフォームに移動して、新しいモデルを作成します。教師あり学習による微調整は1年以上前から提供していますが、今回は強化学習による微調整を選択します。O1を訓練するので、それをベースモデルとして選択し、訓練データセットをアップロードする必要があります。
訓練データセットは単なるJsonLファイルで、ファイルの各行がモデルを訓練したい例となっています。このケースでは、Justinと彼の同僚が約1,000の例からなるデータセットを作成しました。このデータセットがどのように機能し、このタスクが何なのかをよく理解するために、個々のデータポイントを詳しく見てみましょう。
個々のデータポイントはこのようになっています。ここには3つの重要な要素があります。まず症例報告で、これは患者と患者の症状の説明です。患者は51歳の女性で、発症時期は特定されていません。高度のイズム、副甲状腺機能亢進症などの症状のリストがあります。Justinが先ほど言及したように、存在しない症状のリストもあります。これは重要です。なぜなら、存在する症状の原因となる可能性があると思われる遺伝子を除外するのに役立つからです。
次に指示があります。このライブストリームをご覧の方はプロンプティングに馴染みがあると思いますが、私たちがやっているのは、このタスクのためにモデルに何をしてほしいかをプロンプトしているだけです。症状のリストと症例報告を与えられた場合、存在すると思われる遺伝性疾患の原因となる可能性のある遺伝子を全て列挙してください、と言っています。また、なぜそれらの遺伝子が原因である可能性があると考えるのかの説明も求めています。
最後に、正解も持っています。これは原因であることがわかっている遺伝子ですが、重要なのは、訓練プロセス中にこれをモデルに見せないということです。それは不正になってしまいます。しかし、訓練プロセス中に内部的にこれを使用して、モデルの出力を評価したり、モデルが正しいかどうかをチェックしたりします。
Mark: これはかなり難しいタスクですね。私には全く答えられる見込みがありません。
Julie: そうですね。「strawberry」という単語のrの数を数えるようなタスクからはかなり進化していますよね。
John: モデルにこのプロンプトを与えると、このような出力が得られます。原因となる可能性のある遺伝子のリストで、重要なのは遺伝子が順序付けられていることです。リストの最初の遺伝子が最も原因である可能性が高いと考えられるもの、2番目の遺伝子が2番目に可能性が高いと考えられるもの、というように続きます。
では戻って、次に検証データをアップロードする必要があります。検証データは訓練データと全く同じフォーマットですが、重要なのは、検証データセットと訓練データセットの間で正解の遺伝子に重複がないということです。これは、モデルが不正をできないということを意味します。つまり、症状のリストを暗記してそれらを遺伝子と関連付けることはできず、訓練データセットから検証データセットに一般化しなければならないということです。
Mark: なるほど。強化学習の部分はどこに入ってくるのですか?評価について話しましたが、それはこのプロセスの一部なのでしょうか?
Julie: いい質問ですね。評価は、ここで紹介する評価者という概念によって行われます。評価者は非常にシンプルで、モデルからの出力と正解を受け取り、それらを比較して0から1の間のスコアを返します。0はモデルが全く正解を得られなかったことを意味し、1はモデルが正解を得たことを意味します。また、部分点を与えることもできるので、その範囲内のどこでもありうることができます。
この特定のタスクでは、このような評価者を持っています。正解(私たちが知っているもの)とモデルからの出力(遺伝子のリスト)を受け取り、スコアを生成します。この場合、FOXF3が正解で、遺伝子のリストの2番目にあったので、0.7のスコアを得ています。
Mark: なるほど、もしFOXF3がリストの最初にあれば、スコア1を得ていたということですね。
Julie: その通りです。リストの後ろの方に行くほど、スコアは徐々に0に近づいていきます。
Mark: それは理にかなっていますね。でも、ランク付けされたリストの評価ではないタスクの場合はどうでしょうか?より一般的な評価者はありますか?
John: はい、強化学習による微調整を行う際に考えられる意図をかなり効果的にカバーしていると思われる評価者のコレクションを提供していますし、常に新しいものを追加しています。
Julie: そして最終的には、独自の評価者を定義できるようにしたいと考えています。
Mark: そうですね、Pythonファイルをアップロードしてカスタム評価を行うようなことができるといいですね。
John: 素晴らしいですね。訓練データセット、検証データセット、評価者を定義しました。OpenAIでは、これらの微調整の実行をハイパーパラメータを設定してカスタマイズすることができますが、かなり良いデフォルト値を設定しているので、ここでは作成をクリックするだけにしましょう。
これが行っているのは、訓練ジョブを開始することです。本当に素晴らしいのは、あなたがデータセットと評価者を持ってきて、これらは本当にドメインの専門知識を持っていて、この問題に本当に貢献できる部分ですが、そしてOpenAIの強化学習アルゴリズムの全ての力と、完全な分散モデル訓練スタックを活用して、あなたのユースケースのためにフロンティアモデルをカスタマイズできるということです。
Mark: つまり、ユーザーとして、データセットと評価者を持ってくるだけで、残りの全てをOpenAIが処理してくれるということですね。
John: その通りです。強化学習による微調整のジョブは数時間から数日かかる場合がありますので、同じデータセットで先週実行したジョブに移動して、結果を見てみましょう。
このジョブは正常に完了し、微調整されたモデルを生成しました。見たいものが一つあります。それは検証報酬スコアです。これは検証データセットにおける評価者からの平均スコアで、微調整の実行中にどのように変化したかを示しています。スコアが上がっているのが分かります。先ほど言ったように、訓練データセットと検証データセットの間で遺伝子の重複がないため、モデルが本当にタスクを一般化することを学習したことを意味します。単に症状のリストを暗記して遺伝子にマッピングしただけではありません。
これはグラフが右上がりになっていて良いのですが、微調整プロセス中にモデルが実際にどのように変化したのかをよりよく理解できるといいですね。今からそれを詳しく見ていきましょう。
今年初めにローンチした開発者プラットフォームの製品である評価ダッシュボードに移動します。数字がたくさんありますが、心配しないでください、全て説明していきます。3つの異なる実行を設定しました。最初は昨日リリースしたO1モデルに対する実行、2番目は微調整ジョブの開始点であるO1 mini、そして最後に強化学習で微調整されたO1 miniです。
報酬が右上がりになっているのを見ましたが、このタスクにとってそれは実際には何を意味するのでしょうか?3つの異なる評価を設定して評価しました。最初は「top at 1」で、正解が本当にリストの最初の項目である頻度です。「top at 5」は正解がリストの上位5項目に入っている頻度、そして最後の「top at Max」はリストのどこかに正解を入れることができたかどうかです。
「top at 1」を見ると、開始点のO1 miniは約200のデータセットで17.7%でした。O1は25%で、より良い性能を示しましたが、微調整されたO1 miniは31%を達成しました。素晴らしいですね。私はこのスクリーンショットをChatGPTに入れて、クリスマスをテーマにしたプロットを作成してもらいました。先ほど見た9つの数字の良い可視化がここにあります。
開始点のO1 miniが「top at 1」、「top at 5」、「top at Max」にわたって、次にO1モデル、そして最後に赤い点線で示された最も性能の良いモデルであるO1 mini微調整版が見えます。
Justin、これらの結果についてどう思いますか?
Justin: これはかなり印象的な性能だと思います。特に検証データでの向上は、モデルがこの種のデータに対する推論について一般的な何かを学習していることを示唆していて、これは非常に興味深いです。
明らかな質問として、これは既存の生物情報学ツールと比較してどうなのかということがありますが、完全な比較はできません。なぜなら、通常このような実験では、ゲノムシーケンシングデータを提供することになりますが、ここではそれを含めていないからです。しかし、不完全な症状リストに対するモデルのオープンエンドな問い合わせは新しく、興味深いと思います。
Julie: 素晴らしいですね。これらは集計統計ですが、実際のモデルの応答を見てみましょう。このデータタブに移動して、パスでフィルタリングしてみましょう。
これがモデルに与えている入力です。Johnが先ほど説明したように、問題は観察された症状のセットに対して責任がある可能性のある遺伝子を特定することです。モデルに、なぜこれらの遺伝子を選んだのかを説明する文字列と、もちろんランク付けされた順序での遺伝子自体を含む辞書を出力するように求めています。そして最後に症状のリストもあります。
この患者は、軟膜下結節、発作、その他いくつかの症状を呈していました。そして、私たちのモデルを実行しました。これはO1モデル、これは微調整されたO1 miniモデルです。入力を与え、出力は先ほど説明した辞書です。
推論:軟膜下結節、発作、皮質結節の組み合わせは、これらの遺伝子の変異によって一般的に引き起こされる複合体を示唆しています。他のいくつかの可能性も挙げ、TSC2が最も可能性の高い候補だとしています。答えに戻ってみると、TSC2が実際に正解であることがわかります。これにより、「top at 1」、「top at 5」、「top at Max」でパスを得ることができました。
Justin、この出力についてどう思いますか?モデルがこのような出力を返すのは有用ですか?
Justin: はい、絶対にそうです。特にモデルの推論を見ることができるのが大きな貢献です。また、もちろんランク付けされた答えのリストもそうです。正解が最初でなくても、全ての可能性を見ることができます。また、微調整がランク付けされた可能性のあるリストの性能を向上させ、正解が1位に近づいているのを見るのは素晴らしいことです。
John: Justin、少し視野を広げて、強化学習はあなたの分野をどのように形作っているのでしょうか?生物学における傾向について話していただけますか?
Justin: 研究コミュニティでは、このようなタスクにこれらのモデルを使用することに大きな関心があります。この特定のユースケースについては、近い将来の最適な解決策は、おそらく既存の生物情報学ツールとO1のようなモデルのハイブリッドソリューションでしょう。これらのモデルの強みを特徴づけ、性能を向上させるために微調整のようなツールをどのように使用できるかを理解する上で、これは確実に進歩だと思います。
先ほど言ったように、両者を比較するベンチマークはありませんが、これは確実に進歩です。これらのモデルを使って疾患を理解し、より大きな意味では、これらのモデルをワークフローに組み込んで、最終的にこれらの人々の医療を改善する方法について理解を深めることができます。
John: 素晴らしいですね。ありがとうございます、Justin。私たちは科学研究における強化学習による微調整の興味深い応用をお見せしましたが、これは一般的な技術です。生化学、AI安全性、法律、医療のデータセットで有望な結果を見ています。このモデルで使用できるタスクの例は他にも何百とありますが、皆さんはもっと多くの例を思いつくことでしょう。
だからこそ、私たちは本日、アルファプログラムを拡大して、より多くの人々がO1モデルの能力の境界を、彼らにとって最も重要なタスクで押し広げることができるようにすることに興奮しているのです。
Julie: そうですね。私たちは信頼できるパートナーの小さなグループと協力して強化学習による微調整を本当にテストしてきました。本日、強化学習微調整研究プログラムと呼ぶものを通じてアルファアクセスを拡大します。
このプログラムは、現在専門家チームと共に非常に複雑なタスクに取り組んでおり、これらのタスクでAIの支援が役立つと考えている組織に理想的です。これらの限られたスポットに応募することに興味がある方は、このライブストリームの説明にあるリンクから申し込むことができます。Markが先ほど言ったように、この製品、強化学習による微調整を来年初めにパブリックにローンチする予定です。
私たち全員が、皆さんが強化学習による微調整で何をするのかを本当に楽しみにしています。研究者として言えば、私たちのモデルが適応され、実世界で科学や知識を進歩させるために使用されるのを見ることほど嬉しいことはありません。
Mark: 今日のジョークはありますか?
Julie: はい、もちろんです。伝統になっているように、クリスマスをテーマにしたジョークを用意しました。サンフランシスコに住んでいる私たちにとって、自動運転車は大きな話題ですが、実はサンタもこれに参入しようとしているんです。自動運転のそりを作ろうとしているのですが、なぜか彼のモデルは木を識別できず、そりは左右の木に衝突し続けています。なぜだと思いますか?
Mark: いいえ、わかりません。
Julie: 彼が松(Pine)の調整をしなかったからです!
Mark: まあまあですね。来週またお会いしましょう。共有することがたくさんあります。ありがとうございました。
コメント