
7,442 文字

2日目がやってきました。OpenAIの12日間の2日目は強化ファインチューニング研究プログラムについてです。現在申し込み可能な応募フォームが公開されています。このアップデートは、将来的に全ユーザーに公開される機能の予告編的なものでした。まだ研究段階なので、ウェブサイトで申請して全ての項目を記入しない限り、今すぐには使用できません。この動画では強化ファインチューニングの重要性について説明し、12日間のアップデートすべてを追跡するという約束を守っていきます。強化学習と大規模言語モデルにおけるその重要性、主要産業への影響などについて理解を深めるために、私からアナロジーをご紹介したいと思います。これにより、誰かが強化学習について話をする際に、その一般的な概念を理解できるようになります。これはもともとGPT-4やGPT-3.5のようなo1プレビューやo1モデルをトレーニングする際にOpenAIのバックエンドで使用されていた技術ですが、今回彼らは「開発者や機械学習エンジニアが、特定の複雑な領域固有タスクで優れた性能を発揮するエキスパートモデルを作成できるよう、強化ファインチューニング研究プログラムを拡大する」と発表しました。ニュアンスを含むタスクであれば、必ずしも複雑である必要はないと私は考えています。開発者や機械学習の専門家、エンジニア向けと言っていますが、私はmake.comを使用する人や独自のエージェントを構築し始めている人の視点から見ています。このような機能は非常に強力で、一般公開されるのが待ち遠しいです。では強化ファインチューニングとは何でしょうか。この新しいモデルカスタマイズ技術により、開発者は数十から数千の高品質なタスクを使用してOpenAIモデルをカスタマイズし、提供された参照回答でモデルの応答を評価することができます。この技術は、モデルが同様の問題を推論する方法を強化し、その領域における特定のタスクの精度を向上させます。OpenAIのデモ動画を見て、さらに詳しく見ていきましょう。要点をさらに短くまとめて、彼らが話している内容のエッセンスをお伝えします。OpenAIの12日間やその他のAI関連情報をフォローしたい方は、AI Pioneersコミュニティにぜひご参加ください。100%無料で、リンクは説明欄とトップコメントにあります。たった1日で160人以上のメンバーが参加しました。YouTubeチャンネルの拡張版のようなもので、私のリソースやプロンプト、ネットワークにアクセスできます。既にメンバー同士で会話が始まっています。新しいGPTモデルのテストも行い、月額200ドルを支払わなくても、私にプロンプトを依頼してChatGPTでモデルをテストできるようにしました。ご覧の通り、コミュニティが立ち上がってからの短期間で、既に多くの会話が行われています。AIへの理解を深め、このAI革命を活用したい方は、ぜひ参加することをお勧めします。繰り返しになりますが、100%無料です。「今日は、モデルカスタマイズプログラムの最新の進展をプレビューできることを大変嬉しく思います。ユーザーが自分のデータセットでo1をファインチューニングできるようになります。これは標準的なファインチューニングではなく、高校上級レベルから専門家PhD レベルへと飛躍させた強化学習アルゴリズムを活用する強化ファインチューニングです。これにより、あなたのゴールデンデータセットを使って、私たちが持っているのと同じマジックをユーザーや顧客に提供できる独自のソリューションを作り出すことができます。初めて、開発者、研究者、機械学習エンジニアが強化学習を使用して、特定のドメイン内の特定のタスクで優れた性能を発揮できるエキスパートモデルを作成できるようになります。強化ファインチューニングは従来とは異なります。モデルに入力を模倣させるのではなく、カスタムドメインで全く新しい方法で推論することを学習させます。その仕組みは、モデルが問題を見たときに、問題について考える時間を与え、モデルの最終的な答えを採点します。そして強化学習の力を使って、正しい答えにつながった思考の道筋を強化し、間違った答えにつながった思考の道筋を抑制します。たった12個の例でそれができるのは驚くべきことです。通常のファインチューニングではできないことです。その通りです。大規模言語モデルや大規模機械学習の分野では、数十個の例というのはほとんど何もないに等しいのです。注目すべきは、これが私たちがGPT-4やo1シリーズのような最先端モデルを内部でトレーニングする際に使用している同じ技術だということです。ジャスティンはバークレー研究所の研究者で、彼の研究分野の一つは計算手法を使用して希少疾患の遺伝的原因を理解することです。ジャスティン、お越しいただきありがとうございます。あなたの研究と強化ファインチューニングがどのように役立つ可能性があるのか、もう少し詳しく教えていただけますか?はい、お招きいただきありがとうございます。私の研究分野の一つは希少遺伝性疾患です。世界中で3億人もの人々が希少疾患に苦しんでおり、さらに重要なのは、これらの人々が診断を受けるまでに数ヶ月から数年という長い診断の旅を経験することが多いということです。希少疾患の評価が難しい理由は、医学的側面に関する専門的な領域知識と、生物医学データに対する体系的な推論の両方が必要だからです。これはO1モデルの推論能力が本当に役立つ分野だと考えています。使用しているデータセットについてもう少し詳しく教えていただけますか?これは、私たちのグループとドイツのショット病院のピーター・ロビンソン研究室、そしてMonarchイニシアチブとの共同の取り組みでした。私たちは、希少疾患に関する数百の科学論文から疾患情報を抽出しました。これらは症例報告でした。患者に存在する徴候と症状のリスト、患者に存在しない症状のリスト、そしてもちろん彼らが持っていた疾患、そしてこの会話で重要なのは、問題を引き起こしていた変異遺伝子についての情報を収集しました。これから強化ファインチューニングの実際の動作をプレビューしてお見せしますが、ネタバレになりますが、o1ミニを使って、このタスクでo1を超える性能を実現します。これは昨日リリースしたばかりのo1です。これが非常に重要なのは、o1ミニがo1よりも小さく、高速で、安価なモデルだからです。ジャスティンのデータセットを使用して、症状のリストから遺伝性疾患の原因となる可能性のある遺伝子を予測するというこのタスクで、o1ミニの性能を大幅に向上できることをお見せします。このプロセスの概要として、まずモデルのトレーニングに使用されるデータセットと、モデルを評価するための採点者を見て、次にOpenAIのトレーニングインフラストラクチャでトレーニングジョブを起動し、最後に結果として得られたファインチューニングモデルを評価して、開始時のベースモデルからどのように改善されたかを見ていきます。監督付きファインチューニングは1年以上前からありましたが、今回は強化ファインチューニングを選択します。o1をトレーニングするので、これをベースモデルとして選択し、次にトレーニングデータセットをアップロードする必要があります。ジャスティンと彼の同僚たちは約1,100の例からなるデータセットを作成しました。これをアップロードしましょう。これが個々のデータポイントの例です。ここには3つの重要な要素があります。まず症例報告です。これは患者と患者の症状の説明です。患者は51歳の女性で、発症時期は特定されていません。多毛症、副甲状腺機能亢進症などの症状のリストがあります。ジャスティンが先ほど言ったように、存在しない症状のリストもあります。これは重要で、モデルが症状の原因となる可能性があると考える遺伝子を除外するのに役立ちます。次に指示があります。このライブストリームをご覧の方はプロンプティングについてご存じだと思いますが、ここではこのタスクで何をしてほしいかをモデルに指示しているだけです。症状のリストと症例報告を見て、存在すると思われる遺伝性疾患の原因となる可能性のある遺伝子をすべて列挙してください、そしてなぜそれらの遺伝子が原因である可能性があると考えるのか説明を付けてくださいと依頼しています。最後に正解もあります。これは原因であることが分かっている遺伝子ですが、重要なのは、トレーニング過程でこれをモデルには見せないことです。それは不正になってしまいます。しかし、トレーニング過程でモデルの出力を採点する、つまりモデルが正しいかどうかをチェックするために内部で使用しています。このプロンプトと症例報告、指示をモデルに与えると、モデルは原因となる可能性があると考える遺伝子のリストを出力します。重要なのは、遺伝子が順序付けられていることで、リストの最初の遺伝子が最も可能性が高いと考えるもの、2番目の遺伝子が2番目に可能性が高いと考えるもの、というように続きます。本当に素晴らしいのは、データセットと採点者を提供するだけでいいということです。これらは本当にドメインの専門知識を持っている部分で、この問題に大きく貢献できる部分です。そして、OpenAIの強化学習アルゴリズムと完全な分散モデルトレーニングスタックの全能力を活用して、ユースケースに合わせてフロンティアモデルをカスタマイズできます。つまりユーザーとして、私はデータセットと採点者を用意するだけで、あとはOpenAIがすべて処理してくれるということですね?その通りです。先週実行したこのジョブがありますが、これは正常に完了し、私たちのためにファインチューニングモデルを生成しました。見たいものが1つあります。それは検証報酬スコアです。これは検証データセット上での採点者からの平均スコアで、ファインチューニングの実行過程でどのように変化したかを示しています。スコアが上昇しているのが分かります。先ほど言ったように、トレーニングデータセットと検証データセット間で遺伝子の重複がないため、モデルが本当にこのタスクを一般化することを学習したことを意味します。報酬が右上がりになっているのを見ましたが、このタスクにとって実際にはどういう意味があるのでしょうか?これを評価するために3つの異なる評価を設定しました。1つ目は「トップ1」で、正解がリストの最初の項目である頻度です。2つ目は「トップ5」で、正解がリストの上位5項目に含まれる頻度です。最後に「トップMax」で、リストのどこかに正解を入れることができたかどうかです。トップ1を見ると、私たちの出発点であるo1ミニは約200のデータセットで17.7%、o1は25%でより良い性能を示しましたが、ファインチューニングしたo1ミニは31%を達成しました。これらは集計統計ですが、実際のモデルの応答を見てみましょう。このデータタブに移動します。これがモデルに与えている入力です。ジョンが先ほど説明したように、問題は観察された症状の集合に責任がある可能性のある遺伝子を特定することです。次に私たちのモデルを実行しました。これがo1モデル、これがファインチューニングしたo1ミニモデルです。その入力を与え、出力は先ほど説明した辞書形式になっています。TSC2が最も可能性の高い候補だと示しています。答えに戻ってみると、実際にTSC2が正解であることがわかります。そしてマークが先ほど言及したように、この強化ファインチューニング製品は来年初めに一般公開する予定です。さて、動画を見て何が行われているのかについてより理解が深まったと思いますが、強化ファインチューニングの一般的な考え方をより理解しやすくするためのアナロジーをお見せしましょう。画面を見てください。強化ファインチューニングのシステムについて図示したプレゼンテーションがあります。ここには環境、行動、報酬、エージェント、状態など、多くの変数があります。バラ園を植えることを例に見てみましょう。バラ園の視点から強化ファインチューニングを考えてみます。バラ園が環境です。バラ園以外の文脈では、環境とは実際のデータセット、つまり彼らがアップロードしたJsonL形式のファイルのようなものです。環境について重要なのは、環境がエージェントに正しい出力がどのように見えるべきか、または正しく形式化された回答がどのように見えるべきかを示すということです。この場合、環境は選択したモデルであるエージェントに、正しく咲いたバラがどのように見えるべきかを示し、望ましい状態を理解させます。環境がエージェントが操作するコンテキストとルールだとすると、エージェントとは何でしょうか。このシナリオでは、エージェントはバラ園の庭師です。目標を達成するために学習する意思決定者、つまりあなたのo1ミニのようなモデルです。最初、庭師はバラを育てる一般的なアプローチを知っているかもしれません。それは、モデルがパターンを見つけたり、複雑な質問に答えたりする一般的なアプローチを知っているのと同じです。しかし強化ファインチューニングを適用すると、私たちは庭師に非常に特定の庭仕事のスタイルのエキスパートになることを教えています。もはや基本的なバラの栽培だけではありません。異常に乾燥した気候で育つバラを栽培するか、AI用語で言えば、複雑な法的質問の解決や希少疾患の診断など、ドメイン固有のタスクのためのものです。完璧な条件下での平均的な庭師ではなく、異なる気候で働き、バラを適切に咲かせるために非常に特定の作業を行う必要のあるバラ庭師かもしれません。次に、状態について説明したいと思います。状態は重要で、土壌の水分、植物の健康状態、害虫、バラの開花状況など、庭の現在の状態のことです。これは、モデルが次に何をすべきかを決定する前に受け取るプロンプトのようなものです。状態は「今はこういう状況だ、環境の現在の状態にどう対応するか」とモデルに伝え、エージェントの仕事は、次の正しい単語や次の正しい順序、あるいは順序の中で次に正しいことを予測するために、それに対して積極的に応答することです。行動について掘り下げてみましょう。行動は複数の園芸作業になります。庭師が環境から状態を受け取った後、つまり植物の健康状態、害虫の植物への影響、バラの開花状況などの情報を受け取った後、行動を起こします。強化ファインチューニングでは、モデルは症状の集合に責任のある最も可能性の高い遺伝子を列挙したり、最適な法的議論を選択したりするなど、o1モデルのプレビューで示されたような解決策を出力します。各行動は、望ましい環境に近づけるためのモデルによる庭の改善の試みです。報酬システムは非常に重要です。これは、ユーザーが設定する採点システムまたは採点機能です。この報酬は、エージェントが取った行動に基づいて、それが良い結果だったのか悪い結果だったのかをエージェントに伝えます。良い結果とはバラの健康な開花、悪い結果とは植物の萎れです。例えば、ある量の水で植物に水をやるという行動をした場合、それによって花がより良く咲いたのか、萎れ始めたのか、エージェントは報酬フィードバックという形で与えられます。これはモデルがトレーニングされている間にバックエンドで起こっていることです。採点者は、モデルの行動(つまり与えた答え)が正しかったのか、部分的に正しかったのか、間違っていたのかをチェックします。監督付きファインチューニングで使用される以前の例を単に模倣するのではなく、強化ファインチューニングはモデルにより効果的な推論を促します。答えが正しく高品質な結果につながれば、モデルは正の報酬を受け取り、そうでなければ低いスコアを受け取り、将来その推論の道筋を避けるよう導きます。例えば、状態が「植物に害虫がいる」と返ってきた場合、エージェントが「大量の農薬を散布しよう」と反応し、過剰な農薬を散布して環境内のすべての植物が死んでしまったら、その報酬は高くありません。そのため、エージェントは次回バラに大量の農薬を散布することはないでしょう。次回同様の問題に遭遇したとき、「前回はうまくいかなかった、今回は別の方法を試そう」という報酬スコアを持っているわけです。このような小さなアナロジーが、理解を深め、情報をより良く記憶し、動画で話されていた内容をより良く理解するのに役立てば幸いです。提供した要約に戻って、このプロセスがバックグラウンドでどのように機能しているかをより良く理解できるように、もう一度見直すことをお勧めします。これで、なぜこれが重要で、一般公開されたときにこれほど大きなアップデートになるのかがお分かりいただけたと思います。以上で今回の動画は終わりです。楽しんでいただけたでしょうか。そして、OpenAIの12日間のフォローを楽しんでいただけていることを願っています。これはまだ2日目で、月曜日に再開します。必ず購読して通知ベルをクリックしてください。また、より多くの人々にこの情報を届けられるよう、この動画にもいいねをお願いします。繰り返しになりますが、AIとつながり続け、それが提供するすべてのものを得たい方は、AI Pioneersという無料のAIコミュニティにご参加ください。私たちはここにいて、コミュニティに還元するために今はお金を配布したりもしています。常にアップデートを投稿し、人々はここで会話を始め、お互いにネットワークを築いています。それが私たちの目指すところです。このグループをさらに成長させ、あなたにとってより有益なものにしていきます。カーターと私は週に1回、約1時間のライブQ&Aも行っています。100%無料であなたのAIに関する質問に答えることができます。参加してAI Pioneersファミリーの一員になるだけです。以上です。動画をお楽しみいただけたと思います。次回の動画でお会いしましょう。
コメント