
8,154 文字

こんにちは、みなさん。今日は新しいAIについて、継続的事前学習と特定形式のポリシー最適化についてお話します。
まず最初に、視聴者からの質問に答えたいと思います。特にこの2つのトピック、事前学習(CPT)と教師あり微調整についての質問に答えます。
前回のQuantum AIに関する動画について質問がありました。そのトピックは「視聴者にとってどのような価値があるのか」というものでした。ある視聴者は「米ドルでいくらの価値があるのか教えてほしい」と言っていました。いくらあなたの価値を下げるのかと。
質問に答えようと思います。あなたの価値がいくらなのか、私にはわかりません。でも、あなた自身は自分の価値を知っているでしょう。というのも、雇用主からある金額の給料をもらい、特定のボーナスがあるかもしれません。つまり、経済的な絶対的指標があり、「これが私の収入だ」と言えるわけです。素晴らしい。
この参照システムを使って質問に答えましょう。あなたが、コードを書ける100万人のうちの1人だとしましょう。ここで質問します。あなたの特定の仕事において、雇用主にとってのあなたの価値はどれだけ上がるでしょうか?
MCPモデル、コンテキストプロトコル、クライアントサーバーアーキテクチャを学び、「はい、私はこれをセットアップできます」と言えるようになれば、あなたの給料に対する価値はどれだけ増加するでしょうか?そして、私たちは両方知っています。今Gemini 2.5 Proは自動的にこれを行ってくれます。Geminiに尋ねるだけでいいのです。
しかし、あなたがこれを行う方法を知っている10万人のうちの1人だとしましょう。あなたの価値がどれだけ増加するか知っていますよね。でも、AI研究の最新情報について独自の知識や洞察を持つ100人のうちの1人だとしたらどうでしょう?スタートアップ企業があなたの知識に気づき、採用しようとした場合、あなたの価値はどれだけ向上すると思いますか?この質問に答えられるのはあなただけです。
では動画を始めましょう。最新のAIを理解することがいかに簡単かをお見せしたいと思います。昨日、日本市場向けに日本語で新しい日本の医療AIシステムが発表されました。地域が独自の母国語モデルを構築することは素晴らしいと思いますし、これをサポートしたいと思います。AIを構築することがいかに簡単かをお見せし、この日本のAIモデルをどのように改善できるか、その限界と進化の次のステップをどのように理解できるかをお見せしたいと思います。
量子AIについては話しませんが、その価値とは、AIについて学び、より速く学び、それらのシステムを構築する方法です。なぜなら、現在企業は量子AI専門家を見つけられず、信じられないほどの高額な給料を支払っているからです。
それでは、この動画を開いて最初のポイントに進みましょう。新しいLLMがあります。Hugging Faceで「MedLLM-Q172B」と呼ばれるこのベースモデルは、特定のトレーニングを受けています。このトレーニングは日本の医療領域、つまり日本の地域市場向けのものです。そして、高い精度と安定した推論を達成するという二次的な条件があります。彼らはLLMの温度を下げても推論のトレースが一貫していないことを発見しました。特に医療や臨床、病院環境では、LLMの推論が不安定であることは望ましくありません。明確で証明された推論のトレースが必要です。
彼らはどのようにこれを達成したのでしょうか?そのステップは何だったのでしょうか?安定した推論は説明しやすいです。彼らは修正されたDPOを使用しました。素晴らしい。
まず最初のステップとして、一般的なモデルを使用したため、日本の医療市場の深い領域知識を日本の医療データコーパスに追加する必要がありました。トレーニング方法は何だったのでしょうか?もちろん継続的事前学習(CPT)です。特定の日本語のデータ構造に最新の知識を追加するために、彼らはCPTを行いました。彼らのベースモデルはQ1 72Bベースモデルで、医学にはちょうど良いサイズだと思います。十分な資金がなければ、これは私も同じことをするでしょう。
第二のステップとして、彼らは信頼性の高い推論パスを持ちたいと決めました。そこで、強化学習における特定のポリシー最適化を選び、RPOを使用することにしました。これについてはすぐに説明します。かなり簡単です。ここでDPOを見ることができますが、なぜ彼らがRFTを使用せず、古典的な強化学習とDPOの代替を選んだのか疑問に思うかもしれません。これについて見てみましょう。
知識の提示方法、推論パスの安定性のための第二のステップがここにあります。AIシステムの使用について、私たちの小さな閃きがあります。なぜ教師あり微調整を使わなかったのかと疑問に思うかもしれませんが、彼らがモデルを構築した目的を見れば簡単です。彼らは日本の医師国家試験を目標としていました。これは医師になる前の最終試験だと思われます。彼らはこの日本特有の市場条件に対してAIシステムがどれだけ優れているかを見たかったのです。
特定のタスクに対してトレーニングされたわけではなく、一般的な知識を更新して完璧な医療AIシステムとなり、特定の推論トレースのためにモデルの振る舞いを整列させました。教師あり微調整のための特定のタスクはありませんでした。説明がいかに簡単かがわかります。
これを私はどう呼ぶでしょうか?これを「ゼロまたは」と呼びます。以前の動画で説明したように、教師あり微調整なしで強化学習だけを使用する場合、教師あり微調整+RLではなく、ゼロ、つまり何もなしでRLだけとなります。事前学習について考えると、医学的知識を追加する継続的事前学習があり、これはシリアルモデルです。
用語に関しては、公式な言い方として「2段階微調整プロセス」と書かれています。彼らはCPTを行っていますが、これは事前学習なのに、なぜ微調整と言うのでしょうか?そして強化学習は微調整ではなく、それ自体の種類ですよね。科学者によって用語の使い方は異なります。これを受け入れなければなりません。
多くの人は「トレーニングとはGoogleやOpenAIから得られる事前トレーニング済みモデルのことだ」と言います。そして、その後に行うことは一般的に「ポストトレーニング」です。ある人々は「待って、これは継続的事前学習だ」と言います。つまり、事前学習と一緒に行くので、これがトレーニングであり、その後に来るものはポストトレーニングだというわけです。理解できます。事前学習、ポストトレーニング、素晴らしい。そして教師あり微調整があり、強化学習による微調整があります。そして強化学習のようなものもあります。
しかし、別の科学者は「待って、推論スケーリングとテスト時計算スケーリングがあるので、これをトレーニング時計算と呼び、その中にすべてが含まれる」と言います。事前学習、CPT、SFT、RF、RL、GRPO、DRPO、TPOなど。微調整プロセスという言葉についてグローバルな合意はありませんが、彼らは明確に指定しました。これは素晴らしいことです。CPT、素晴らしい、私たちは正確に理解しています。そしてポリシー最適化、私たちは正確に理解しています。残りは単なる意味論の問題です。問題ありません。
論文では「2段階のCPTとRPO微調整アプローチを提案し評価する」と述べています。これは深い領域知識(CPT)を注入しながら、LLMが専門領域で推論説明を生成するときのパフォーマンスの不安定性という重要な問題に対処するように設計されています。医療AIでこのような不安定性は望ましくありません。
このモデルはHugging Faceでオンラインになっています。日本語で利用可能です。ダウンロード数はわずか114回で、それは残念です。なぜなら、あなたの言語のためのモデルがあるべきだと思うからです。OpenAIが80言語以上を提供していることは知っていますが、もし国のデータセットに特化してトレーニングすれば、例えば中国には多くの植物やお茶、ハーブがあり、ヨーロッパでは高度な化学的、製薬製品に頼っています。あなたの地域市場にあるものが、あなたの文化、あなたが慣れているもの、あなたの親が慣れていたものを尊重すべきです。
本当にオリジナルの言語で、その文化を尊重する複数のモデルがあることは素晴らしいと思います。もちろん彼らはトレーニングを行う必要があります。継続的事前学習を行う場合、コンピュータインフラストラクチャに関しては簡単ではないことが想像できます。彼らは重要な計算上の課題に対処し、量子化された低ランク適応(QLoRA)を採用し、4ビット量子化と組み合わせました。
1年前、私はQLoRAと4ビット量子化について説明した動画を公開し、コラボノートブックでテストして違いを確認することができました。研究において4ビット量子化のファンではありません。私の絶対的な限界は研究では8ビットですが、4ビットには行きません。しかし、限界があることは理解できます。彼らはNvidia A100 80GB GPU 4台のみを使用しました。コンピュータインフラにどれだけ投資できるかの問題だと理解しています。
お金がなくても知識を持つことはできます。彼らが1年前の私の動画を見ていれば、QLoRAが最良の実装ではなく、LoftQのようなより良いアイデアがあることを知っていたでしょう。しかし、それは別の話です。4ビットを理解していますが、研究中でそれを負担できるなら、16ビットのNvidia A100 16台の方がより良いクラスタかもしれません。
次に、特別な形式のDPOである推論RPOを使用し、彼らはそれを一つの特定の理由、つまり一貫した推論トレースと説明を望んだからです。これについての特定の論文があります。これは1年以上前のもので、2024年6月のバージョン3です。これはMetaによるもので、推論選好最適化(Reasoning Preference Optimization)と呼ばれています。これはかなり単純なシステムです。
彼らのRPOのために特殊な選好データセットをどのように構築したか見てみましょう。スキーマはかなり単純です。質問、説明、回答があります。次に、応答を自動的に分類し、最終的な回答が真実(つまり正しい回答)と一致するかどうかを判断します。彼らは選ばれた応答、不正解の最終回答、そして第三のカテゴリとして真実の応答にラベル付けしました。これは単純なデータセットで、適用してトレーニングします。
DPOについてもっと知りたい場合は、1年前にDPO最適化について詳細に説明した動画があります。テスト時の計算に進みたい場合は、DPOからTPO(テスト時選好最適化)に移行しています。これを教師あり微調整DPOと組み合わせたい場合は、OPOがあります。多くの動画が利用可能で、好きな方法論を選ぶことができます。選択肢があることを知っておいてください。
評価に移りましょう。これは本当に興味深いです。彼らは2つの異なることを行いました。標準的な3ショット設定では、プロンプトには質問、選択肢、正解からなる3つの例が含まれており、それらが目標の質問に先立っていました。そして説明付きのものでは、「最終的な回答を提供する前に、段階的な説明を提供してください」というものでした。
この研究は4月25日に発表されました。「継続的事前学習と推論選好最適化による医療LLMの安定化」というタイトルで、3日前のものです。ポリシー最適化ではなく選好最適化であることがわかりました。そう、これらの略語は問題です。東京大学、素晴らしい、日本です。そして、この同僚たちは東京の特定の企業にも所属していました。産業と大学のこのようなコラボレーションが大好きです。
彼らは医療AIの推論生成を安定化するための推論選好最適化を強調し、信頼性のある説明を最適化することの重要性を示しています。これは医療AIで彼らが目指すところであり、これは研究モデルに過ぎませんが、構いません。
ここでベンチマークを見てみましょう。日本のモデルのためのベンチマークです。残念ながら回答やデータセットを読むことはできませんが、彼らを信頼します。3ショットと説明付きの3ショットがあります。彼らがトレーニングしたこの新しいモデルでは、結果は同じでした。素晴らしい。最新のGPT-4 Omniはほぼ同じで、少し遅れていましたが、ここでは少し良くなっています。
そして他のさまざまなモデルも見ることができます。素晴らしい。例えば、興味深いのは、インストラクトモデルとベースモデルで同じパフォーマンスデータを得ていますが、「段階的に説明してください」と言うと違いがあります。これは絶対に魅力的です。AIで楽しむことができます。
私が研究で好きなのは、彼らが何が起こるかを理解したいと言ったことです。ベースモデルから始めると、パフォーマンスは80%です。そして、このRPOを追加すると、80%から83.8%に上がります。素晴らしい。しかし、継続的事前学習だけを行うとどうなるでしょうか?継続的事前学習だけでベースモデルにはるかに良いパフォーマンスをもたらすことがわかります。一般的な医学試験の知識を追加したい場合、CPTが正しいステップだと思われます。86.7%になりました。
そこに古典的なDPOを追加すると、86.7%から86.8%に増加するだけです。あまり変わりません。そして、新しいRPO(選好最適化)を行うと、同じ結果になります。私がこれを理解しようとすると、ベースモデルは80%で、最も単純で速い改善は継続的事前学習です。知識を追加するだけで80%から86.7%にジャンプします。素晴らしい。そして達成できる最高は86.8%です。0.1%ポイントの違いなので、この計算インフラに支払う必要がなく、より速い方法であれば、継続的事前学習だけで十分だと言えます。一般的な試験であれば、これが日本のモデルの正しい方法かもしれません。
もちろん、彼らは他のベンチマーク(もちろん日本語)も決定しました。ここですべてのデータを見ることができます。これは興味深いです。なぜなら、これは奇妙です。時間をかけて見てみると、何を意味しているのかがわかるでしょう。
これには単純な説明があります。パフォーマンステストの限界を見てみると、彼らは多肢選択式の質問回答ベンチマークだけを使用したからです。つまり、一貫した推論を目指す場合、推論トレースがありません。多肢選択Q&Aからのエンドリワードフィードバックとエンドリワード要因だけがある場合、この繊細な推論の性能向上を多肢選択で蒸留して見つけることは本当に難しいです。
わかりました、多肢選択は彼らの日本の試験なのですね。しかし、テストにとっては、多肢選択ではなく、モデルの説明にもっと深く目を向けることが私にとってはるかに興味深かったでしょう。
第二に、すべてのRPOデータは半自動的に生成されました。もちろんそうですね。第三に、彼らは指示調整とのRPOを調査しませんでした。教師あり微調整や微調整はありませんでした。これは見逃されました。そして、彼らは計算リソースが問題だったと言いました。彼らは正しいことをしたと思います。72億の自由なパラメータを持つより大きなモデルを選び、QLoRAアダプタを使用することにしました。これは正しいことですが、4ビット量子化を使用することはパフォーマンスを本当に損なうことになります。タスクやベンチマークに高度に特化していますが、研究では少なくとも8ビットにとどめたでしょう。しかし、彼らの推論は理解できます。
謝辞で微笑んでしまいました。東京大学から、このインフラストラクチャサポートを提供してくれた会社のチームメンバーに感謝したいと述べていました。つまりコンピュータインフラストラクチャ、Nvidia GPUのことです。これは再び、この惑星上のすべての大学がAIのためのコンピュート・インフラストラクチャ・リソースにより良いアクセスを必要としていることを示しています。最高の学生、博士課程の学生がいても、AIインフラストラクチャやクラウドへのアクセスがなければ、実験を実行したり知識を向上させたりすることができません。常に必要なコンピュートリソースが限られていると、常に制限されています。これは日本だけの問題ではなく、世界中のすべての国が同じ問題を抱えています。
「でも待って、量子AIはどうですか?学習して構築する方法は?」と言われるかもしれません。そうですね、動画の最後なので急ぎます。これは2025年4月27日のBusiness Insiderの記事です。人材不足があり、量子コンピューティングの人材が見つからないと言っています。この記事によると、量子企業やスタートアップ企業は新しい人材を育成するためのプログラムや大学のコースに資金を提供しています。量子コンピューティングのような新しい産業分野が、大学が量子コンピューティングコースを提供する余裕がないため、大学で新しいコースに投資しています。
企業はAIの専門家や人材を必要としており、国際コンサルティング企業による研究が発表されていますが、会社の75%がAIを統合したいと言っているにもかかわらず、人々のうち35%だけが昨年にトレーニングを受けたと言っています。量子産業の人材プールは、従来のAI分野のサイズのほんの一部に過ぎませんが、市場開発の成長軌道のため需要は高まっています。量子コンピュータは2030年までに推定25万の新しい仕事を生み出し、2035年までには100万近くの新しい仕事を生み出すと言われています。これらは単なる予測で科学的データではありませんが、彼らがどこにお金を投資したいかがわかります。
私の動画の価値に戻りましょう。私たちがどこに向かっているかがわかりますね。もっと学びたい方は、IBM、Microsoft、Nvidia、Googleなど素晴らしい会社があります。彼らは新しい人材を探していると言っています。彼らはコンピュータサイエンス、数学、量子力学、あるいは量子場理論を組み合わせる必要があると言っています。彼らはこれが深く技術的で本当に高価であることを理解しており、これらすべてを理解する絶対的な専門家が必要だと言っています。
時にはAIでVIPコーディングを行う方法を知っている人だけではなく、VIPコーディングがここでの解決策ではないかもしれません。ヒントです。本当に深く掘り下げたい場合、MIT、シカゴ大学、カリフォルニア大学バークレー校など、素晴らしいコースがあります。彼らはここで美しい量子コンピューティングコースを提供しており、中には無料のものもあります。公式な証明書は得られないかもしれませんが、学びたいならリソースは存在します。待たずに今日から始めましょう。
量子AIに関する最後の動画については、どれだけの人が見るか期待は低かったのですが、最初の19時間で2,700以上のビューがありました。視聴者の皆さんに感謝したいと思います。3,000人近くの人々が量子AI枠組みシステムについて見ることに興味を持ってくれたことは素晴らしいことです。いつも手をつないで進むものです。正しいAIモデル、ソフトウェア、アイデア、理論、フレームワークを持って、量子コンピューティング上で完璧な実装を行う必要があります。
量子AIと量子コンピューティングは、将来のプロフェッショナルキャリアを考えている方にとって非常に魅力的なトピックだと思います。楽しんでいただけましたか?ぜひチャンネル登録してください。次の動画でお会いしましょう。
コメント