新型AIが人間より速く自己学習 – 専門家も驚愕

3,907 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

メタの最新のブレイクスルーが、AIの世界に大きな衝撃を与えとるんや。研究チームが開発した「セルフトート・イヴァリュエーター」というモデルは、人間のフィードバックなしでAIが自己改善できるようにしとんねん。
この技術はAIの自律性の境界線を押し広げて、その影響は計り知れへんのや。AIのトレーニングプロセスを簡素化するだけやなく、開発サイクル全体の仕組みを書き換えてしもてるんや。
普通、AIモデルのトレーニングには膨大な人間の介入が必要やったんや。コーディングのサポートや複雑な推論タスク、はたまた言語のニュアンスを理解するのにも、AI開発者はよく「人間からのフィードバックによる強化学習(RLHF)」に頼っとったんや。
これは人間がAIの応答を評価して、より良い答えに導くように指導する方法なんやけど、この方法は高くつくし遅いだけやなく、モデルが改善されるにつれて効果が薄れてしまうんや。古いトレーニングデータが陳腐化して、人間が絶えず再注釈せなアカンようになるから、スケールアップがさらに大きな課題になってしもうんや。
そこで登場したんが「セルフトート・イヴァリュエーター」なんや。メタのアプローチは、AIが自身の合成データから学習することで、人間の注釈の必要性をなくしてしもたんや。
AIが自分でタスクを作って、自分のパフォーマンスを評価して、その評価に基づいて戦略を調整するっちゅう閉ループシステムやと考えてくれたらええんや。時間が経つにつれて、この自己強化プロセスによって、人間が介入せんでもより正確で賢いモデルが出来上がるんや。
この技術的なプロセスの裏側には、「思考の連鎖」推論技術として知られるものがあるんや。メタのセルフトート・イヴァリュエーターは、これを使って複雑なタスクをより小さくて扱いやすいステップに分解しとるんや。
特に数学、科学的分析、コーディングなどの分野で効果を発揮しとるんやで。AIは可能な答えやアプローチのセットを生成して、それを正確さ、効率性、創造性といった特定の基準に基づいて判断すんねん。そこから最適な方法を見つけ出して、内部モデルを微調整していくんや。
ここで重要な利点は、完全にAIが生成したデータを使うてるっちゅうことなんや。メタのチームは、人間がラベル付けしたデータを一切使わずにイヴァリュエーターを訓練したんや。これは自律学習の大きな飛躍やで。
モデルはまず与えられたタスクに対して一連の応答を作り出すんや。それから「ジャッジとしてのLLM」、つまり評価者として機能する大規模言語モデルを使って、推論と論理に基づいてその応答をランク付けするんや。この繰り返しのプロセスを通じて、AIはタスクを遂行するだけやなく、自分の出力の質を判断することも上手くなっていくんや。
メタがどれだけこれを押し進めたかは、数字を見たらよう分かるで。Llama 370b instructモデルから始めて、セルフトート・イヴァリュエーターは数回の反復で、リワードベンチベンチマークでの精度を75.4%から88.3%に向上させたんや。これは純粋に自己学習だけで13ポイントも上がったってことやで。
このモデルは、人間がラベル付けしたデータに頼るリワードモデルと競争して、場合によってはそれを上回るパフォーマンスを見せとるんや。実際、多数決システムを使うと、精度は88.7%にまで上がるんやで。
これは理論上の進歩だけやないで。メタのモデルはすでに実世界のタスクを評価し、改善するのに使われとるんや。例えば、リワードベンチっちゅう、モデルが人間の好みにどれだけ合致しとるかをテストするために特別に設計されたベンチマークが、このアプローチのおかげで大きく進歩しとるんや。
リワードモデルは、安全性、倫理的な意思決定、多段階推論問題など、正確な人間らしい推論が必要なタスクで重要な役割を果たしとるんやで。
合成データへの移行には他の利点もあんねん。人間のフィードバックモデルは、新しいAIモデルが出てきたときに適応するのが遅いんや。新しいデータが生成されてから人間が注釈を付けられるようになるまでに常にタイムラグがあって、これがトレーニングプロセスを遅らせる可能性があんねん。
でも、セルフトート・イヴァリュエーターを使うと、このタイムラグがなくなるんや。AIがリアルタイムで生成、評価、学習するから、イノベーションのペースが加速するんや。メタの研究者らは、これによってコストが大幅に削減され、新しいモデルを市場に投入するまでの時間が短縮されるやろうと予測しとるんや。
もう一つ興味深い点は、この方法が人間のバイアスに関する従来の問題を回避してるっちゅうことや。人間がAIを評価する場合、トーン、コンテキスト、文化的なニュアンスの理解など、常に何らかの主観性が入り込むんや。
評価プロセスを自動化することで、メタのセルフトート・イヴァリュエーターは一貫した基準を維持できるんや。これは特に、言語モデルが異なる言語、方言、文化的コンテキストに適応せなアカングローバルなアプリケーションに役立つんやで。
さらに、彼らは「Segment Anything Model(SAM)2.1」っちゅうAIのツールも更新したんや。SAM 2.1は画像と動画のセグメンテーションを改善して、複雑な視覚環境の中でオブジェクトを分離しやすくしとるんや。
このツールは最初のリリース以来70万回以上ダウンロードされて、医療画像や気象学など様々な分野で使われとるんや。実際、この更新でSAM 2.1は小さくて視覚的に似たオブジェクトをより効果的に扱えるようになって、視覚AIタスクで高い精度を必要とする研究者にとって貴重なリソースになっとるんや。
もう一度数字を見てみよか。SAM 2.1は今、データ拡張技術を使って様々なシナリオでオブジェクトをシミュレーションしとるんや。これによって、モデルが遮蔽物や他の要素の後ろに隠れたオブジェクトを扱う能力が向上したんや。これは自動運転のような、ピクセル単位の精度が重要なアプリケーションにとって非常に重要なんやで。
メタはまた、ユーザーが自分のデータセットでSAMを微調整できるデベロッパースイートもリリースしたんや。これによって、さらなるカスタマイズとイノベーションへの道が開かれたんやで。
言語の面では、メタはMETP-LMっちゅうオープンソースの言語モデルで境界線を押し広げとるんや。このモデルはテキストと音声のシームレスな統合のために設計されとって、テキストと音声データを同時に扱えるユニークなモデルなんや。
これによって、AIがより自然な響きの音声を生成できるようになって、興奮、怒り、驚きなど、さまざまな感情を反映できるんや。そして彼らはこのモデルをオープンソースにしたんや。つまり、開発者がこれを取り入れて、カスタマイズして、自分のプロジェクトで使えるってことやで。これによって、音声からテキスト、テキストから音声へのテクノロジーのイノベーションが進むんや。
メタのセルフトート・イヴァリュエーターのアプローチは、AIトレーニングの新しい基準を設定する可能性があるんや。人間の入力ではなく、AIのフィードバックに焦点を当てることで、メタはより拡張性が高く、効率的で正確なモデルの可能性を切り開いとるんや。
この飛躍はAI研究者だけやなく、高性能AIシステムに依存するビジネスや産業にとっても重要なんや。AIがヘルスケア、金融、教育など様々な産業に組み込まれていくにつれて、自律的に改善できるモデルが最先端を行くために不可欠になるやろうね。
実用面では、セルフトート・イヴァリュエーターは専門的な人間のアノテーターへの依存度を減らしとるんや。従来、これらのアノテーターはAIの出力を手作業で検証せなアカンかったんや。特にコーディング、科学研究、技術的な問題解決のようなタスクではな。
この検証プロセスは、タスクの複雑さによっては何週間、場合によっては何ヶ月もかかることがあったんや。でも、メタの新しいモデルを使うと、検証プロセスが瞬時に行われるようになるんや。AIが自分自身をチェックして、改善が必要な領域を特定し、その場で適応するんや。
さらに、メタはこの自己評価メソッドをより広範なAIエコシステムに統合しとるんや。彼らのミッションは、高度な機械知能(AMI)を実現することや。これは単に賢いだけやなく、人間の知能に近いかそれ以上のレベルで推論、学習、適応できるAIのレベルを指すんや。
セルフトート・イヴァリュエーターは、そのゴールに向けた基礎的なステップなんや。AIが自己評価と改善を行えるようにすることで、メタは継続的な人間の監督なしに、デジタルエージェントがより複雑なタスクを引き受けられる未来に近づけとるんやで。
せやから、これからどうなるんやろか。まず一つ言えるのは、この新しい自律型AIシステムの時代によって、私たちとテクノロジーとの関わり方が劇的に変わる可能性があるってことやな。
AIアシスタントが、科学研究から日常的なタスクまで、コード作成や医療診断など、人間のチェックを必要とせずに全てを処理できる未来が見えてきとるんや。これはAI自身によって駆動される、学習と改善の自己持続的なサイクルなんや。
せやな、今日のビデオはこれで終わりや。役に立ったと思うなら、ええなボタンを押してな。まだやったら購読もよろしくな。これからもAIの最新情報をどんどん届けていくで。
見てくれてありがとう。また次回会おな!

コメント

タイトルとURLをコピーしました