マイクロソフトの新AI『PHI-4』、GoogleとOpenAIのモデルを凌駕

4,033 文字

Microsoft New AI "PHI 4" Superior to Google and OpenAI Models
Microsoft’s new AI model, PHI 4, is a groundbreaking generative AI with 14 billion parameters, designed to outperform la...

マイクロソフトが最新の生成AI モデルPHI-4をリリースし、AIにおいてサイズが全てではないことを証明しました。このPHIファミリーの最新モデルは、巨大なAIと比べると小規模かもしれませんが、そこは誤解しないでください。140億のパラメータを搭載したPHI-4は、サイズよりも品質を重視し、複雑な推論や数学の問題に取り組み、さらには遥かに大きなモデルをも凌駕する性能を発揮しています。
PHI-4の特徴は、従来のウェブコンテンツやコードリポジトリのようなデータセットに依存するのではなく、データの品質を重視していることです。マイクロソフトは大量の合成データを使用しました。このデータは無作為に生成されたものではなく、モデルが学習できるように構造化された段階的な課題を提供するように作られました。合成データにはここで利点があります。それは、トレーニングプロセスが実際の使用時にモデルが処理するタスクの種類と密接に一致することを保証するのです。PHI-4の場合、それは数学的問題解決や推論を重視したベンチマークのようなタスクを意味します。
マイクロソフトはまた、トレーニングプロセスを補完するために、厳選された高品質の人間が生成したコンテンツも含めました。このハイブリッドアプローチにより、PHI-4は高い精度を維持しながら、現実世界のシナリオをより広く理解できるようになりました。例えば、トレーニングでは、AIエージェントが相互作用してより良いデータを生成するマルチエージェントプロンプティングや、モデルがより直感的にタスクを把握できるように本質的にタスクを反転させる指示反転などの技術を使用しました。
ベンチマークはこのアプローチの効果を示しています。数学コンペティションの問題では、PHI-4はGoogleのGemini Pro 1.5やOpenAIのGPT-4oといった、はるかに大きなモデルをも上回る性能を発揮しています。数学のベンチマークで80.4点を獲得し、多くの競合モデルを上回りました。コーディングタスクでは、HumanEvalとHumanEval Plusで優れた結果を示し、単なる言語処理を超えた技術分野での能力を証明しました。このような性能は、賢く訓練された小規模なモデルが、より大規模なシステムと互角に渡り合えることを証明しています。
PHI-4の際立った特徴の1つは、性能と効率性のバランスです。GPT-4やGemini Ultraのような大規模モデルは、しばしば数千億のパラメータを持っており、計算コストが高くなります。PHI-4は遥かに少ない計算リソースで競争力のある結果を達成します。これは、高品質なAI機能を必要としながらも、大規模モデルをサポートするインフラを持たない企業や組織にとって理想的な選択肢となります。
この成功の多くは、マイクロソフトが導入したトレーニング後のイノベーションによるものです。直接選好最適化(DPO)のようなプロセスを導入し、異なる出力を比較してAIを最も正確で有用な方向へ導くことで、モデルの応答を微調整しています。推論を重視するタスクでは、DPOは顕著な違いを生み出します。また、レジェクションサンプリングという方法も導入され、トレーニングプロセス中に精度が低いまたは有用性の低い応答がフィルタリングされます。これらの技術を組み合わせることで、モデルの出力は前世代を超える水準にまで洗練されています。
PHI-4は高性能を提供するだけではなく、安全性と信頼性を念頭に設計されています。マイクロソフトは開発プロセスに責任あるAIの実践を組み込みました。例えば、Azure AI Foundryプラットフォームはリスクを監視・管理するツールを提供し、AIが倫理的基準に沿って維持されることを確保しています。プロンプトシールドやコンテンツフィルターなどの機能が追加の保護層を提供し、PHI-4を強力かつ安全に展開できるモデルにしています。
このモデルのタイミングには興味深い背景があります。PHI-4は、マイクロソフトのAI部門の重要人物であるセバスチャン・ブブエックが10月にOpenAIに移籍して以来、初めてのPHIモデルです。しかし、彼の退社後もチームの勢いは衰えていません。マイクロソフトは明らかにこの分野でのイノベーションへの取り組みを強化しています。
モデルのトレーニングプロセスは、その成功の大きな要因でした。マイクロソフトは事前トレーニングで10兆以上のトークンを使用し、合成データと慎重にフィルタリングされたウェブコンテンツを組み合わせました。ただランダムにデータを投入するのではなく、あらゆるデータが厳選され、フィルタリングされ、PHI-4の可能性を押し広げるように最適化されました。合成データセットは、推論と問題解決能力に挑戦するシナリオを作り出すためにゼロから構築されました。ウェブコンテンツやコードリポジトリなどの有機的なデータセットは、品質と関連性について綿密にフィルタリングされました。
PHI-4のトレーニングのユニークな側面は、ピボタルトークンサーチの使用でした。この技術は、次のトークンが全体の結果に大きく影響を与える可能性のある、モデル出力の重要なポイントを特定します。これらのピボタルな瞬間に焦点を当てることで、トレーニングプロセスはより的を絞った効率的なものとなります。これは、モデルに最も重要なタスクの部分にスポットライトを当てるようなもので、最も重要な事柄を確実に学習させます。
140億のパラメータしかないにもかかわらず、PHI-4は特定のベンチマークで、より大きなモデルをも凌駕する性能を示しています。大学院レベルのSTEM問題や数学的推論のようなタスクで、PHI-4は前身のGPT-4oよりも高いスコアを記録しました。また、Llama 3を含む多くのOpenAIモデルを上回る印象的なコーディング能力も示しました。
しかし、いくつかの制限もあります。PHI-4は推論と問題解決に長けていますが、特定のフォーマットや構造化された出力を含むタスクにおいて、厳密な指示に従うことに苦労します。また、存在しない人物について詳細を作り出すなど、幻覚情報を生成する場合もあります。これらは、追加のトレーニングを通じて指示への従順性を改善し、可能であればリアルタイム検索機能でモデルを補強することで、マイクロソフトが既に取り組んでいる領域です。
現在、PHI-4はMicrosoft Azure AI Foundryプラットフォームを通じて限定的な研究プレビューで利用可能です。研究者はマイクロソフトの研究ライセンス契約の下でアクセスできますが、まだ広く利用可能ではありません。ただし、近々Hugging Faceでリリースする計画があり、これによってより広範な利用者にアクセスの門戸が開かれることになります。
このモデルは中規模企業にとって大きな意味を持ちます。その効率性により、より大規模なモデルに関連する高コストを懸念して、AIの採用を躊躇していた企業にとってアクセスしやすいものとなります。PHI-4の低い計算要求により、企業はインフラを大幅に改修したり、予算を超過したりすることなく、高度なAI機能を統合できます。
マイクロソフトの責任あるAIへのアプローチは、再度強調する価値があります。モデルは、マイクロソフトのAIレッドチームによる二重のレッドチーミング演習を含む、厳格な安全性テストを受けました。彼らは脆弱性、リスクの高い行動、システムを悪用する方法を探しましたが、PHI-4は敵対的攻撃やプロンプト操作に対して強力な防御を示しました。
マイクロソフトはまた、AIの開発における一般的な問題であるデータの汚染にも対処しました。彼らはトレーニングデータがベンチマークと重複しないよう、除染プロセスを改善しました。これにより、モデルが事前にテスト問題に触れることでチートすることを防ぎ、結果の信頼性を高めています。
長いコンテキストのタスクは、PHI-4が輝くもう一つの領域です。マイクロソフトは、トレーニング中期にモデルのコンテキスト長を4,000から16,000トークンに拡張しました。これにより、長文書の要約やデータセット全体にわたる推論など、より複雑な多段階のタスクを処理できるようになりました。実世界のシナリオでは、この能力は法律、研究、技術文書などの分野でのアプリケーションにとって重要です。
数字がこれを裏付けています。HELMロングコンテキスト評価のようなベンチマークでは、PHI-4は一部の大規模モデルをも上回る例外的な性能を発揮しました。長い入力から詳細な情報を取得・処理する際の精度が印象的で、より広いコンテキストの理解を必要とするタスクにおいて強力な競争力を持っています。
安全性はPHI-4の設計における後付けの考慮事項ではありませんでした。マイクロソフトは、幻覚を減らし、人間の選好とのモデルの整合性を改善することに焦点を当てた、教師あり微調整データセットを組み込みました。また、有害なコンテンツの生成やバイアスについても、PHI-4を広範にテストしました。結果として、単に性能が良いだけでなく、責任を持って機能するモデルが生まれました。
PHI-4には多くの期待できる要素があります。効率的で革新的であり、推論と問題解決における特定の課題に取り組むように設計されています。データの品質を優先し、最先端のトレーニング技術を組み込むことで、マイクロソフトは競争の激しい分野で際立つモデルを作り出しました。研究者、開発者、そしてAIの採用を検討している企業にとって、PHI-4は小規模なモデルが目的を持って精密に訓練された場合に可能となることを示す一例となっています。

コメント

タイトルとURLをコピーしました