OpenAIがDeepSeekに模倣された証拠を提示！

5,583 文字

OpenAIには、DeepSeekが彼らのモデルを使って知識を抽出したという実質的な証拠があり、OpenAIはこのことを非常に不快に感じているようです。OpenAIは基本的に、中国のDeepSeekが自社のモデルを使って競合モデルを訓練したという証拠を持っていると主張しています。彼らは本質的に、DeepSeekがOpenAIの出力を使って実際に自社のモデルを訓練したと主張しているのです。
これは大きなニュースです。なぜなら、DeepSeekのパフォーマンスと、そのモデルを作成するのにかかったコストに関するニュースが株式市場で非常に興味深い展開をもたらしているからです。
これは非常に重要なニュースです。なぜなら、これはOpenAIが知的財産権侵害の疑いでDeepSeekを訴える可能性があることを意味するからです。現在インターネット上で出回っている重要な証拠の一つが、このスクリーンショットです。
人々が気づき始めたことの一つは、DeepSeekに「あなたは誰ですか？」と尋ねると、しばしばランダムな会話の中で、自身をOpenAIによって開発された大規模言語モデルとして参照することがあるということです。これは、もしモデルがOpenAIのモデルの出力で訓練されていた場合、その訓練に使用された応答の中で、モデルが本質的に「OpenAIによって開発されたAIとして」と述べているためです。
これはDeepSeekの出力で見られることであり、非常に重要です。なぜなら、もしDeepSeekがOpenAIの出力で訓練されていない独自のモデルであれば、DeepSeek社によって開発されたモデルだと言うはずだからです。しかし、多くの場合、このモデルは自身をOpenAIによって開発されたモデルとして参照しており、これは現在出回っているニュースの文脈では良くないように見えます。
最近、DeepSeekがこれを変更したことは知っています。今、メッセージを送って「誰があなたを開発しましたか？」と尋ねると、「私はDeepSeekによって開発された」と答えますが、以前は実際に「私はOpenAIによって開発された大規模言語モデルです」と言っていました。これは当然、OpenAIの出力で訓練を行ったからでしょう。
ここで、OpenAIは他にも証拠があると述べています。中国のAIスタートアップであるDeepSeekが、米国企業の独自モデルを使って独自のオープンソース競合モデルを訓練したという知的財産権侵害の懸念が高まっています。
OpenAIが本質的に主張しているのは、モデル蒸留の証拠を見たということです。機械学習では、大規模モデルの能力を小規模モデルに組み込みたいと考えます。包括的なデータセットで訓練された大規模モデルが知識の複雑なパターンを捉え、その後、より効率的なリソース使用のために初期化された小規模な学生モデルが、教師モデルの出力を使って訓練されます。
この学生モデルは、教師モデルの出力分布を模倣するように調整され、教師モデルが学習した微妙な情報を捉えます。この場合、それはOpenAIのo1モデルか、彼らがこの場合に使用した何らかのモデルでしょう。
OpenAI自身もこれを使用しています。彼らは非常に賢いモデルを蒸留しており、例えば、GPT-5と呼ばれる内部モデル（あるいはOrionと呼ばれているかもしれません。正確なモデル名は分かりません）を持っています。本質的に、そのモデルの能力をGPT-4oのようなモデルに蒸留して、より安価なコストで提供できるようにしています。
Groの CEO Jonathan Rossが、蒸留についてどのように述べているか、そしてDeepSeekがOpenAIからどのように急速にAI能力を進歩させることができたかを見てみましょう。
これがどのように機能するかというと、既に非常に優れたモデルがある場合、単にそのモデルにデータを生成させ、そのレベルまで一気に引き上げるのです。それが彼らのやったことです。確かに、彼らは訓練に600万ドルほどを費やしましたが、OpenAIモデルの蒸留やスクレイピングにはもっと多くを費やしました。
OpenAIは事実上、このモデルの訓練を意図せず補助していたことになります。なぜなら、彼らはOpenAIを使用していたからです。噂によると、OpenAIはまだAPIの各トークンでは完全には収益を上げていないかもしれません。サブスクリプションではおそらく収益を上げていますが、APIではそうではありません。
つまり、彼らが生成する各トークンで実際には少し損失を出している一方で、DeepSeekは訓練データを得ていたということです。これは実際に考えてみると非常に驚くべきことです。
全体的に見ると、おそらくDeepSeekはOpenAIから盗んでいたのかもしれません。記事は続けて、この技術は開発者が大規模でより高性能なモデルの出力を使用して、より小規模なモデルでより良いパフォーマンスを得るために使用する手法だと述べています。
これにより、特定のタスクで同様の結果をはるかに低いコストで達成することができます。蒸留は業界では一般的な慣行ですが、問題はDeepSeekがこれを使用して自社の競合モデルを構築していたことであり、これはOpenAIの利用規約に違反しています。
この全ての中で驚くべきことは、OpenAIが実際にその証拠の詳細を提供したがらないということです。利用規約では、OpenAIと競合するためにそのサービスのコピーを使用することはできないと述べていますが、それが私が焦点を当てたい点ではありません。
重要なのは、OpenAIが詳細を提供していないということです。もし提供してしまえば、DeepSeekは証拠を隠蔽する可能性があるからです。例えば、先ほど私が説明したように、DeepSeekが時々自身をOpenAIとして参照していた件について、彼らは今ではそれを削除しました。
現在では自身について言及する際には常に「私はDeepSeekです」と言います。しかし、これは重要な証拠です。なぜなら、もしあなたのモデルが自社で訓練されたものであれば、「私はOpenAIの大規模言語モデルです」とは言わないはずだからです。
彼らには良い防御がありますが、それは、インターネットの大部分で訓練を行い、そのインターネットの大部分にはOpenAIのモデルのテキストが含まれているというものです。彼らが完全に窮地に追い込まれることはないでしょう。
政府任命のAIリーダーであり、AI政策、規制、戦略の監督と管理を担当しているDavid Saxsが最近のインタビューで述べたことを見てみましょう。彼は、これがまさにDeepSeekが現在のモデルの能力を獲得するために行った可能性が高いと述べています。
AIには蒸留と呼ばれる技術があり、これについて今後多く耳にすることになるでしょう。それは、あるモデルが別のモデルから学習する場合です。本質的に、学生モデルが親モデルに多くの質問をするのです。ちょうど人間が学習するように。しかし、AIは何百万もの質問をすることができます。
彼らは本質的に親モデルから学んだ推論プロセスを模倣し、親モデルから知識を吸い出すことができます。DeepSeekがここで行ったのは、OpenAIのモデルから知識を蒸留したという実質的な証拠があります。OpenAIはこのことを非常に不快に感じているようです。
今後数ヶ月で見られるであろう一つのことは、主要なAI企業が蒸留を防ぐための措置を講じることです。主要なAI企業が第三者企業による蒸留を防ぐことができるかどうか、私たちは見守ることになるでしょう。それは確かにこのようなコピーの一部を遅らせることになるでしょう。
OpenAIの利用規約を見ると、明確に述べられていることの一つは、彼らの出力をOpenAIと競合するモデルの開発に使用することは単にできないということです。この場合、DeepSeekはOpenAIの直接の競合相手なので、もし彼らがこれを行ったのであれば、OpenAIは複数の異なる根拠で彼らを訴える可能性があります。
また、ここでは、サービス（モデル、アルゴリズム、システムを含む）のソースコードや基盤となるコンポーネントをリバースエンジニアリング、デコンパイル、発見しようとすることや、そのような行為を支援することもできないと述べられています。
これは明らかに何らかの利用規約違反であり、OpenAIがこれらの条項や根拠でDeepSeekを訴えても驚きません。記事は続けて、スタートアップや学術界がチャットGPTなどの人間に合わせた商用LLMの出力を使用して別のモデルを訓練することは非常に一般的な慣行だと述べています。
これは、カリフォルニア大学バークレー校のPHD保持者が述べたことです。それは、このような人間のフィードバックのステップ3を全て得られることを意味し、DeepSeekが同じことをしているとされているのは驚くことではありません。
この慣行を正確に止めることは難しいかもしれません。誰かがモデルと単にチャットしているのか、それとも特定の出力を得るためにモデルを使用して独自のモデルを構築しているのかを判断するのは、一体どうやって可能なのでしょうか。
これは実際に判断が非常に困難なことになるでしょう。OpenAIは今になって単にレート制限などを課すことはできません。なぜなら、それは開発者にとってそのサービスをほぼ使い物にならなくしてしまうからです。彼らは、個人がどのようにしてこれを行っているのかを正確に把握するのに苦労することになるでしょう。
記事にはここで、「私たちは中国を拠点とする企業やその他の企業が常に主要な米国AI企業のモデルを蒸留しようとしていることを知っています」というOpenAIの最新の声明が記載されています。
また、彼らは「私たちはIPを保護するための対抗措置を講じており、それには、リリースされるモデルにどのフロンティア機能を含めるかについての慎重なプロセスが含まれます。最も高性能なモデルを敵対者や競合他社による米国技術の取得の試みから最善の形で保護するために、米国政府と緊密に協力していることが非常に重要です」とも述べています。
もちろん、中国が米国の技術をコピーするのはこれが初めてではありません。中国が様々な手段で営業秘密を盗んだ事例は数多くあります。
2024年3月7日、元GoogleエンジニアがAI機密情報を盗んだとして起訴されました。元Googleソフトウェアエンジニアが、2つの中国企業のために秘密裏に働きながらAIに関する営業秘密を盗んだとして米国によって起訴されました。この人物は500以上の機密ファイルを盗み、それは非常に驚くべきことでした。
これは中国がこのようなことを行った唯一の例ではありません。公開されているモデルからこの情報を盗んだり蒸留したりすることができたとしても、私には驚きません。
この情報がある一方で、実に面白いことが起きています。多くの人々が基本的に、「確かに彼らはOpenAIのo1モデルの知識をR1に蒸留したかもしれない。でもOpenAIは本当に文句を言えるのか？」と言っています。
なぜなら、最近OpenAIが訓練データに関する訴訟で潜在的な証拠を誤って削除してしまったからです。彼らが言及していることに馴染みがない場合、このように理解してください。
OpenAIは基本的に「DeepSeek、なぜ私たちのデータをコピーしているのか？」と言っています。しかし、ほとんどの人は「ちょっと待って、OpenAIはインターネット上の利用可能な公開データを全てスクレイピングして、誰にも対価を支払わなかったのに、どうして人々がデータをコピーしていると言えるのか？」と考えています。
ほとんどの人々は基本的に、「OpenAI、あなたたちはクレジットを誰にも与えることなくインターネットから全てのデータをスクレイピングしました。そして、その上で訓練データに関する訴訟で潜在的な証拠を”うっかり”（ウィンク）消してしまいました」と言っています。
OpenAIのエンジニアが特定の訴訟で重要な証拠を誤って消去してしまったのは驚くべきことです。今のAIは本当に波乱万丈です。
また、私が非常に興味深いと感じるのは、実際のベンチマークです。LMsチャットボットアリーナを見てみましょう。これは、実際の人間がチャットボットアリーナで評価するという点で、ある程度独立した評価の一つです。
このベンチマークの仕組みに馴染みがない場合、本質的には一つのプロンプトをチャットボットに入力し、二つの応答を得ます。あなたはどの応答がどのモデルからのものかを知らされず、ブラインドテストで、どちらの応答がより良いと思うかを評価します。
そして時間とともに、人々が本質的にモデルをブラインドテストした際に、どのモデルを好むかが分かってきます。現在、DeepSeekはチャットGPTとGeminiの新モデルと同率で1位となっています。
私が特定のベンチマークに懐疑的であっても、これは実際にかなり優れたモデルです。しかし、Simpleベンチのようなベンチマークでは、推論を実際に見ています。これは実際の人間のような推論です。
例えば、氷が溶けるのにかかる時間（分）や、人間にとって実際に非常に簡単な単純な質問などです。私はここで具体的な質問を述べたくありませんが、人間のベースラインは85%程度ですが、DeepSeek R1は…