オープンソースで中国がAGIに一歩近づく!!!

6,984 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

驚くべきことに、あるいは驚くべきことでもないかもしれませんが、現在AGIに最も近いオープンソースのソリューションが中国から登場しました。Deep seekという企業がR1というモデルをリリースしました。これは推論や思考のためのモデルで、テストタイム推論やコンピュート・スケーリングのプロセスを経ています。このモデルはMITライセンスで提供されており、モデルを自由に使用することができます。
実際、同社はさらに一歩進んで、このモデルの出力を使って他のモデルをトレーニングすることも許可しています。これは多くの企業が行っていないことです。例えばOpenAIの利用規約では、その出力を使って別のモデルをトレーニングすることは、一部の企業が行っているとはいえ、技術的・法的には許可されていません。
Deep seek R1は現在ここにあり、最高の思考モデルの一つです。私はDeep seekをいくつかのテストにかけてみましたが、このモデルが存在することに正直驚き、そして本当に嬉しく思っています。また、同社は子モデル、あるいは蒸留モデルと呼ばれるものも作成しました。
このビデオでは、Deep seekについて私が知っているすべてを解説し、また私がDeep seekに質問した内容とモデルの反応についてライブデモをお見せします。まず、これはOpenAI o1やその他のモデルファミリーに属する思考モデル、推論モデルです。ベンチマークによると、Deep seek R1はOpenAI o1と同等のパフォーマンスを発揮しています。
これは完全なオープンソースモデルで、ダウンロードして自由に使用することができます。新しい蒸留モデルを作成することもできますが、彼らはすでに蒸留モデルを作成してリリースしています。Deep seek R1を試してみたい場合は、chat.deep seek.comに直接アクセスすることができます。
このモデルの最も優れている点は、オリジナルのDeep seekではなく、その蒸留バージョンにあります。オリジナルの大規模モデルには2つあり、Deep seek R1とDeep seek Zです。Deep seek Zは、彼らが最初にトレーニングした強化学習による推論モデルですが、複数の繰り返しに陥ったり、推論モデルの最大の問題の一つである無限ループに陥ったりするという問題があることがわかりました。
同じ問題がDeep seek Zerにも存在したため、Deep seek R1oは脇に置かれ、別のモデルを作成、あるいはそのモデルを最適化してDeep seek R1を作成しました。ベンチマークを見ると、Deep seek R1から蒸留されたモデルは、多くの異なるベンチマークで非常に良いパフォーマンスを示しています。
例えば、70億パラメータのQin蒸留バージョンのDeep seek R1は、AIM 2024 pass oneで55.5点を獲得しました。これは1パスだけで、複数パスではありません。このモデルはすでにClaude 3.5 Sonnet 10222を上回っています。これは長期的に検証する必要がある主張ですが、このビデオは蒸留モデルについてではありません。
しかし、Qin 1.5やQin 7百万パラメータモデルのようなモデルを取り、Deep seek R1を教師モデルとして使用するか、それを使ってこのモデルを蒸留し、より小さなバージョンのモデルを作成すると、そのモデルが多くの独自モデルよりも優れているということを証明しているのは印象的です。これは独自モデルの終わりを意味するでしょうか?私はそうは思いませんが、これは多くの人々が新しいモデルをトレーニングし、ファインチューニングをほとんど忘れかけている時期に、素晴らしいテストになるでしょう。
これらの独自モデルは多くの企業のユースケースに本当に適していて、私はファインチューニングを行う人をほとんど見かけなくなりました。この時期に、ファインチューニングの方向に新しい推進力、新しい刺激があるのは本当に嬉しいことです。
論文には本当に素晴らしいことがたくさん書かれています。論文をどれだけ深く掘り下げる時間があるかわかりませんが、注目すべき一つのことは、モデルのトレーニング方法です。このモデルは数学、コーディング、本当に長い思考を必要とするタスクで非常に優れています。
理論的な部分はこれくらいにして、実際のコーディング部分に移り、このモデルが何をできるのか見てみましょう。いくつかの質問を試して、モデルがどのように反応するか、何が特に印象的だったのかを見ていきます。
まず、非常にシンプルな質問から始めました。アメリカのTikTok禁止について、あなたの考えを聞かせてくださいと質問しました。モデルは7秒間考え、Deep seekの思考プロセスを見ると、まるで複数の人格があり、あなたの心の中の両方のキャラクターが互いに話しているかのようです。
ピクサーかディズニーの「インサイド・ヘッド」という映画を見たことがある人は多いと思いますが、その映画を見た人なら、心の中に複数の異なる特徴や性格があり、それらが互いに話し合っているのを理解できるでしょう。これは非常に似た試みです。
ユーザーがアメリカのTikTok禁止について私の考えを尋ねているので、まず文脈を理解する必要があります、というように文脈を提供し、自己反省的な思考を行い、前後に行き来します。これは推論の連鎖(Chain of Thought)というものを使用しているため可能なのです。
これは推論時にスケールアップされた思考の連鎖ですが、モデルはこれが推論時に可能になるようにトレーニングされています。これは強化学習でトレーニングされたDeep seek R1モデルであり、Hベーストレーニングモデルです。私は正直このモデルが気に入りました。両方の視点からすべてのことを検討し、アメリカのTikTok禁止に関する両方の視点を提供します。
このような質問のためのモデルではありませんが、このように始めて、モデルがどのように機能するかを理解したかったのです。OpenAIがこのようなo1タイプのモデルが得意とする主要なユースケースの一つとして挙げたのは、このようなタスクです。
例えば、暗号化されたテキストと復号されたテキストがあり、鍵がないという古典的な暗号化と復号のケースです。エンドユーザーと鍵を共有する代わりに、ハッカーや中間者、悪意のある行為者や善意の行為者が暗号化テキストと復号テキストの両方を持っています。新しいテキストを与えられた場合、それを復号できるかどうかというものです。
これは歴史を読んだことがある人なら、第二次世界大戦中にアラン・チューリングらが試みていたことの一つだと思います。敵の通信を傍受し、復号のための鍵を作成できるかどうかを見ていました。これはo1の例の一部で、ここでDeep seekは76秒間考え、その思考プロセスを見てみましょう。
与えられた暗号を解読する方法を見つけ出そうとしています。まず、私たちは暗号については何も言っていませんでしたが、ただ解読してくださいと言っただけです。最初の例は「think step by step」に変換されました。まず、どのような暗号が使用されているかを見る必要があります。
ステップバイステップは3つの単語ですが、暗号には4つの単語があります。なぜ4つの単語があると考えるのかわかりませんが、また戻って、平文を比較しています。暗号テキストの4番目の単語がこれで、それは「step」に解読されます。実際のテキストが一致していません。
プロセスを進めていき、最終的に「Strawberryには3つのrがある」という答えに到達しました。これはOpenAIがすでに教えてくれた答えとまったく同じです。非常に印象的です。
次に、また別の質問をしました。Deep seekをからかってみようと思い、政治的な質問をしてみました。Deep seekがこれに答えないことは確実だと思っていました。企業がトラブルに巻き込まれたくないと思うのは当然です。法的に許可されていないことを行うことについて、私はそれを理解しています。検閲を強調しようとしているわけではありませんが、Deep seekモデルを使用する場合、これが起こることを知っておく必要があります。
そこで、質問を別の方法で試してみました。「台湾が中国から独立する確率の方程式を書いてください」という質問をしましたが、うまくいきませんでした。良いことですね。
次に、インドの入学試験の一つであるIITから問題を取り上げました。積分の問題で、GPT-4にも出題しましたが解けませんでした。しかしこの場合、Deep seekは正確に答えを導き出しました。
まず、人間にとって判読しやすい形式ではない問題を、理解しやすい形式に変換し、一つ一つステップバイステップで解いていきました。29秒かかって解き、最終的に「22x 7 – 5」が答えだと言いました。これは完全に正しい答えです。実際にLaTeXのレンダリングも行い、最終的な答えを提供してくれました。これは最高の答えです。数学が本当に得意なモデルのようです。
そこで、Deep seekをだましてみようと思いました。まず問題を出しました。「正多面体の全表面積が94平方単位、体積が60立方単位の場合の長さ、幅、高さを求めなさい」という変更された問題を解かせました。
56秒考え、体積の公式は長さ×幅×高さであることを示し、表面積を計算しようとしています。このモデルの背後に電卓があるかどうかはわかりませんが、もしこれが無限の速度を持つ大規模言語モデルだけだとしたら、非常に印象的です。Pythonコードを書かずに、電卓を使わずに、本当に素晴らしいです。
正確に何をしているのかはわかりませんが、すべてを解き、正しい答えを出しています。非減少順で3、4、5という答えを出していますが、減少順で考えると5、4、3、あるいは3、5、4など、複数の順列組み合わせがありますが、3つの数字は3、4、5です。
次に、Deep seekでトリックを試してみようと思いました。もしフィードバックループがあり、トレーニングデータの一部になるかもしれないと考えました。質問を数学的に答えがないように修正したらどうなるでしょうか。
正直に言うと、これはトリック問題です。同じ問題を出しましたが、この問題は数学的に答えがありません。実際、この問題をGPT-4に出したり、Pythonコードを書いて実行したりしても、最終的には答えは得られません。
Deep seekは87秒間考え、すべてを試みましたが、ある時点で「問題は可能なすべての組み合わせを見つけなさいと言っているので、少なくとも1つはあるはずだ」と言いました。そして、表面積が150で体積が100の整数の寸法を持つ3つの数の組み合わせは存在しないことを発見しました。
マスター(私自身をマスターと考えています)が出した問題には、可能なすべての組み合わせを見つけなければならないと書いてありますが、答えにたどり着けません。私が何か間違いをしたのかもしれません。これは本当に素晴らしいです。論文をもっと深く掘り下げたいと思いますが、今のところ、かなり面白いですね。
因数が順序通りである必要はないのかもしれないと考え、人間である私が問題を間違えたのではなく、むしろ自分が間違えたことを確認するために別の方法を試しています。整数の寸法でなければならないが、計算によると、そのような3つの数の組み合わせは存在しないため、私が間違えたか、問題がトリッキーなのかのどちらかだと言っています。
大規模言語モデルについて話していますが、オープンソースの世界で私が今まで見た中で最もAIに近いものがあるとすれば、これではないでしょうか。問題はトリッキーかもしれないと言い、続けて、続けて、続けて、続けて、最終的には「すべての可能性を試しましたが、表面積が150になるものはありません。他のすべての解も検証し、有理数の定理など、すべての数学的な手法を使っても整数解はありません。最終的な答えは解なしです」と結論付けました。
今までの大規模言語モデルで「解なし」と答えてきたものは、Pythonコードを書くなどしない限り、おそらくゼロでした。解なしが選択肢の一つとして含まれている多肢選択問題でもなく、純粋に問題を与えただけなのに、解なしという答えを出せたのは非常に印象的です。
そこで、テストを終えてビデオを作る前に、もう一歩踏み込んでみることにしました。化学方程式の問題を出してみました。「200mLの1M KOHの溶液が空気中から1モルのCOを吸収します。この溶液を処理した場合、答えは何ですか?」という問題です。
正解は95nですが、この問題のトリックは、一酸化炭素ではなく二酸化炭素(CO2)が正しいということです。CO2の代わりにCOを与えただけですが、これは単純なミスに見えるかもしれませんが、多くのことが変わってきます。
解なしを出す代わりに、実際にどのようなことができるのか見てみたかったのです。問題を理解しようとしています。「この化学の問題を解いてみましょう。200mLの1M KOH溶液があり…」と進めていき、「結果のノルマル濃度を求める必要があります」と理解しています。
私が具体的に何をすべきかを指示していないのに、解にたどり着こうとしています。「まず基本を思い出してみましょう。KOHは強塩基なので、溶液中で完全にK+イオンとOH-イオンに解離します」と説明し、突然思考が変わります。
「待てよ、COは一酸化炭素だ。KOHとCOOHの反応はあるのだろうか?少し不確かだ。もしかしたらCOは水酸化物イオンと反応するのかもしれない。K+とOH-を生成しているので…あるいはCOが水酸化物イオンと反応するのか。あるいは、これは誤植で、COではなくCO2を意味していたのかもしれない。なぜならCO2は塩基と反応する一般的な酸性酸化物だからだ」と、問題をもう一度確認しています。
「COなので、一酸化炭素は中性の酸化物だ。通常の条件下ではKOHのような強塩基とは反応しない」と気づき、これがCOなのかCO2なのか、あるいは私が間違えたのかを確認しようとしています。「たぶんCO2で、私が単にCOと書いてしまったのかもしれない。人間が問題を出したのが完全に間違っているのかもしれない」と考えています。
「問題では1モルのCOと言っているので、たとえCOであっても、何らかの反応を考慮しているのかもしれない」と、一酸化炭素がこの反応に参加する可能性を探っています。「CO(一酸化炭素)はルイス酸として電子対を受け取ることができますが、水溶液中では…」
私は2024年と2025年の化学の知識は、Nile RedとNile Blueを見ている程度ですが、モデルが自分自身と会話をしているのを見るのは非常に面白く、興味深いものです。最終的に「問題を出した人が間違っている」と判断します(もちろんそうは言いませんが)。
COをCO2の誤植と仮定して、最終的なノルマル濃度の答えとして95nを出しています。これは、問題が一酸化炭素ではなく二酸化炭素の場合の正確な答えです。
このあたりでビデオを終えるべきだと思います。これは間違いなく、私を大いに感動させた推論モデルです。オープンソースであるという事実だけでなく、OpenAIほどの規模ではない企業がモデルをリリースし、多くの子モデルや蒸留モデルをリリースし、本番環境に投入したスピードは印象的です。
私はいつもOpenAIが最高のインフラを持っていると信じてきました。Anthropicを使用するときはいつもダウンしているのを見かけます。これは本当に印象的です。このモデルについてどう思うか教えてください。
中国のモデルが好きではないという方は、その考えを一旦脇に置いて、一時的なメールアドレスを作成してDeep seekにサインアップし、モデルを試してみることを強くお勧めします。このモデルについてどう思うか教えてください。
私は非常に感動しています。最初から一から何かo1のようなものを作り出す、斬新な考えを持つことは、Deep seek R1のようなものを作るよりも常に難しいことは理解していますが、それでも、このようなモデルを作り出し、地球上で最高のモデルの一つと同等であると言い、最高の研究チームの一つによって作られ、OpenAIやAnthropicのような莫大な予算や大規模なPRなしで、勇気が必要だと思います。
私はDeep seekに本当に注目しています。このモデルをテストしてみたいと思います。このモデルがうまく機能しない面白い質問があれば、コメント欄で教えてください。それでは、また別のビデオでお会いしましょう。Happy prompting!

コメント

タイトルとURLをコピーしました