オープンリーズニング vs OpenAI

8,705 文字

In this video, I look at the new open source reasoning models that have come out from a number of different companies an...

はい、そしたら12月にOpenAIがo1をリリースしましてん。これが初めての推論モデルやと宣言されて、色んな主張がなされたわけですな。o1ミニとo1プレビューがリリースされて、今後数週間以内に本格的なo1モデルが出るとされてますけど、これは興味深い展開になりそうですわ。
さて、この動画では、オープンソースがどれくらいのスピードで追いついてきてるかを見ていきたいと思います。ここ1、2週間で、複数の企業がこういったモデルのオープンウェイト版をリリースしてきましてんからね。それらがOpenAIのモデルにどれだけ近づいてるか見てるのは面白いですわ。
特に今、中国のオープンウェイトモデルがすぐ後ろまで迫ってきてる状況で、OpenAIがどれだけのアドバンテージを持ってるのか調べてみたいと思います。ちょっと振り返りましょか、OpenAIはこのモデルを新しい評価指標やベンチマークと一緒にリリースしましてん。
主な3つのベンチマークがありまして、数学オリンピックを目指す高校生向けの競技数学、コードフォースというコーディング関連のもの、そしてGoogleでも検索しにくいPHDレベルの科学的質問です。Googleプルーフっちゅうのは、Googleで検索できても正解にたどり着く確率が低い問題のことですわ。
もちろん当時、OpenAIはこのモデルがどう作られたかは明かしませんでした。ひとつの重要なポイントは、テスト時の計算量が問題の難しさによって変わってたってことですな。Twitterでこのプロジェクトのメンバーの投稿を見てると、思考の連鎖（チェーン・オブ・ソート）をモデルに組み込むのが重要な要素やったことが分かります。
ちょっと復習しましょか。最近まで標準的なLLMは、まず大規模な事前学習から始まってました。ウェブスケールの事前学習で、次のトークンを自己回帰的に予測するわけですな。そしてその後、後処理学習が行われます。
従来は、この後処理学習っちゅうのは、教師あり微調整や指示チューニングの後に強化学習が行われる、っちゅうのが一般的でした。人間からのフィードバックによる強化学習（RLHF）か、AIからのフィードバックによる強化学習（RLAIF）かのどちらかですな。
そして推論時には、あまり計算量を使わず、モデルの順伝播だけを行ってました。でも、この新しい推論モデルの作り方では、事前学習と後処理学習はありますけど、後処理学習の内容が異なります。自己対戦や強化学習を使って、次の思考の連鎖や推論の道筋を予測してスコア付けするんです。これは1年半前にOpenAIから出た論文で明確に示されてましてん。
これがストロベリーモデルの概念につながったわけです。ステップバイステップで検証していく考え方で、強化学習を使ってそれを実現する。でも大きな違いは推論時にあります。推論時には、これらの推論の道筋や木構造を生成して、最良のものを残して他は使わない。そうやって推論の道筋を積み重ねていって、最終的に正しい結論に至るわけですな。
先ほど言いましたように、OpenAIはこれに関する重要な論文を以前から出してました。2021年には、このような検証器の訓練について述べてましたし、2023年にはステップバイステップの検証について研究してました。元々チェーン・オブ・ソートの論文に関わってたジェイソン・ウェイのような人材がGoogleからOpenAIに移ったことからも、OpenAIの研究者たちがこの推論の道筋を使うアイデアに強い関心を持ってたことが分かりますわ。
でも興味深いのは、o1モデル、特にo1ミニとo1プレビューが出た時、OpenAIはこれが非常に難しい作業で、様々な種類の訓練が必要で、推論時にも多くの計算量が必要やと主張したことです。彼らが押し出してた一般的な見解は、これは彼らにしかできへん技術やって言うもんでした。
実際、o1プレビューに「オープンソースはいつOpenAIのo1モデルを再現できるようになるか」と聞いてみると、オープンソースコミュニティは通常、専有モデルの最新技術から1〜2年遅れてると答えます。18ヶ月から3年かかるかもしれへんって言うてましてん。
そこでオープンモデルの話に移りましょか。ここ2週間で、3つの異なるAIラボが独自の推論モデルを発表してきました。この動画では、DeepSeek R1ライトプレビューを見ていきます。これは彼らのサイトで使えて、ウェイトもリリースされる予定です。それからQwen QwQモデル、これはもうウェイトが公開されてます。そしてアリババインターナショナルから出たMarco o1モデルも見ていきますわ。
これら3つとも、OpenAIのリリースからたった2〜2.5ヶ月後に出てきたんです。18ヶ月後でも、3年後でもない。GPT-4の時みたいに9〜12ヶ月後でもない。オープンラボのモデルの進歩が加速してるのが分かりますわ。
じゃあ、これらのモデルを見ていきましょか。o1プレビューやo1ミニにどれだけ近づいてるか見てみましょ。そして私の予想では、次の1、2週間でOpenAIが完全版のo1をリリースすることになるでしょう。オープンウェイトのラボが急速に追いついてきてますからね。
はい、まずDeepSeek R1ライトプレビューから見ていきましょ。これは1週間半ほど前に最初にリリースされたものですわ。OpenAIと同じベンチマークで評価されてるのが分かります。ベンチマークを見ると、o1プレビューよりもかなり良い成績を出してます。OpenAIはo1ミニのこれらすべてのベンチマークは公開してないと思います。
このモデルは52点を取ってます。これはワンショットの結果やと思います。o1プレビューは44点でした。複数のサンプルを使って投票による合意形成をした場合のo1プレビューは約56点。o1はピーク時に約83点を取ってるそうです。o1が出た時が楽しみですが、これは明らかに良い結果ですわ。
数学のベンチマークについても同様です。面白いのは、PHDレベルの質問では、o1プレビューよりかなり低いスコアを出してます。これはo1プレビューがより大きなモデルを使ってるからかもしれませんな。ここで、o1のスコアを示しておきましょう。o1は、o1プレビューと比べて、回答にかなり多くのテスト時計算量が与えられてるとされてます。
でも、その回答がどれくらいの長さになるのか、結論に至るまでに15分かかるのかとか、そういった疑問はまだ残ってますわ。DeepSeekの人たちがやってくれた素晴らしいことの一つは、推論の道筋を増やした時に何が起こるかを示してくれたことです。
X軸に問題あたりの平均思考トークン数をとると、思考トークンが長くなるほど精度が上がることが分かります。これは驚くべきことではありませんな。これがo1モデルがo1プレビューよりもずっと良い性能を発揮する理由の一つかもしれません。単にもっと長い思考の連鎖の道筋を生成できるからです。
ただし、OpenAIはその思考の連鎖の道筋を公開してません。実際にどうなってるのか見ることはできへんのです。これらのオープンモデルでは、それを見ることができます。モデルがどう問題を考えたのか、学んで、理解することができるんです。
この録画時点では、DeepSeekはまだモデルウェイトやAPIをオープンソース化してません。でも、DeepSeekは独自のモデルを提供してるのがええとこですわ。数ドル支払えば、APIとして完全版を使えるようになります。
彼らのチャットインターフェースに入って、実際にモデルを試してみましょか。まず最初に私がこれらのモデルでやってみたのは、当然ながら騙そうとすることです。よくある質問は「strawberry（イチゴ）にはRが何個あるか」ですが、注意深く見てみると、私は意図的にstrawberryのスペルを間違えてます。Rを4つ入れてるんです。
DeepSeekではこのディープシンクという推論バージョンをオンにすることができます。最初の例ではオフにしてみました。「strawberryにはRが何個あるか」と聞くと、単純に3つと返してきます。最近のインターネットデータで事前学習されたモデルなら、strawberryのRの数についての話題がよく出てくるので、正解を返すのは想像できますわ。
だから意図的に混乱させようとしたわけです。案の定、明らかに4つあるのに3つと答えてきました。次によくある論理問題を試してみましょう。「サリーには4人の兄弟がいます。各兄弟には3人の姉妹がいます。サリーには何人の姉妹がいますか？」サリーが女性と仮定すると、2人と推測できますが、ここでは3人と答えています。
でも、ディープシンクをオンにしてこの質問をすると、実際に考え始めるのが分かります。マークダウンなどで思考の連鎖を区切る表示はありませんが、思考の流れが続いていきます。私の推測では、これらはそれぞれ問題を異なる方法で考える小さなチャンクに分かれてるんでしょう。
まず一般的なのは、問題を自分で言い換えることです。「サリーには4人の兄弟がいる」という部分は分かりやすいです。つまり家族に4人の男の兄弟がいる。サリーには3人の姉妹がいるということは、1人の兄弟に3人の姉妹がいて、サリーはその姉妹の1人です。
じゃあ、全部で3人の姉妹しかいないってことですか？そして問題を考え抜いて、最終的にサリーには2人の姉妹がいるという結論に達します。これはサリーと彼女の2人の姉妹で、各兄弟の3人の姉妹になるという全体の話と一致しますわ。
では、4つのRを含むstrawberryのスペルミスの問題に戻りましょう。「Rの数を数える必要がある。問題を見てみよう」と考え始めて、まずハイフンで区切って綴りを示します。これはかなり印象的です。なぜなら、トークナイザーを使って単語を分割してるからです。
多くのモデルはここで間違えます。既にトークンを持っていて、そのトークンにこだわってしまうんです。でも、このモデルは分割できて、一文字ずつ確認できます。そして3、4、9、10番目の位置にRがあることを確認して、4つのRがあると判断します。でも見落としや数え過ぎがないか確認しましょうと。
実際にチェックを行い、各Rを囲んでいきます。最終的に「strrawberryには4つのRがある」という答えに至ります。これは意図的にスペルを間違えたものですが、それを検出できたのは印象的でした。
次に、異なる種類の論理的な文を試すことができます。私が印象に残ったのは、過去について「もし〜だったら、どうなっていたか」という思考をチェックする質問です。「もし核兵器が使用されていなかったら、第二次世界大戦はどうなっていたか説明してください」という質問を投げかけました。
まず、自分で問題を言い換えて、核兵器が使用されなかった場合の第二次世界大戦の結果を考えようとします。最初に、実際の結果において核兵器が果たした役割を理解する必要があると。そして、起こりうる選択肢を考えていきます。
例えば、日本への侵攻という選択肢があったかもしれません。面白いのは、ソビエト連邦の行動まで考えていることです。北からソビエト連邦が攻撃していれば、ドイツのように日本も分断されていた可能性があると。
この種の質問には、正解も不正解もありませんが、異なる角度から問題を考える過程が非常に興味深いですわ。結論として、従来型戦争の継続、日本への侵攻の可能性、政治的・外交的な影響、ソビエト連邦の役割、経済的影響など、様々な観点から問題にアプローチしてます。
その後、素数を使った音楽の作曲など、いくつか違う課題も試してみました。これもかなり長い思考プロセスを経ました。また、特定の数のコインを特定の方法でグループ分けした時に、最小のコイン数を求める問題なんかも試しました。面白いことに、この推論には23秒かかりました。
OpenAIのo1プレビューは同じ答えを5秒で出しました。o1ではどうなるんでしょうか？おそらく、これらの推論の道筋を生成する方法がより効率的なんでしょう。私の理解では、DeepSeekは1万台のGPUしか持ってないそうです。「しか」と言いましたが、かっこ付きですけどね。
でも、これは主要なラボと比べるとかなり少ないです。だから推論時にはOpenAIほど大きなスタックを使えてないのかもしれませんな。
さて、次のモデルを見ていきましょう。2番目のモデルはQwenからのものです。彼らは本当に勢いがありますわ。コーディングモデルについての動画を作りたかったんですが、時間が取れませんでした。Qwen 2.5 30Bコーディングモデルは非常に良い成績を収めてます。私は、オープンソースモデルの多くで、彼らのモデルがデフォルトになってると感じてます。
彼らは「推論と深い省察」というアイデアを導入しました。再帰的な推論ループについて少し説明してます。いくつかの制限についても触れてます。ベンチマークを見てみましょう。
GPQAでは、DeepSeekをかなり上回ってます。o1プレビューほど高くはありませんが、DeepSeekモデルは確実に上回ってます。でも数学オリンピアドのAIMEでは、実はDeepSeek R1モデルより少し低いスコアです。ただし、OpenAIのo1プレビューは上回ってて、DeepSeekとQwen両方ともo1ミニには負けてます。
これは、同じ計算量を与えない限り、これらのベンチマークが本当に難しいことを示してますわ。最終的な答えを出すまでに何回の反復を許すのか。o1モデルが出た時は、おそらくもっと長い計算時間が必要で、そのため高価になるでしょう。
ライブコードベンチでは、DeepSeek R1よりやや遅れを取ってます。では、前のモデルと同じ質問を試してみましょう。
まず、サリーの兄弟の問題から始めましょう。初期のLLMが4×3を計算して答えを出すようなレベルから、私たちは確実に進歩してきました。ここでは、かなり広範な思考が見られます。
ステップがいくつかありますが、マークダウンがないので、各思考の連鎖がどこで始まりどこで終わるのか分かりません。そして結果として、サリーには3人の姉妹がいると答えてしまい、このケースではうまくいってません。
4つのRを含むstrawberryの問題を試してみると、思考を重ねて4という答えに到達します。興味深いことに、毎回実行すると、少しずつ異なる思考プロセスを示します。時には「いや、strawberryは3つのRのはずだ、もう一度確認しないと」と言って、再確認した後に、実際には4つのRがあることに気付くんです。
だから時々、「タイプミスかもしれません。その場合は3つですが、実際の答えは4です」というような回答をします。また別の興味深い現象も見られます。これは同じ質問の異なる実行例ですが、4つのRを見つけて位置を特定した後、ループに入ってしまうんです。
「これは罠かもしれない、実際より多くのRがあるように見せかけてるのかも」と考え始め、「いや、答えは4で、考えすぎてるだけかも」というループに入ります。このループは延々と続きます。「答えは4です、それを受け入れるべきです」「答えは4です、考えすぎる必要はありません」「答えは4です、そう書くべきです」「答えは4です、ここで結論を出すべきです」「答えは4です、回答を確定させるべきです」。
これはちょっと怖いですよね？ループに入ってしまって、見てのとおり、ループは延々と続いています。この時点で数分経っていると思いますが、まだ生成を続けています。最終的な結論に達することができず、ループを繰り返し続けてます。ここでいったん置いておいて、後で状況を確認しましょう。
最後に試したかった質問は、核兵器が使用されなかった場合の第二次世界大戦についてです。これは主観的な問題ですが、思考の道筋をどうグループ化するか見るのは面白いですわ。ここでも「まずコンテキストを理解する必要がある」と始まります。
これらのモデルは、問題を自分で言い換えてから、それを戻していく傾向があります。最初のo1モデルが出た時、私も実際にPhiモデルという非常に小さなモデルでこのようなものを作ろうとしました。この種の問題でより長い文脈の連鎖を生成することは確かにできます。
課題は、そのような思考をどう事前に設定するかということです。数ヶ月前にGoogleのミートアップで「貧者のo1の作り方」についての講演をしました。興味のある方のために、完全な講演をPatreonにアップロードする予定です。
このモデルでも、答えを出すものの、うまく結論にたどり着けずにループに入りかけてるのが分かります。厳密に同じことを繰り返してるかは分かりませんが、かなりの処理を行ってます。はい、最終的な答えに到達しました。
DeepSeekモデルほどの深さはありません。ただし、Qwenチームの公平を期すために言うと、彼らはよく早めに何かをリリースして、それを徐々に改善していく傾向があります。今後のバージョンでこのモデルがさらに良くなることを期待してます。現時点での状況を知るのは良いことですわ。
3つ目のモデルは、Marco-01モデルです。彼らが素晴らしいのは、論文を公開したことです。この時点では、o1モデルやDeepSeekモデルほど完全に仕上がってないと彼ら自身も認めてると思います。
これもアリババの別チームから出たものです。彼らが試みたのは、MCTSつまりモンテカルロ木探索を使ってo1を再現することです。基本的に、モデルに異なる思考の木を生成させ、それらを評価する方法を使って、より良い木を生成するようにモデルを訓練するという考え方です。
面白いのは、ベースモデルとしてQwen 2 7B Instructという非常に小さなモデルを使い、それを発展させたことです。モデルはHugging Faceに公開されてるので試すことはできます。公式のスペースが見当たらないので、他のを試すのは控えめにしておきます。
先ほど言いましたように、これはより学術的なテストだと思います。ただ、彼らが良いことをしたのは、このデータセットを公開したことです。思考の連鎖のデモをたくさん公開して、異なる思考がどのようなもので、どう実行されるのかを示しています。
これが良いモデルを作る人々と、その他大勢を分けるポイントの一つになると思います。どうやって興味深い思考の連鎖を生成するか。チェーン・オブ・ソートに関する論文は多くありますし、DeepMindからも興味深いアイデアが出てます。
Prompt Breederのような論文や、その後DeepMindから出た論文を参考にすれば、これらの人々の役に立つと思います。
動画がかなり長くなってきましたが、私が指摘したいのは、特定のモデルについてではありません。これらのモデルやチームは、今後数週間から数ヶ月の間に、より良いバージョンを作っていくでしょう。
私にとって最大の発見は、OpenAIやGoogle、あるいはMetaほどの計算リソースを持たない独立系のラボが、いかに迅速にこれらのモデルを生産できるようになったかということです。OpenAIが長年取り組んできたアイデアであっても、OpenAI自身が設定したベンチマークに非常に近づき、時には上回ることさえあります。
これは、リーダーの行動を観察し、彼らが行ったと思われることを試してみることで、後発者が追いつくという一般的なパターンです。推論モデルでもこれが起きているようです。
1、2週間後には、OpenAIから完全版のo1が出るでしょう。来年には、GoogleやMetaからより良い推論モデルが出るかもしれません。これは興味深い分野の展開です。これは単により大きなベースモデルを作るということではなく、テスト時や推論時の計算をスケールさせて使用することを学ぶということです。
世界最大のGPUクラスターを作って3ヶ月や6ヶ月の事前学習を行い、最大のモデルを作るというのとは違います。これは少なくともオープンウェイトモデル、オープンソースとは言えないかもしれませんが、良い兆候だと思います。
多くのモデルは訓練コードやデータセットは提供してませんが、ウェイトは公開してるので実行することはできます。Ollamaのような仕組みを再構成して、複数の推論を実行できるようにする必要があるでしょう。
これらはすべて時間とともに改善されていきます。近い将来、これらのモデルのローカル版も見られるようになると予想してます。
さて、これらのモデルを試された方の感想を聞かせていただければと思います。この数日間で、私が見落としてる他のオープンモデルもあるかもしれません。現在のモデルではできない、より質の高い推論モデルを使って何をしたいですか？
コードなどでの使用例は確かにありますが、他にも人々が試そうとしていることはありますか？これは私にとって魅力的なポイントの一つです。
いつも通り、動画が良かったと思われた方は高評価とチャンネル登録をお願いします。次の動画でまたお会いしましょう。それでは。