
AIが急速に拡大している中、特にモデルのリリース分野では、今日の動画でいくつかのブレイクスルーについて話をします。また、トップAI研究所のCEOたちによる予測も紹介します。これらは、今後の展望をどう捉えるかを形作るものです。
人工知能に関する今週の、というよりもAIの進歩速度を考えると今日の最初のニュースは、メタボットについてです。これはGitHubネイティブの最先端コーディングエージェントで、ソフトウェアエンジニアリングベンチマークで38%のスコアを獲得しました。これは以前の最高記録33%を上回るものです。これは本当に驚くべきことです。なぜなら、オープンソースだと思いますが、Devon、アリババ、Factory、IBMリサーチを打ち負かしたからです。彼らは新しい認知アーキテクチャを使用して、構造化されたワークフローの問題を解決しています。まず文脈を収集し、計画を立てて編集し、その計画を個々の編集に分解し、それらの編集を適用します。そして、ここで見られるように、テストとレビューを行い、計画に欠陥があれば計画段階に戻り、さらに文脈が必要な場合は文脈を収集し、最後に提出します。この小さな…いや、小さいとは言えませんが、この本当に面白くて賢いアーキテクチャによって、彼らは最先端のシステムを打ち負かすことができました。
これが驚くべきだと思う理由は、つい数日前にこれを手に入れたばかりだからです。メタボットの功績を奪うつもりはありませんが、Factory AIについての動画を作ったばかりで、「すごい、この人たちは新しいインフラを使ってソフトウェアエンジニアリングベンチマークで31.67%を獲得した」と言っていたのに、もう既にそれを超えているのを見ると、AIの開発がいかに驚異的かがわかります。
このチームは何ヶ月もの試行錯誤を重ね、今では実際に使えるプロダクトになっています。これらの問題を効果的に解決するために使用できるのは、本当にすごいことです。今後数年間でソフトウェア開発がどれだけ進歩するのか、非常に興味深いところです。文字通り2週間ごとに、たとえ2%の改善であっても、それを数年間積み重ねると、改善の速度は絶対に信じられないほどになるでしょう。
さらに驚くべきことに、GoogleがGemma 2をリリースしました。これは270億パラメータと90億パラメータの2つのモデルです。GoogleのGemma 2は、チャットボットアリーナでLlama 3(700億パラメータ)、Qwen 2(720億パラメータ)、Claude 3を上回っているのです。これは本当に驚くべきことです。270億パラメータのモデルがLlama 3、Qwen 2、Claude 3をチャットボットアリーナで打ち負かしているのです。
はい、これは実際の客観的なベンチマーク、例えばMMLUではありませんが、ユーザーが話しているモデルの種類を認識していないかもしれないという点で、かなり印象的だと思います。この画像は左に頭を傾けないと読めないので好きではありませんが、270億パラメータモデルのランキングを示しています。ここに270億パラメータモデルのGoogleのGemma 2があり、そしてもちろん90億パラメータモデルがここにあります。これらすべてのモデルを上回っているのは本当に驚くべきことです。先ほど言ったように、これは主観的な評価であり、厳密なベンチマークではありません。実際の厳密なベンチマークはここにあります。
Llama 3と同等のパフォーマンスを示していますが、80億対90億パラメータモデルでは、実際にLlama 3よりも少し良い結果を出しています。これは、先ほど言ったように、本当に驚くべきことです。Llama 3がリリースされたとき、そのサイズに対して最高のパフォーマンスを示す、ある意味で最先端のモデルだったからです。情報をどれだけ凝縮できたかという点で最高でした。
これは本当に驚いたことです。Gemma 2についての情報は以前から得ていましたが、こんなに小さくてこんなに優れているとは思っていませんでした。これは、Googleが実際に製品を出荷していることを示しています。前回の動画で言ったように、スンダー・ピチャイとデミス・ハサビスが、まだGoogleを完全に軌道修正したわけではありませんが、実際にモデルの出荷を始めたことがわかります。
これの本当に素晴らしい点は、これがオープンソースだということです。これは、卓越したパフォーマンス、比類のない効率性、コスト削減、そして試したいことに対して驚異的な速さを持つオープンモデルです。これは本当に高速で、簡単に使用でき、幅広いフレームワークと互換性があります。Gemma 3やGemma 4になると、彼らが達成できることに関して驚くべき改善が見られると思います。私は本当にこれに興奮しています。
Googleからのもう一つの素晴らしいニュースは、Gemini 1.5 Proで200万トークンのコンテキスト長を実現し、コード実行機能を備えたことです。GMA 2は今日から利用可能です。ここでは、「I/Oで、Googleの Gemini 1.5 Proで200万トークンという過去最長のコンテキストウィンドウをウェイトリスト付きで発表しましたが、今日、すべての開発者に Gemini 1.5 Proの200万トークンコンテキストウィンドウへのアクセスを開放します。コンテキストウィンドウが大きくなるにつれて入力コストも増加する可能性があるため、開発者のコスト削減を支援するために、Gemini 1.5 ProとPlus用のGemini APIでコンテキストキャッシュを開始しました」とあります。
これは本当にすごいことです。なぜなら、我々は今200万のコンテキスト長を持っていて、さらに驚くべきことに、OpenAIのような他のモデルがこれに追いついていないからです。しかし、GPT-4の秘密の論文に注目した人なら、彼らが実際に100万トークンのコンテキスト長を持つモデルを持っていることを知っているでしょう。私は、それがGPT-4だと思います。実際にその秘密の記事を見せましょう。能力の探索のところまでスクロールダウンして、ビデオの部分まで行きます。正確にどこにあるかわかりませんが、講義の要約のところまでスクロールダウンすると、ここでOpenAIのGPT-4が45分のビデオを取り込めることがわかります。これは約100万トークンだと推測します。なぜなら、これはGoogleがデモビデオで使用したのとほぼ同じ長さだからです。
ここで見られるように、OpenAIはまだこのモデルを出荷していませんが、すべての主要なモデルでコンテキスト長が増加する方向に向かっているようです。しかし、Googleが他の人々が行ったことを認識し、それを実現したように見えます。もう一度言いますが、彼らが何をしたのかは確かではありませんが、デミス・ハサビスは実際に、Googleが200万のコンテキスト長を実現するためのブレイクスルーを達成したと話していました。彼らは、他の誰よりも先にこの長さに到達するためのブレイクスルーについて語っていました。
Googleが本当に製品を出荷し始めているようで、今後数ヶ月間でGoogleから最も期待できると思います。彼らが提供してくれるものに関して。そして、Googleが今後1年半で主導権を握る可能性があると思います。彼らが製品を出荷し続け、もちろんAI関連の事業を優先できる限りは。なぜなら、彼らには完全なAI製品スイートがあり、個人的には、安全に展開できれば、AI市場を完全に支配できると信じているからです。
また、非常に興味深いことがありました。Reddit ユーザーの Rosie the Creator が、ChatGPTの音声機能のアップグレード版をちょっと覗き見したそうです。その音声は以前よりもはるかに良くなっており、ナレーションをしながら実際に背景効果を生成するそうです。これは、以前言ったように、我々が手に入れるモデルが本当に有能なものになるということを意味します。つまり、OpenAIがこのモデルを展開するためには、本格的なインフラのスケーリングを行う必要があります。だからこそ、我々はまだこのモデルにアクセスできていないのです。
わかりました、リエさん。こんな感じで想像してみてください。小さな町があります。本当に静かで、みんなが互いを知っているような雰囲気の町です。通りの端には古い廃屋があって、みんながそこは幽霊が出ると言っています。子供たちはお互いにそこに行くことを挑戦しますが、ほとんどは近づく前に逃げ出してしまいます。ある晩、嵐が襲ってきます。雷鳴、稲妻、そういった具合です。勇気があるか、ただ愚かなのか、数人の10代の若者たちが嵐の中でその家を調べることにしました。彼らは壊れた窓から忍び込み、懐中電灯と携帯電話の光だけを頼りに探索を始めます。埃っぽい廊下を這うように進んでいると、上階から物音が聞こえてきます。足音のようですが、ゆっくりとした引きずるような音です。彼らはその音を追いかけます。先ほど言ったように、少し愚かかもしれませんが。音は廊下の端にある部屋へと導きます。ドアは少し開いていて、揺れるたびに軋みます。彼らがドアを押し開けると、部屋の中央に古い埃っぽい揺り椅子があり、それが風もなく、糸もなく、ただ自然に前後に揺れているのです。子供たちは怖がっていますが、同時に魅了されているようです。
モデルが音響効果を生成しようとしていると思いますが、音響効果を生成する際の能力の探索を見たとき、実際にはそれほど良くなかったことを思い出しました。OpenAIがそれを苦手としているのかどうかわかりませんが、このモデルが単に他のモデルを組み合わせているのではなく、実際にネイティブにマルチモーダルであることを考えると、つまり、一つの入力から別の入力へとモデルが機能するということです。視覚システムと別のシステムを組み合わせているのではなく、完全にマルチモーダルなインプットからマルチモーダルなアウトプットを生成しているのです。だからこそ、音響効果の分野が他の分野ほど優れていないのだと推測します。
Anthropic の CEO である Dario Amodei は、2027年までに…覚えていますか?最近の多くの動画で話した重要な日付です。この実際の日付について全体的な動画を作る予定ですが…彼は、2027年までにAIモデルのトレーニングコストが最大1000億ドルに達し、ほとんどの分野でほとんどの人間よりも優れるようになると言っています。これは、彼らが検討している次のトレーニングラウンドが100億ドルかかるということを意味し、他の人々からかなりの額の投資を受ける必要があるということです。また、この1000億ドルはおそらくNVIDIAの収益に直接影響を与えることになるでしょう。これは非常に興味深いことです。多くの人々が、他の多くのプレイヤーがチップ分野に参入しているため、NVIDIAはそれほど長く存続しない会社だと考えているにもかかわらずです。
しかし、それはこの話の要点ではありません。要点は、我々が直面している状況です。100億ドルのトレーニングラウンドの後の次のトレーニングラウンドは1000億ドルになるということです。これについては何度か言及しましたが、10年前、これがすべて一種のSFだった頃、私はよくAGI(汎用人工知能)について話していました。今では異なる視点を持っていて、一時点のことだとは考えていません。ただ、私たちは滑らかな指数関数的成長の途上にあり、モデルは時間とともにどんどん良くなっていくと考えています。モデルが一般的に知的でなかったのが、今は知的になった、という特定の時点はないと思います。人間の子供が学び、発達するように、モデルはどんどん良くなり、賢くなり、知識を増やしていくと思います。特筆すべき単一の時点はないでしょうが、時間とともにこれらのモデルがより良く、最高の人間よりも優れていくという現象が起きていると思います。
規模を拡大し、モデルへの資金を増やし続ければ、例えば100億ドルに達すれば…現在、モデルは1億ドルくらいでしょうか?現在、トレーニング中のモデルはより10億ドルに近いですね。100億から1000億ドルになると思いますが、それは2025年、2026年、あるいは2027年くらいに起こると思います。そして、アルゴリズムの改善が続き、チップの改善も続けば、その頃までには…
これは、Leopold Aschenbrennerが実際に話していたことです。AIモデルの改善に寄与するすべてのことを考慮に入れると、つまり、規模の桁違いの増加だけでなく、アルゴリズムの改善、推論の改善、チップの改善、そして我々ができるすべてのこと、さらにはこれらのモデルで使用できるエージェント型ワークロードやSLフレームワークなど、2027年に、1000億ドルのトレーニングラウンドの後に、これらのモデルが真に有能になっても驚くべきことではありません。
誰がそれに資金を提供するのか、あるいはモデルを1000億ドルでトレーニングするためのお金をどこから得るのかわかりません。なぜなら、その額の現金は、Appleでもない限り、ほとんどの企業で流動的ではないからです。しかし、これは非常に驚くべきことになるでしょう。次の10億ドル、あるいは100億ドルのモデルから何が得られるのか気になります。その額は本当に驚異的です。
Dario Amodeiはまた、科学者が生物学の発見を加速し、病気を治療することについても言及しました。これは実際に、Googleのモデルなどですでに見られていることです。将来的には、文字通り科学のブレイクスルーに焦点を当てた専門モデルが登場しても驚きません。例えば、そのようなモデルが大学院レベルや強力な専門家レベルに達したとしましょう。生物学や創薬について考えてみてください。ノーベル賞受賞科学者や大手製薬会社の創薬部門長と同じくらい強力なモデルを想像してください。これまでに発明されたすべてのことを見てみると…生物学を振り返ってみると、CRISPRや遺伝子を編集する能力、CTI療法は特定の種類のがんを治療しました。おそらく、そのような発見が数十個も潜在しているでしょう。そして、それらすべてを発明した科学者たちと同じくらい知識豊富で創造的なAIシステムのコピーを100万個持っていたら、そういった発見の速度は本当に急増する可能性があります。そして、私たちの長年の病気の一部が…対処されたり、あるいは治療されたりする可能性があります。
これは実際に起こることだと思います。AIは実際に発見の速度を加速することができます。はい、これはかなり未来的で難しいことですが、AIモデルが何をできるかを見て、そして基本的に彼らが何であるかを見れば、将来的にこれらの発見がなされると思います。AlphaFoldで私たちが何をすることができたかを見てみると、それはそれらのタンパク質の発見を加速することができました。100万年ではありませんが、膨大な時間を短縮しました。そして、将来的には、まさにそのようなことをするモデルを手に入れることができると思います。彼らは100万通りの異なる方法で、100万通りの私たちが考えもしなかった方法で実験することができるでしょう。発見が続々と行われるにつれて、これは本当に魅力的なものになるでしょう。私たちは、継続的にそれを行うことができるモデルを得るための変曲点に達する必要があると思います。私たちがすべきことは、すべての計算能力をそれに注ぎ込むことです。そうすれば、それらの発見がなされるでしょう。
さらに奇妙なのは、Sam Altmanが最近のライブインタビューで実際にこの同じ現象について語ったことです。彼は多くの批判を受けましたが、なぜ彼が批判されるべきではないかを説明します。
「今日でさえ、ChatGPTは…私はそれを使っていますし、それを恐れてはいません。しかし、これらのツールがより有能になり続けるとはどういう意味なのか、という非常に理解できる不安感があります。素晴らしいことはたくさんあり、一日中それについて話すことができますが、将来はどうなるのでしょうか。すべての安全問題を解決し、すべての悪用問題を解決し、完璧な規制体制を考え出したとしても…私たちの生活はどうなるのでしょうか。コンピュータが私たちを理解してこれらのことを行うだけでなく、『ねえ、コンピュータ、これらすべてを発見して』と言えば、それが実行できるようになったときに。『素晴らしい会社を立ち上げて運営して』と言えば、それができるようになったときに。」
私は、人々が根本的にSam Altmanが言おうとしていたことを誤解したと思います。一部の人々はこれを見て、「なぜ彼はAIモデルがすべての物理学を解決できると言うのか、それは意味をなさない」と言って、すぐにクリックを外しましたが、私はSam Altmanがここで言おうとしているのは、宇宙について私たちが単純に理解していないことがたくさんあるということだと思います。そして、もし私たちが未来に…覚えておいてください、非常に遠い未来ですが…「AIモデルよ、これが物理学だ。君の物理学の理解が何であれ、ただブレイクスルーを起こし、私たちが理解していないことに焦点を当てることに集中してほしい」と言えるようになったら…なぜなら、実際にはかなり多くのことがあるからです。
将来的に、特定のことを発見し始め、それらが何をするかを理解し始めると、パラダイムシフトがたくさん起こるでしょう。なぜなら、私たちが知っていることを正確に知っているかどうか、そして私たちの理解は常に数十年にわたって一人の、あるいは数人の輝かしい頭脳によって変えられ、それが根本的に私たちの理解と世界観を再形成するという絶え間ない議論があるからです。例えば、私たちは地球が平らだと思っていました。私たちは私たちの皮膚の上や体内に住む微生物について知りませんでした。これらすべての種類のことがあり、それらを発見したとき…それが単にAIシステムが継続的に画期的な発見を行うことになるのか、物理学であることを考えると非常に困難だと思いますが…AIは基本的にソフトウェアなので、1対1でマッピングできるようなシミュレーションを持たない限り、これは将来的には起こり得るかもしれません。もちろん、これは非常に困難なことですが、根本的に…研究とブレイクスルーを行うためにAIシステムを使用するという点は、今は狂気のように思えるかもしれませんが、今日の時代に私たちが見ているものの多くが、それ自体で狂気のように思えることを覚えておいてください。
また、中国のロボットおもちゃメーカーであるLiu Roboticsが、フルサイズのヒューマノイドロボットKFUを発表しました。これはHuaweiのマルチモーダルLLMであるPanguと統合されており、自然な命令を理解し、タスクを計画し、両手の協調動作で実行します。私はHumanoid Hubをフォローしています。なぜなら、それはヒューマノイドロボットに関する本当に効果的なリソースだからです。私が他の方法では見つけられなかったであろうヒューマノイドロボットのニュースを探しているときに、常に最新情報を得ているものです。このような中国のロボットに関するニッチなニュースは常に興味深いです。なぜなら、それは中国が何をしているかを示しているからです。
もし中国がヒューマノイドロボットの分野でこれほど多くの成果を出しているのはなぜかと疑問に思うなら、第一に、中国は工場の生産や物を作ることに非常に効果的だからです。工場やこのような物を作る能力は本当に驚くべきものです。だから、将来的に見られるのは、中国がこの種のイニシアチブを取り、これらの企業にもっと多くのヒューマノイドロボットを作るよう奨励したことを考えると、これは本当に未来がどのようになるかについての洞察を与えてくれるものだと思います。中国が最初に視野を広げ、フリートを拡大し、その後アメリカも別のレベルで実行する可能性が高いでしょう。
また、OpenAIからこのようなツイートがありました。多くの人々がOpenAIがこのようなツイートをすると怒るのは、以前はOpenAIがツイートをしなかったからです。通常、ツイートや更新、ブログ投稿をしたときは、大きな更新がある場合だけでした。だから今、ツイートや更新、ブログ投稿を見て、それがGPT-4.5でもGPT-5でもない場合、多くの人々が少し怒るのです。しかし、彼らはGPT-4の音声モデルを生産するために懸命に働いています。
基本的に、彼らはここで「GPT-4の批評家GPTを使ってGPT-4の間違いを見つける」と述べています。GPT-4をベースにしたモデルである批評家GPTは、人間のトレーナーが強化学習中に間違いを見つけるのを助けるために、ChatGPTの応答を批評します。基本的に、彼らはGPT-4のベースモデルをトレーニングして、GPTのコード出力のエラーを捉える批評家GPTを作りました。批評家GPTの助けを借りてChatGPTのコードをレビューする人々は、助けを借りない人々よりも60%のケースでパフォーマンスが向上することがわかりました。我々は批評家GPTのようなモデルをRLHFラベリングパイプラインに統合する作業を始めています。基本的に、これは人間を介在させたAIの再帰的自己改善です。拡張された形の再帰的自己改善と言えるでしょう。
彼らは、推論とモデルの振る舞いが進歩するにつれて、ChatGPTはより正確になり、その間違いはより微妙になると強調しています。これにより、AIトレーナーが不正確さを見つけるのが難しくなる可能性があります。これは、強力なRLHFを支える比較タスクをより困難にします。これはRLHFの根本的な制限です。なぜなら、モデルが徐々にフィードバックを提供できる人よりも知識豊富になるにつれて、モデルを調整することがますます困難になるからです。
基本的に、彼らが言っているのは、愚かなモデルがあれば、人間のフィードバックを提供するのは簡単になるということです。なぜなら、愚かなロボットよりも賢い人間だけが必要だからです。しかし、これらのモデルがますます賢くなるにつれて、ますます賢い人間が必要になり、フィードバックを提供できる人間のプールはますます小さくなります。そして、その微妙な間違いが私たちでさえ見つけられないものである場合、どの時点でモデルを使って自己改善を始めるのでしょうか。
これは、より大きな疑問を投げかけます。RLHFを使った再帰的自己改善はいつ実現するのでしょうか。私は、これが再帰的自己改善の仕組みだとは言っていません。ただ、最終的には、AIモデルを評価するためにAIモデルを使用する点に到達するだろうと言っているだけです。これは驚くべきことではありませんが、ここでは、これが現在使用されており、非常に効果的であることがわかります。
コメント