
7,916 文字

OpenAIが最近発表したんやけど、機械学習エンジニアリングにおける機械学習エージェントを評価するMLE-benchっちゅうもんがあるんや。一見大したことないように思えるかもしれんけど、これはAIにおいて最も重要な問題に取り組んでるんちゃうかなって思うんや。
今、ニューラルネットワークやAIモデルが科学やイノベーションにどんどん貢献してきてる時代に近づいてきてるんやな。人間よりも特定のタスクをうまくこなせるようになってきてるんや。レオポルド・アシェンブレナーが「国家的意識」の論文で指摘してるように、AGI(汎用人工知能)の革新的な影響に対する一般的な反論として、AIがすべてをこなすのは難しいやろうっていうもんがあるんや。
ロボット工学の改善が必要な分野もあるし、生物学研究の自動化にはたくさんの物理的な実験室作業や人間の実験が必要かもしれんし、そういったことはあるかもしれん。でも、そういうことはそれほど重要やないんや。実際、本当に気にせなあかんのは一つだけやと思うんや。それは、AIが人間よりもAI研究を上手にできるようになる時点やねん。
アシェンブレナーは、今後数年間のAI能力の発展を単純に外挿すると、2027年末までには簡単に人間の最高レベルに到達するか、それを超えると考えてるんや。ジェフリー・ヒントンがニューラルネットの開発への貢献でノーベル物理学賞を受賞したり、デミス・ハサビスがAlphaFoldなどの仕事で賞を受賞したりしたのは知ってるやろ。でも、機械学習モデルが最高の機械学習研究者になったらどうなるんやろか。
アシェンブレナーが言うように、AI研究は自動化できるし、AI研究の自動化だけで驚異的なフィードバックループが始まるんや。これは直感的に理解できるよな。自己改善を繰り返すことで、自己改善の能力も向上していくっていう再帰的な自己改善や。これがいわゆる知能爆発につながるんやけど、ここからが少し変な話になってくるんや。
機械知能がまっすぐ上がっていったらどうなるんやろか。もちろん、これは完全なナンセンスやと思う人もおるし、起こらへんって言う人もおる。起こるけどまだ先の話やと思う人もおるし、近いうちに起こって非常に危険で、場合によっては我々の知る生活の終わりになるかもしれんと考える人もおる。もちろん、これが起こったら生産性や豊かさが増えて、我々が望むすべての良いことが起こるって楽観的に考える人もおるんや。
ワイ個人的には、AIと、それが人類にもたらす利益については非常に楽観的やねんけど、自動化されたAI研究が始まるっていうラインについては、ちょっとは心配してないって言うたらウソになるわ。指数関数的に増加する人工知能がどんなもんかなんて、我々には想像もつかへんのやで。
歴史から学べるし、歴史は繰り返すって言うけど、ここではそうちゃうんや。これは全く新しい章なんや。今まで見たことのない全く新しいものなんや。我々には全く見当もつかへんのや。
そこで話を戻すと、OpenAIとMLE-benchの話や。ここでは、長期的な目標に向かって計画を立てて追求したり、アプローチを調整したり、特定のタスクを推論したりできる自律型AIエージェントを使うんや。でも、インターネットで最高のランニングシューズを研究して買うんじゃなくて、機械学習エンジニアリングに取り組ませるんや。
これは、Kaggleってサイトのレベルアップみたいなもんや。Kaggleは最大のAIと機械学習のコミュニティで、たくさんのものがあるんや。開発者向けのコースやコンペ、フォーラムがあったり、研究者向けのモデルやノートブック、データセットがあったり、事前学習済みモデルを使った高度な機械学習なんかもあるんや。高品質な公開データセットもたくさんあるんやけど、ここで注目したいのはコンペティションなんや。
昔、ヴェスヴィオ山の噴火でたくさんのパピルス巻物が入った広大な図書館が埋まってしまったっていう話を聞いたことあるやろ。その別荘の住人は同意せえへんかもしれんけど、これは非常に幸運な出来事やったんや。なぜかって言うと、そのパピルス巻物が保存されて、何年も経った今でも見ることができるからや。
もちろん、起こったこと自体は恐ろしいことやけど、通常やったらこういう巻物は劣化して消えてしまうんや。でも、ここでは保存されたんや。例えば、このコンペティションでは、機械学習を使ってこれらの巻物をスキャンして読み取ることができる人に賞金を出すんや。これは機械学習なしじゃ不可能やったんや。
これを見てみ。AIモデルを構築して機械学習を使い、これらの巻物を読んで理解したり、インクやページを検出したりできる人たちに賞金が支払われるんや。様々なチームに賞金が授与されて、いろんな人が資金を提供してるんや。マスク財団が200万ドル出してるみたいやし、WordPressの創設者やShopifyの創設者も寄付してる。ここに匿名の人がおるけど、ワイはこの顔を知ってるわ。ラリー・デイビッドやな。
他にもたくさんのコンペティションがあって、賞金は何百万ドルにもなるんや。ARK AGIベンチマークやコンペティションなんかもあるやろ。そして、これらのコンペティションにOpenAIがエージェントを unleash(解き放つ)してるんや。
驚くべきことじゃないかもしれんけど、かなりうまくいってるんや。オープンソースのエージェントやフレームワークも使ってるし、OpenAI独自のエージェントやフレームワークも使ってる。もちろん、この目的のために作られた3-Nプレビューも含まれてるんや。これは推論や特定のエージェントタスクを実行するために作られたもんや。
それじゃあ、OpenAIが発表したMLE-benchについて見ていこか。まず、AIエージェントが機械学習エンジニアリングをどれだけうまくこなせるかを測定するベンチマークを導入したんや。AIがAI研究を引き継ぐっていう話をしてたけど、これはまだほんの始まりやな。特定のベンチマークや指標を適用して、その進捗状況を見てるだけなんや。
これは、AIがAI研究を引き継ぐ準備ができてるっていう意味じゃないんやけど、少なくともそのプロセスがどの辺まで来てるのかを垣間見せてくれるんや。近づいてるんか、それともまだまだ遠いんか、そういうことを知るためのものなんや。
そこで、実世界の機械学習エンジニアリングスキルをテストするKaggleのいくつかのコンペティションをまとめたんや。各機械学習研究者や専門家は、AI研究や機械学習エンジニアリングを行うために、おそらくこういった個別のスキルセットを持ってるんやろうな。
例えば、モデルのトレーニングっていうスキルがあるやろ。さっきのヴェスヴィオのチャレンジみたいに、パピルス巻物のインクを認識するようにモデルをトレーニングするスキルや。あるいは、データセットの準備っていうスキルもあるやろな。高品質なデータセットは、例えばモデルのトレーニングにはすごく重要やからな。
それから、実験の実施っていうスキルもあるやろ。例えば、今読んでるこの論文なんかは、将来的には完全にAIによって行われるかもしれんのや。仮説を選んで、たくさんのモデルを作って、データセットを集めて、実験を作って実行して、それについての論文を書くっていう具合にな。
ちなみに、ここに人間の著者名がたくさん載ってるから、まだそこまでは行ってないみたいやな。それはそれでええことやと思うわ。まだそこまでの準備はできてないと思うし。でも、ポイントは、これらのスキルが機械学習エンジニアや研究者が仕事をするために使うスキルやっていうことや。AIがそれをどれだけうまくできるかを理解しようとしてるんや。
そこで、各コンペティションの人間のベースラインを設定したんや。これは公開されてるリーダーボードを使ってるんや。ここで二つのことを見てるんや。一つは実際のAIモデル、例えばGPT-4みたいなもんや。もう一つは「scaffolding(足場)」って呼ばれるものや。これは基本的に、モデルを様々なタスクに導くための自動化された開発者ワークフローみたいなもんや。
目標は、コンペティションを完了するのに最も効果的なモデルとscaffoldingの組み合わせを見つけることや。ネタバレになるけど、OpenAIの3-Nプレビューと「AID」っていうscaffoldingの組み合わせが最も良い成績を出したんや。この新しいモデルは、物理学や数学、推論を必要とする多くのタスクで大きな飛躍を見せて話題になったんや。
AIパートナーの「AID」scaffoldingと組み合わせたこのセットアップは、コンペティションの16.9%で少なくともKaggleのブロンズメダルのレベルを達成したんや。ちょっと数字を丸めて17%と言おうか。詳細はPDFにリンクを貼っておくから、見たい人は見てみてな。
エージェントに複数の試行回数を与えると、パフォーマンスが大幅に向上することがわかったんや。例えば、3-Nプレビューの場合、スコアが倍になるんや。1回の提出で17%やったのが、8回の提出で34%になるんや。8回提出して最高スコアを取るっていう状況やな。
面白いことに、各コンペティションに24時間与えられた場合は8.7%のスコアやったんやけど、100時間与えられた場合は11.8%になったんや。
ここで、様々なモデルと様々なscaffoldingについて、彼らが「軌跡」と呼んでるものについて話してるんや。右側にGPT-4.0とAIDの組み合わせがあって、同じモデルでOpenHandsを使ったものと、同じモデルでMLABを使ったものがあるんや。
見てわかるように、まず何をすべきかを考えて、それから必要なファイルを開くなど、段階的に進んでいくんや。ここの35ステップ目で、エラーが発生してるみたいやな。テキストファイルとして開こうとしたけど、うまくいかなかったみたいや。
これが自律型エージェントの一部なんや。彼らは自分のことをして、問題に遭遇して、「よし、エラーが出た。このエラーを修正するには何をすればいいんやろ」って考えるんや。それで、再グループ化して再挑戦するんや。試行錯誤のアプローチやな。
AIDのフレームワークを見てみ。この小さな図を見てな。決定の分岐した小さな木があるのがわかるやろ。これが何を意味するのか、後で戻ってくるわ。このAIDが、Kaggleのコンペティション用に特別に作られた最高のパフォーマンスを示すものやってことを覚えておいてな。
ここで、各scaffoldingがどのように機能するかを説明してるんや。MLABとOpenHandsは汎用的なscaffoldで、ツールを呼び出して行動を起こすんや。一方、AIDはKaggleのコンペティションでソリューションのツリー検索を実行するために特別に作られたものやな。これらのエージェントは、我々の実験では最大24時間自律的に動作するんや。
次に、これらのコンペティションで勝つためにメダルがどのように授与されるか、あるいはどれだけ良い成績を収めたかについて説明してるんや。Kaggleは、リーダーボードに対する相対的なパフォーマンスに基づいて、トップの競争者にブロンズ、シルバー、ゴールドメダルを授与するんや。
参加するチームの数によって、どう分けられるかが変わってくるんや。大体、ゴールドはトップ10%くらいで、チーム数が少ない場合は、シルバーがトップ20%、ブロンズがトップ40%くらいやな。追加の500チームごとに閾値が1つ上がるって言ってるな。
例えば、250チーム未満の場合、ブロンズメダルを取るには上位40%に入らなあかんのや。これが、最高のパフォーマンスを示したモデルとscaffoldingの組み合わせが達成したことやな。つまり、17%の確率で上位40%に入ったってことやな。言い方合ってるかな。かなり印象的やと思うわ。
ここで、75の異なるKaggleコンペティションでメダルを獲得した人間はこれまでに2人しかいないって言ってるな。
一部の内容をスキップするけど、エージェントはKaggleやGitHubで見つかるオンラインのソリューションを使うことを禁止されてるとか、ルール違反の検出や盗用の検出とかについて書いてあるな。詳しく読みたい人のために、後でリンクを貼っておくわ。
ここを見てみ。GPT-4.0をMLABとOpenHandsでテストしたんやけど、それが最高のscaffoldingじゃなかったから、AIDのscaffoldingにもっと力を入れたんや。それを3-Nプレビューでテストしたんや。これがOpenAIの最新最高の推論モデルで、数学や物理学などで非常に高いスコアを出したやつやな。
それからGPT-4.0、Llama 2 70B、そしてClaude 3.5 Sonnetもテストしたんや。
3-Nプレビューは98%の確率で提出を行い、82%の確率で有効な提出を行ったんや。これは他のすべてのモデル(GPT-4.0を含む)を大きく上回ってるんや。中央値を上回ったのは30%の確率やったな。
面白いことに、これを見てみ。ゴールドメダルを取ったのは9.4%の確率やったんや。ゴールドっていうのは、競合チームの上位10%に入ることを意味するんや。数字を少し丸めて理解しやすくすると、10%の確率で全提出の上位10%に入ってゴールドメダルを取ったって考えられるな。これはかなり大きいと思うわ。
他のモデルはそれほど近くない。GPT-4.0はゴールドメダルを取る確率が5%で、Claude 3.5 Sonnetは4.4%や。
これは面白いところやな。計算リソースの量が異なるんやけど、最初ワイも混乱したんや。モデルのための計算リソースかと思ったんやけど、彼らが言ってるのは、これらのコンペティションに参加する時にKaggleが提供する計算リソースのことなんや。ユーザーは自分のハードウェアを使って競争することもできるんや。
実験では、実際にこれらのエージェントに自分たちのハードウェアへのアクセスを与えたんや。人間の場合、自分のNVIDIAカードや好きなクラウドサービスを使ってモデルをトレーニングし、コンペティションに参加するわけやな。
これは考えるべき面白いポイントやな。我々はこれらのAIモデルに「ほら、計算リソースやで。ハードウェアやで。これを使ってコンペティションを完了するために必要なAIモデルをトレーニングしてな」って言ってるようなもんやからな。めっちゃメタやと思わへん?
彼らは、モデルが利用可能なハードウェアに応じて戦略を適応させるかどうかを理解しようとしてたんや。例えば、CPUしか利用できない場合は小さなモデルをトレーニングし、GPUが利用可能な場合は大きなモデルをトレーニングするかどうかってな。
GPUっていうのはNVIDIAチップのグラフィック処理ユニットのことや。つまり、超強力なNVIDIAカードを与えるか、それともポテトみたいな低性能なやつを与えるかで、戦略を変えるかどうかってことやな。そうあって欲しいよな。
結果を見ると、すべての実験で同じようなパフォーマンスを示したみたいや。2番目のGPUはあまり使わなかったらしいな。
結論の前に、AGIの準備に対する影響について話してるんや。多くのポジティブな影響があるって言ってるな。医療やクライメイトサイエンス、その他の分野での科学の進歩を加速させるとか。
でも、もちろん、オープンエンドな機械学習研究を行えるエージェントが、自分のトレーニングコードを改善できるレベルになると、人間の研究者よりもはるかに速くフロンティアモデルの能力を向上させる可能性があるんや。これは、さっき話した知能爆発の可能性につながるんやな。
彼らが言うには、イノベーションが我々の影響を理解する能力よりも速く生み出されると、破壊的な害や誤用が可能なモデルを、それを安全に保ち、調整する能力を並行して開発することなく開発してしまうリスクがあるんや。つまり、すべてを破壊する能力が、それを防ぐ方法を見つける能力よりもずっと速く上昇する可能性があるってことやな。
ワイは人生全般に対してポジティブやし、AIの見通しについても特にポジティブなんやけど、これは本当に慎重にならなあかんと思うところやな。だって、我々はこんなもの見たことないからな。全然わからへんのや。
もしかしたら、知能にはなんらかの限界があるかもしれんし、AIが自己改善する速度にも限界があるかもしれん。でも、そうじゃないかもしれん。それが何を意味するのか、本当にわからへんのや。
「Wait But Why」っていうブログが、人工知能革命のパート2で、これをうまく説明してると思うわ。知能を階段みたいに考えてみ。これは知能が増加していく様子やけど、同時に段階的な機能もあるんや。
例えば、アリには認知能力がないやろ。一番賢いアリでも、微積分なんかできへんやろ。だから、新しい能力が解放されるような段階的な機能があるんや。単に賢くなるだけじゃなくて、新しいレベルが解放されるってわけや。
じゃあ、人間の一段上はどんなもんなんやろか。彼らはええ図を描いてるんや。ここに生物学的な知能の範囲があるやろ。人間がいて、猿がいて…アリと人間がここにいるんやけど、ほとんど見えへんくらい小さいんや。
そして、この階段をどんどん上がっていくと、はるか向こうに人工超知能があるんや。これを考えるのはちょっと変な感じやな。一体それはどんなもんなんやろか。生物学的な脳が何百万年もかけて進化してきたとしたら、我々にはこれらの段階が何を意味するのかさえ理解できへんのや。それが何を意味するのか、全然わからへんのや。
あるいは、これはこういう風に機能せえへんのかもしれん。知能には何か限界があるのかもしれんし。もう一度言うけど、全然わからへんのや。
ここで締めくくろうと思うわ。詳しく見たい人のために、PDFへのリンクを下に貼っておくわ。ほとんどの内容をカバーしたと思うけど、実際の論文が終わった後の付録にはもっとたくさんのことが書いてあるんや。様々なチャートや、scaffoldingがどんな感じか、どんなプロンプトを使ってるかとかな。
興味があるなら、ぜひチェックしてみてな。彼らはこのコードの多くをオープンソース化してるから、自分のモデルをテストしたり、これらの一部を実行してみたりしたい人は、それも可能やで。
でも、その前に、この全体的なことについてどう思うか教えてほしいわ。17%の確率でブロンズ以上のメダルを取ったり、10%の確率でゴールドメダルを取ったりすることについて。AI研究の自動化、つまり自己改善を行うことがどんどんうまくなっていくように見えることについて。
これについてどう思う?どんな気持ちになる?あるいは、これはナンセンスだと思うかもしれん。煙幕や鏡像みたいなもんで、この種の研究を行う機械学習の専門家の代わりになることは決してないと思うかもしれん。知能爆発のアイデアはただのSFで、でたらめだと思うかもしれん。
教えてほしいわ。君の考えを聞きたいんや。
以上や。視聴してくれてありがとう。ワイの名前はウェス・ロスや。また会おうな。
コメント