AI科学者（論文解説者）

Overview of the new AI Scientist, which is an AI agentic system that can automate the process of writing papers and even...

もし私がこれからお見せする一連の論文がAIシステムやAIエージェントによって生成されたものだと言ったらどうでしょうか。ちょっと見てみましょう。ご覧のように、全てのセクションがあり、美しいプロットもあります。実験も行われ、背景や関連研究もあります。これはよくあることです。問題定義や方法論などの表記も全てあります。人間が書いたように見えますね。
実際にご覧になっているのは、AIシステムによって生成された論文、あるいは一連の論文です。これは「AI科学者」と呼ばれる新しいAIシステムです。ここでご覧いただいたのは、この研究者グループが導入している「AI科学者：完全自動化されたオープンエンドの科学的発見に向けて」というシステムによって生成された論文の例です。
この論文が紹介しているのは、実験を実行し、論文全体を生成できる完全自動の科学的発見ツールであるAI科学者です。さらに、生成された論文を自動的にレビューする機能もあります。これは恐らく、AIエージェント、特に大規模言語モデルを使用する最も興味深く革新的な方法の一つだと考えています。
この動画では、この論文の要約、その革新性、そして使用された主要なコンポーネントについて説明していきます。
彼らが言うには、AI科学者は基盤モデルの最近の進歩によって実現された、ニューラルネットワーク論文生成のための最初の完全自動化された拡張可能なパイプラインです。広範な研究の方向性と単純な初期コードベースを与えられると、このシステムは異なるコンポーネントで設計されました。基本的に入力として与えるのは、この初期コードベースと研究の方向性、おそらくトピックと、この特定の研究で達成したい目標、そして検証したい仮説についてのアイデアなどです。
そして、エージェントは単純にアイデア創出、文献検索、実験計画、実験の反復、原稿執筆、ピアレビューを実行し、洞察に満ちた論文を生成します。つまり、エンドツーエンドのものです。ここで非常に注目すべきなのは、私が示した論文の例が15ドルで作成されたということです。
研究プロセス全体を考えると、これがすでにその研究プロセスに取って代わるとは言えませんが、研究のアイデア創出には多くの資金が投入されています。小規模な研究であれ、より大きな目標とより広い範囲を持つ大規模な研究であれ、それは非常に時間がかかり、労働集約的なプロセスです。私は研究者でしたし、PhD時代に研究室に所属していたのでよく知っています。
このようなものが実際に公開されることには多くの影響があります。まだそこまでには至っていませんが、この研究グループが提案しているのは、自動化された実験をどのように取り入れ、それを自分たちの研究プロセスにどのように統合し、コストを最小限に抑えて効率を大幅に向上させるかということだと思います。これがこのグループのアプローチだと思います。研究者を置き換えることではなく、このプロセス全体を支援するためにこのようなエージェントやエージェントシステムをどのように開発するかということです。
つまり、コパイロットのようなシステムと協力して実験を実行し、コードを書き、非常に大規模なコードベースを書くことができます。そのシステムがあなたを助け、それを構築することを可能にします。これはすでに多くの開発者を支援していると思います。同様に、ここでのAI科学者のアイデアは、あなたが有望だと思う実験をアップロードしたり、助けが必要な実験をアップロードしたりできるということです。次の方向性がわからず、何かをアイデア化したい場合、このようなものが複数の実験を同時に実行し、結果を生成し、そしてあなたがそれらをレビューすることができます。つまり、世界のコパイロットのように、このシステムと協力して作業するのです。
彼らが使用しているのは、基本的に最先端の言語モデルです。これはLLMフレームワークで、思考の連鎖や自己反省のような手法を使用しています。なぜなら、ここには多くの推論コンポーネントがあり、システムにさまざまなタイプの入力が入ってくるからです。彼らが後で言及しているのは、主にテキスト、テキスト型の情報、そしてプロットを扱っているということです。実験を考えるとき、常にこれらのチャートがあり、このシステムはチャートを理解し、それについてメモを取ることができる必要があります。これは非常に重要な能力です。
彼らはまた、AERと呼ばれるコーディングアシスタントとこれをペアにしています。これは別の人気のあるコーディングアシスタントです。つまり、再び複数の異なるシステムを使用して、論文を書き、それをレビューするこの全プロセスを自動化できる一般的なシステムを構築しているのです。
前述したように、システムは標準的な機械学習会議のガイドラインを使用して、自動化された論文レビュープロセスを実行します。これはゼロから始まるわけではありません。システムにいくつかのアイデア、初期のアイデア、おそらく初期のコードベースを提供する必要があります。
この特定のシステムが焦点を当てているのは、一定の基準を満たす高品質の論文の生成プロセスを最適化するために必要なコンポーネントを作成することです。論文から読んだところによると、会議レベルの基準を満たす論文を生成できるそうです。これは驚くべきことであり、同時に絶対に驚くべきことです。
これが方法論です。ご覧のように、このアイデア生成フェーズがあります。モデルに提供しているアイデアと計画があります。次に、新規性チェックがあります。なぜなら、単純なアイデアや、科学の境界を押し広げないアイデアをフィルタリングしたいからです。それがどの分野であれ、そしてアイデアのスコアリングとアーカイブがあります。
そして、実験の反復に入ります。この実験フェーズでは反復があります。ここで設計された実験テンプレートがあり、AERと言語モデルが協力して計画を立て、これらの実験を開発し、実験を実行し、フィードバックを受け取り、計画を更新し、興味深い結果が得られるまで、または一定の反復回数に達するまで、これを反復的に続けます。設計方法にはそのための基準がいくつかあります。
私はこれが面白いと思いました。なぜなら、実験には以前の結果を保存し、結果が十分に興味深くない場合や、目指している論文の品質基準を満たさない場合、あるいは実験が行われなかったり、何かが見落とされたりした場合に計画を更新する方法が必要だからです。これはそのようなプロセスにとって本当に重要なタイプのコンポーネントです。これが彼らが論文全体で議論していることです。
数値データ、プロット、そしてこの全ての情報を生成した後、論文の執筆に移ります。これが最後のプロセスです。原稿テンプレートがあります。つまり、テンプレートに基づいています。これらのプロセスは全てテンプレートに基づいています。いくつかの入力があり、これらの入力は通常、人間から来ます。この分野の専門家や研究論文を書くことに精通した人からです。そして再び、LLMとAERを使用して原稿を作成します。
これは重要です。なぜなら、明らかにこのような論文を書くとき、ここで見るこの論文は通常、何らかのツールやシステムで書かれています。例えばLaTeXなどです。原稿を見つけ、そしてレビューコンポーネントがあり、それから戻って反復することができます。これがAI科学者フレームワークの一般的な図です。
私は概要を説明しました。高レベルでの概要を与えました。詳細は自分で見ていくことができます。私はそれに多くの時間を費やすつもりはありません。ここには多くの興味深い部分があります。例えば、結果を与えられ、実験ジャーナルのスタイルでメモを取るように指示されるこのAERコードアシスタントを使用しています。これは非常に有能なシステムです。
また、再計画も行われています。なぜなら、全ての実験が興味深い結果につながるわけではないからです。彼らはここでそれに言及しています。また、将来的には他の高度なデータ可視化や他のモダリティも含めたいと述べています。それは音声かもしれませんし、画像や動画かもしれません。
このプロセス全体が最大5回繰り返され、最終的に全ての情報がPythonを使用して生成されます。科学者は各プロットの内容を説明するメモを取り、安全な図と実験ノートを提供し、論文を書くために必要な全ての情報を提供できるようにします。これが全プロセスです。
これは、論文を書くプロセスがどのようなものかを示しています。最後に、この自動化された論文レビューについて、ここでは詳しく説明しませんが、レビューシステムについていくつかの比較結果があります。人間のレビュアーがどのように性能を発揮しているか、そしてGPT-4oのワンショットがすでに人間のレビュアーに非常に近い性能を示していることがわかります。
最後に、ここでのケーススタディの1つを紹介したいと思います。彼らは論文を生成していると述べています。ここで彼らは拡散モデルに関するいくつかの論文を選んだと言及し、アイデアの生成がどのようなプロセスだったかを説明しています。繰り返しますが、彼らはいくつかの初期テンプレートを提供し、初期コード例を提供しています。初期コード例は、例えばTransformerモデルの場合、非常に標準的なおもちゃの例のデータセットで何らかの操作を行う基本的なTransformerモデルのコードかもしれません。この場合、彼らはそれも選んでいます。
次に実験の生成があります。これらが実験です。これはコードを生成することで、全ての作業を行い、そのコードを実行することもできます。最後に、全ての結果が得られ、反復的な実験フェーズのいくつかの基準が満たされると、論文の生成に入ります。
これについて、彼らはいくつかのことに気づきました。このケーススタディで生成された論文から特に印象的ないくつかのことがあります。アルゴリズムの正確な数学的記述があると彼らは言及しています。これらのモデルはそれに非常に長けていると思います。それは驚くべきことではありません。実験の包括的な記述もあります。彼らは長文のコンテンツを書くことができます。そして良い経験的結果、新しい可視化などがあります。まだまだあります。これは生成された論文のプレビューに過ぎません。
そして、ここにはいくつかの病理があります。基本的にモデルが少し苦戦するかもしれない部分です。彼らは、例えば特定の設計選択の正当化の欠如に気づきました。ノイズネットワークのローカル分岐は、元の入力のアップスケールされたバージョンで動作し、元の次元の2倍になっています。これはコードに一致しますが、なぜこれが合理的なのかについての議論はありません。より厳密な論文であれば、これについてのアブレーション実験を提供するでしょう。
また、これも以前に見たことがあります。実際に私は科学論文についていくつかの実験を行っています。私のLLMsでの背景をご存知の方は、私がMetaにいたときにGalacticaという人気のプロジェクトに取り組んでいたことをご存知でしょう。私が本当に興味を持っていたのは、これらのチャートを理解し分析する方法、論文の情報の断片、例えば方程式や図、そしてその他の素晴らしいものを分析し、質問をし、非常に複雑な質問をし、情報を取得するなどということでした。
そして、当時から気づいていたことの1つは、これらのモデルが本当に苦戦し、例えばGPUハードウェアのタイプなどについて幻覚を起こしやすい傾向があるということです。ここではV100 GPUが使用されたと書かれていますが、実際にはH100 GPUが使用されています。現在の実験でもこのことに気づいています。また、確認せずにPythonのバージョンを推測していますが、これも非常に問題です。
他にも、実験ログからのアーティファクトや、プロの文章では一般的ではない特定の専門用語の使用があります。また、中間結果の提示もあります。参考文献を全てモデルに任せると、これも本当に苦手で、非常にバイアスがかかる傾向があります。そのため、外部ソースへのアクセスを与えることでそのバイアスを取り除く必要があるかもしれません。しかし、それでも人気のある論文などに対してバイアスがかかる可能性があります。
いずれにせよ、ここにレビューがあります。これが論文自体の全体的な評価で、最後に全てのスコアがあり、決定は「却下」でした。そして、論文の著者自身による最終コメントがあります。これらも興味深いと思いました。ぜひ見てみてください。
以上です。彼らはいくつかの実験を行い、ここには多くの実験結果があります。生成された論文の例もたくさんあります。この研究で使用された全てのプロンプト、全てのテンプレートを見ることができます。これらのコンポーネントを組み合わせる方法は非常に革新的です。
これは、Galacticaの論文で私たちがやりたかったことに非常に近いです。私たちは論文を作成したかったのです。私たちはこれを全く異なる方法で取り組みました。このアプローチで私が気に入っているのは、これらの外部コンポーネントを使用していることです。コードを実行し、プロットやメモなどの情報を生成できるシステムを使用しています。これはモデルが信頼性の高い方法で実験を実行するのに役立ち、単に実験を作り上げるのではありません。そのグラウンディングが本当に重要で、AERのような外部ツールがこのようなシステムに使用されることが本当に重要です。
これは信じられないことです。私は2024年にエージェントが台頭していると思います。そして、それに興奮しています。昨日、私は別のエージェントに関する動画を投稿しました。それはコードに関するもので、コードベースの問題を理解し修正する方法についてのものでした。これも同じ線上にあります。私はこれらの論文を読むのを本当に楽しんでいますし、常に新しいことを学んでいます。ですので、皆さんもこれを楽しんでいただけたらと思います。
詳細については論文をご覧ください。以上でこの動画は終わりです。ご視聴ありがとうございました。よろしければいいねを押し、まだチャンネル登録をしていない方は登録をお願いします。次回の動画でお会いしましょう。