AIの科学者が人間の学会で論文を採択される驚きのニュース | サカナ.AIが復活

6,836 文字

https://www.youtube.com/watch?v=2aMtl0oGq2A

皆さん、どうやら人工知能の最初の科学者エージェントが人間によって審査され採択された論文を発表したようです。これは科学的なチューリングテストと言えるでしょうか?何が起きているのか一緒に理解していきましょう。
まずはいつものように「いいね」をくれた皆さん、そして特にこのAIチャンネルを支援してくれているメンバーの方々に感謝します。メンバーの皆さんはAIエージェントについての限定動画を視聴できることをお忘れなく。
さて、サカナ.AIという会社についてですが、この会社は科学研究を行うエージェントを開発していることですでに有名です。以前、この会社を紹介し、彼らが何をしているのか、どのように取り組んでいるのか、彼らの主なアイデアは何かを説明する動画を作りました。基本的に彼らは科学的なAIを作りたいと考えています。
そして今、最新のニュースです。「AIの科学者が初めてピアレビューされた科学論文を発表」しました。ピアレビューとは何かというと、二人の人間という意味ではなく、あなたが論文を書いたときに、同じ分野の人が論文を評価するという意味です。つまり、専門家が専門家の書いた論文を評価するのです。ピアレビューが行われると論文の信頼性が高まります。なぜなら専門家が他の専門家について述べているからです。
ここで何が起きているのか詳しく見ていきましょう。「The AI Scientist」が作成した論文が、主要な機械学習会議のひとつであるワークショップのピアレビュープロセスを通過したことを誇りを持って発表します。これは公式です。私たちの知る限り、これはAIが完全に生成した論文としては初めて、人間の科学者が通過するのと同じピアレビュープロセスを通過したものです。参考文献も付いています。彼らは歴史に名を刻んでいるのです。
もちろん将来的には、誰かがこの「初めて」という記録を見直し、同じ方法で発表された論文があるものの、今は誰も知らないというケースが見つかるかもしれません。ブラジルでもAIによって生成された法律が承認されましたが、その法律は審査されました。しかしこれは100%AIによるものです。論文はオリジナルのAI Scientistの改良版である「AI Scientist V2」によって生成されました。
これらのバージョンには上限がなく、V3、V10、V20と続く可能性があります。私たちはまだ始まったばかりです。AI Scientistの詳細については今後発表する予定です。この論文はICLR 2025のワークショップに提出され、AIによって生成された原稿のダブルブラインドレビュー実験を行うために私たちのチームと協力することに同意しました。
ここでより多くの情報があります。彼らは協力して作業しました。隠れて行ったわけではなく、誰にも知らせずに送って突然承認されたわけではありません。しかし、ここに重要な情報があります。「ダブルブラインド」とは、論文が匿名で提出され、レビュアーが誰であるかも不明な状態を意味します。そのため「ダブルブラインド」と呼ばれます。「シングルブラインド」の場合はレビュアーのみが匿名ですが、ダブルブラインドでは論文とレビュアーの両方が匿名です。
これによりバイアスを減らすのに役立ちます。レビュアーが有名な名前を見て高い評価をつけたり、執筆者が有名なレビュアーを知っていて改善したりするのを防ぎます。このワークショップを選んだのは、より広範囲なスコープがあり、AI Scientistの研究者にディープラーニングの実用的な制限に対処する多様な研究テーマに取り組むよう挑戦したからです。
幅広いテーマのワークショップに提出するということは、レビュアーがどの分野からでもテーマを取り上げることができるということです。これは一種の容易にする方法です。なぜなら、あまりに一般的なことなら、何かが少し抜けていても問題ないからです。一方、非常に具体的なことであれば、同じ分野の同じポイントの専門知識を持つ多くの人々がいるため、はるかに難しくなるでしょう。
このワークショップはICLRでホストされています。ICLRは、NeurIPS、ICMLと並んで機械学習と人工知能研究の主要な会議のひとつです。この実験は、ICLRのリーダーシップとICLRワークショップの主催者の全面的な協力のもとで行われました。これは全員が知っていたということです。
私たちはICLRワークショップで講演を予定しており、AI Scientistプロジェクトの経験、特に課題について共有します。これは彼らが論文を提出して参加するだけでなく、彼らが行っていること自体が科学的なAI研究であることを意味します。
評価はどのように行われたのでしょうか。私たちはワークショップの主催者と協力し、3つのAI生成論文をピアレビューのためにワークショップに提出することに同意しました。レビュアーには、彼らがレビューしている論文がAIによって生成された可能性があることは伝えられましたが、割り当てられた論文が実際にAIによって生成されたかどうかは伝えられませんでした。
これは面白いですね。チューリングテストのような雰囲気があります。あなたはAIかもしれないと知っていても、確信はできません。「あるかないか」と疑問に思います。レビュアーが後でどの論文がAIだと思ったか言えるなら面白いでしょう。
私たちが提出したAI生成論文は、人間による修正なしに、完全にAIによって端から端まで生成されました。AI Scientist V2は科学的仮説を立て、仮説をテストする実験を提案し、これらの実験を実行するコードを書き、改良し、実験を実行し、データを分析し、図でデータを視覚化し、タイトルから最後の参考文献まで科学的原稿のすべての単語を書きました。図の配置やフォーマットもすべて含まれています。
これを明確にするために、彼は本当にすべてを行いました。そして中間にある興味深い詳細は、「これらの実験を実行するコードを書き、改良した」と述べていることです。このAI科学者はプログラミングを使用するため、仮説を立て、テストすることができます。
彼らは続けます。「私たち人間はこのチームを監督する立場として、研究を行うための広範なトピックのみを提供しました。なぜならトピックは私たちが提出するワークショップに関連するべきだからです。」彼らは広範なトピックを与えたのです。
例えば、人工知能の会議であれば、「コンピュータビジョンについての論文を書け」とは言わず、非常に広範なことを言いました。そして3つのAI生成論文を提出することを選び、レビュアーに負担をかけないためにワークショップ主催者との議論の後にこの数を選択しました。
これは当然のことです。そうでなければ「サカナ」という名前にちなんだ悪ふざけになってしまいます。AIが論文を生成する能力は、私たちが分析する能力をはるかに超えています。私たちは生成された論文を分析し、多様性と品質を考慮して最高の3つを提出しました。
私たち自身が書いた多くの論文の中から、これら3つを事前選択したのです。私たちは3つの提出論文の詳細な分析を行いました。3つのうち2つの論文は受理基準に達しませんでした。1つの論文は平均スコア6.33を獲得し、すべての提出物の約45%にランク付けされました。
このスコアは、ワークショップで採択された他の多くの人間によって書かれた論文よりも高く、論文を平均採択閾値よりも上に位置づけています。具体的には、スコアは6(採択閾値をわずかに上回る)、7(採択)、6(採択閾値をわずかに上回る)でした。
採択された場合、彼らは次のようにコメントしています。「採択された場合、実際に公開される前に撤回します。」これは彼らが協力して作業しており、誰かに害を与えたくないからです。彼らはただ本当に通過するかどうかを見たかっただけです。これはAIによって生成されたものであり、科学コミュニティとAIコミュニティはAI生成の原稿を同じ場所に公開するかどうかをまだ決定していないためです。
アイデアとしては、AI生成の論文を一つの会議で、人間によって書かれた論文を別の会議で公開するということでしょう。ピアレビューが行われた後、彼らは論文を撤回し、追加のメタレビューは行いませんでした。
論文は平均スコア6.33を獲得しましたが、メタレビュア(この場合はワークショップの主催者)が理論的にこの論文を拒否した可能性もあります。こちらが最初のページの例です。著者が匿名であることを示しています。これがダブルブラインドの考え方です。
「構成的正則化:ニューラルネットワークの一般化を改善する際の予期せぬ障害」といった具体的なテーマを説明しています。これは非常に専門的なテーマで、この分野の人は理解できますが、そうでない人は理解できないでしょう。
彼らはこう述べています。「課題と限界」という部分が興味深いです。「私たちのAI科学者がピアレビューされた論文を成功裏に生成したものの、論文が発表された場所は会議のメイントラックではなくワークショップトラックであることに注意します。」
つまり、ワークショップの列に通過した人は、より簡単な列にいたということです。また、このワークショップでは3つのAI生成論文のうち1つだけが採択されたことも強調します。これは簡単には通過しなかったことを示しています。ワークショップは一般的で、メイントラックではありませんでした。3つのうち1つだけが通過したことから、それが他の惑星からの素晴らしいものではないことがわかります。
通常、ワークショップ論文は、会議のメイン提出物と比較してより予備的で洗練されていない発見を提示します。実際、多くの会議論文はワークショップ論文から始まりました。それはあなたがアイデアが良いかどうかを知りたいときに始めることです。ワークショップで最初に発表し、通過すれば、メインラインに送ることを考えるかもしれません。
後に分析のセクションで説明するように、私たち人間のAI研究者も3つの論文の内部レビューを行いましたが、どれも会議トラックでの出版に対する内部基準を通過しないと結論づけました。彼ら自身が内部的にいくつかの論文を拒否したのです。
ICLR、ICLM、NeurIPSのような最先端の機械学習会議のメイン会議での採択率は通常20〜30%の範囲ですが、メイン機械学習会議と一緒に開催されるワークショップでの採択率は60〜70%の範囲です。彼らは容易なことの中でも一番容易なところにいたのです。
今後の研究では、トップレベルの会議のテストに合格できる、さらに高品質の科学論文を作成するためのプロセスを改善したいと考えています。これは興味深いですね。最も容易なことの中でも最も容易なことを通過したとしても、彼は通過しました。
もし3つの論文すべてが拒否されていたら、ニュースは全く違っていたでしょう。「AIは知的ではなく、会議に通過しようとしたがすべてのテストで不合格だった」というものです。しかしそうではなく、ニュースは逆で「3つのうち1つが通過した」と言っています。
「AIの科学者は主に最先端の言語モデルに基づくシステムであるため、その性能はこれらのLLMの性能に直接リンクしていることも指摘したいと思います。フロンティアの基盤モデルが科学者が期待するように改善し続ければ、AI科学者も改善し続けるでしょう。」
これは事実です。基盤となるAIが改善されるにつれて、すべてが改善されます。「ピアレビュープロセスを超えたAI生成論文の分析として、人間のAI研究者である私たちも独自の分析を行い、3つのAI生成論文すべてをレビューしました。」
ここで彼らは自分たちが行った分析について話しています。「3つの論文を会議のメイントラック(採択に最高レベルの要求がある)に提出された原稿として扱い、私たちのチームは各生成論文に対して包括的なレビューを書きました。」
ここにピンク色のブロックがありますね。これは人々が書いた批評です。「ICLRの会議レビュアーの役割を引き受け、論文の著者(AI Scientist)に論文で見つかった問題と、著者が私たちの問題に対処するために私たちのコメントをどのように取り入れるべきかについての提案を提供しました。」
これは素晴らしいことです。彼らは論文を取り、レビューを行い、レビュアーはいくつかのコメントを付け、そのコメントを使って人工知能自体が提案された点を改善して論文を書き直すことができるのです。
「ワークショップのレビュープロセスとは異なり、このやり取りは、レビュアーが著者と協力して作業を改善するトップカンファレンスやジャーナルの典型的なピアレビュープロセスの一部です。」
ここに彼らが取り上げた詳細の例があります。例えば、ここでは「私たちはLSTMに基づくニューラルネットワークを使用しました」と述べており、著者は2016年のGoodfellowを引用していますが、コメントには「実際にはこの名前のDifoという別の人物によるものです」と書かれています。
他にも細かい点があります。「我々は構成的正則化の用語を定義します」という部分で、「これはもう少し正確にできるでしょう」とコメントしています。論文を書いた人なら普通のことです。時々、あなたにとっては完全に理解できる文を書いても、読者にとっては「よくわからない、もう少し説明が必要だ」と思われることがあります。
「レビューとコメントに加えて、初期レビューフェーズで各論文の初期評価スコアも提供しました。評価はNeurIPSやICLRのような主要な機械学習会議のガイドラインに従って提供されました。」彼らはある意味でAIが論文を改善するのを助けたのです。
「さらに、AI Scientistによって行われた実験結果が再現可能であることを確認するためにコードレビューも行いました。」アイデアとしては、AIが論文を生成し、もし望むなら再生成できるということです。
「図や引用の欠落や過剰、フォーマットの問題などのエラーを確認し、結果の科学的精度と再現性、統計的厳密さを向上させました。AI科学者に論文に含めるために選択された実験それぞれを複数回繰り返すよう奨励しました。」本当に改善しているのですね。
「最終的に、3つの論文のいずれも、現在の形式で会議トラックで採択される論文として資格があると私たちが信じるものについての内部基準を通過していないと結論づけました。」内部的には論文を不合格としました。
「しかし、ワークショップに提出した論文には、さらに発展させることができる興味深い独創的ではあるが予備的なアイデアが含まれていると信じています。したがって、これらはICLRワークショップトラックの資格があると信じています。」
ここで論文のコピーが利用可能です。興味があれば見ることができます。ICLR 2025のAI Scientistと、彼らが受け取ったスコアです。例えば、このスコアは6、7、6です。この論文は3.74と非常に低いスコアです。そしてこれは3.33とかなり低いです。確かに、一つの論文が他のものよりもはるかに注目を集めました。これは非常に興味深いことです。
論文をクリックすると、コメント付きの論文が表示され、グラフを含む完全な論文が見られます。テストを行い、結論を出すための全てのものです。3〜4ページの簡単な論文で、特別なものではありません。
あなたはどう思いますか?人工知能は私たちが働く必要がなくなるまで、ますます多くのことを私たちのためにやるようになるのでしょうか?あるいは、人工知能がほとんど全てを行い、私たちはただそれを見て、再考するレベルになるのでしょうか?
私たちが人工知能に何かをさせると、それは私たちが気に入らないレベルで行うことがよくあります。そして面白いことに、いくつかのコメントを付けることで、AIが回答を改善し、これらのコメントから私たちがモデルのトレーニングを改善するためのデータベースを持つことができます。
私はこれを非常に興味深いと思います。未来が到来し、このレベルは上がり続けるだけだと思います。人工知能はますます良くなり、今行っていることをするための自律性がますます高まるでしょう。今の状況がこうであれば、10年後はどうなっているか想像してみてください。
このようなビデオを見続けるためにチャンネルをサポートしたい場合は、メンバーになりましょう。メンバーはWhatsAppグループへのアクセス、先行ビデオへのアクセスがあります。「いいね」をお願いします。


投稿日

カテゴリー:

投稿者:

タグ:

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です