
6,327 文字

サム・アルトマンとOpenAIは、実質的にかなり重大な声明を出しました。彼らは基本的に、この法律が可決されなければAIレースは終わるかもしれないと述べています。これから彼らが何について話しているのか正確に掘り下げていきますが、これは非常に興味深いことです。この全体は著作権に関するもので、AIの企業が著作権侵害の訴訟にどう対処するかに苦戦していることについてです。
なぜこれがそんなに大きな問題なのかわからない方のために説明すると、AIモデルは何兆もの何兆ものトークンで訓練されていますが、問題は、これらのAI企業がどこかからそのデータを取得する必要があったということです。これらの企業は実際にインターネットをスクレイピングしました。インターネットには多くの公開データが含まれていますが、多くの場合、そのデータを単にスクレイピングして好きなところで使用することはできません。特に、それを製品にする場合には、倫理的にデータを収集するか、人々にデータを自ら作成してもらう必要があります。
多くのAI企業が倫理的にデータを収集しなかったか、人々に自らデータを作成してもらわなかったため、彼らは現在、本質的に著作権のある素材で大規模言語モデルを訓練したという問題に直面しています。これは画像生成モデルからテキスト生成モデルまで及び、すべてが今や帰結しつつあります。彼らは膨大な量の著作権のあるデータでこれらのモデルを訓練し、今「モデルはここにありますが、これらの訴訟がなくならなければ、私たちは本当に大きな問題を抱えることになる」と言っています。だからこそ彼らは「これがなくならなければ、AIレースは実際に終わるかもしれない」と言っているのです。
ここで見ることができるように、「OpenAIはアメリカ合衆国に著作権のある素材でAIモデルを訓練することを許可するよう促している」と書かれています。「Chat GPTを開発したテクノロジー企業は、AIに対する不必要で負担の大きい規制を放棄するようトランプ政権に強く求めている」とあります。これは彼らが必要としていることです。著作権に関する訴訟が増えているからです。
基本的に彼らがこれについて話したい理由は、アメリカのリードを維持する必要があるという意味でそれを枠付けしているからです。ここで「彼らがやりたいことはアメリカのリードを強化することだ」と書かれているのが見えます。彼らが言っているのは「企業がこれをすることを許可しなければ、アメリカは先頭に立ち続けることはできない」ということです。これはスマートなマーケティング戦術だと思います。アメリカは断然先頭に立ち続けたいと思っていて、当然それを実現するためなら何でもするでしょう。
もちろん、この提案はドナルド・トランプの来るAIアクションプランの一環として同社が米国政府に提出した幅広い計画の一部です。AIアクションプランは、国家安全保障を確保し競争力を促進しながら、AIにおけるアメリカのリーダーシップを強化することを目的とした政策イニシアチブです。これは実際にトランプ大統領の行政命令の下で開発されており、それはアメリカのAI支配を維持し強化することを求めています。
ここで見ることができるように、「政権は将来の政策を、民間セクターのイノベーションを妨げる不必要で負担の大きい要件を防ぐような転換として、民間セクター、政府、学界全体の関係者から意見を求めた」と書かれています。基本的に「これをしなければ、私たちが取り組んでいるイノベーションを本当に妨げることになる」と述べています。
OpenAIがここで引用している本当のことは「フェアユース」であり、彼らはある意味で正しい点を持っています。これらのモデルは生成的であり、実際に読んだものを一対一で生成するわけではないからです。彼らが言っているのは「OpenAIのモデルは公衆による消費のために作品を複製しないように訓練されています。代わりに、それらは作品から学び、パターン、言語構造、文脈的洞察を抽出します。これは、私たちのAIモデルのトレーニングが著作権とフェアユースの原則の中核的な目的に一致していることを意味します。既存の作品を使用して、それらの既存の作品の商業的価値を損なうことなく、全く新しく異なるものを作成するのです」ということです。
OpenAIは自分たちが恩恵を受ける会社であるため、フェアユースを主張するのは簡単だと言わざるを得ませんが、新しい生成AIにより機会、仕事、その他多くのものが侵食されている特定の業界で働いている人々は、確かにスペクトルの反対側にいると思います。あなたがAIアートクリエイターで、これらの企業があなたの画像をすべてダウンロードし、あなたの作品でAIを訓練し、人々が単純なテキストプロンプトを使用してあなたが何時間もかかるものを生成できることに気づいたとき、何の見返りも得られないとしたらどうでしょうか。これは他の多くの個人が「いや、これはまったくフェアユースではない」と言うだろうと私は主張します。
ここでのユースケースは完全に理解していますし、すべての具体的な詳細に立ち入るつもりはありませんが、特定のケースでは特定のスタイルを持つ特定の個人や特定の作品は確かに補償される必要があると言わざるを得ません。特定のクリエイターのアートスタイルを模倣する文字通り特定のプロンプトがあり、それは確かに最初に作成されたアート作品から価値を奪っています。
書き方は別のカテゴリーであり、あまりにも曖昧で、あまりにも多くのトークンがあるため、著作権がどこにあるのかを認識するのは非常に困難だと思います。しかし、現在これを取り巻く法的問題は非常に大きく、いくつかの訴訟がまだ進行中です。
彼らが提案しているのは、OpenAIが基本的に「米国はAI産業の学習の自由を促進するために著作権戦略を転換することでこれらの裁判闘争を終わらせるべきだ。そうでなければ、中華人民共和国は米国企業がアクセスできない著作権のあるデータへのアクセスを続ける可能性が高く、これにより中国は優位に立ち、オリジナルIP作成者の保護においてほとんど得るものがない」と述べているということです。
ここでOpenAIが言っていることは、私も同意できる部分があります。彼らは基本的に「著作権のあるものへのアクセスを禁止し、自分たちでデータ作成をしなければならないとしましょう(一部はそうしていますが)、Adobeのような企業は実際に倫理的にすべてのデータを調達しながらも良いマネーモデルを維持することに成功しています。私はこれが、他の国の他の企業がその著作権のあるデータのすべてにアクセスできるようになり、彼らの政府はそれを止めるために何もしないだろうという状況だと考えています。これにより彼らはアメリカに追いつくことができます」と述べています。
これは実際に良い点です。なぜなら、他の国々が単にインターネット全体をスクレイピングし、そのデータで何でも好きなことをすることがわかっているからです。彼らの主張は「私たちがやらなければ、中国がやるだろう」ということであり、AIレースでは企業や国々が競争上の優位性を維持するために何でもするだろうと思います。
ここでは、これが実際に難しい選択であることがわかります。「連邦政府はアメリカ人のAIから学ぶ自由を確保しつつ、著作権材料から学ぶアメリカのAIモデルの能力を保持することにより、AIリードをPRCに譲渡することを避けることはできません。政策提言において、OpenAIは権利保有者の懸念に関わらず、可能な限り多くのデータをAI企業に流し込むことが、グローバルAIリーダーシップへの唯一の道だと考えていることを明確にしました」とあります。基本的に「これがグローバルAIリーダーシップへの唯一の道です。それ以外のことをすれば、他の企業や国々が著作権のある素材で訓練することを許可される状況に陥り、深刻な事態になるでしょう」と述べています。
彼らは「これをすれば、おそらくリーダーシップを維持できないだろう」と述べています。ここで「他の企業や国々がデータへの無制限のアクセスを持ち、アメリカの企業がフェアユースのアクセスなしで残されれば、AIのレースは事実上オープンになる」と書かれているのがわかります。多分彼らは少し劇的かもしれません、それについては後で説明しますが、彼らはこれが彼らが成功するかどうかを決定する重要なことだと述べています。彼らは「アメリカが負ければ、民主的AIの成功も同様だ。最終的に、可能な限り幅広い情報源からより多くのデータへのアクセスが、さらに多くの知識を提供するさらに強力なイノベーションへのアクセスを確保するだろう」と述べています。彼らはここで一理あります。データはAIの燃料源の一つですが、もちろんそれは変わりつつあると思います。
皆さんはこれについてどう思いますか?でも、ほとんどの人が話しているのを見なかった質問があります。12〜18ヶ月後にこれは重要なのでしょうか?なぜこう言うのか聞いてください。
もちろん、AIに関する様々な動画を作ってきました。その中の一つがイリヤ・サツケヴァーの動画についてでした。イリヤ・サツケヴァーはOpenAIの最近のイノベーションであるテストタイムコンピュートの背後にいる天才です。彼は多くの異なることや将来に来ることについて話した動画を作りましたが、その中で彼が話したことの一つ、当時非常に大きなことだったのは「私たちが知っている事前トレーニングは終わるだろう」ということでした。ここで皆さんに注目してほしいのですが、彼は「成長しているのはコンピュートです。私たちはより良いハードウェア、より良いアルゴリズム、そしてより大きなクラスターを手に入れました。しかし成長していないのはデータです。私たちには一つのインターネットがあり、それはAIの化石燃料です」と言いました。
基本的にこの動画で彼は「私たちはすべての可能なデータを使い果たした」と言いました。これが私が「AIの企業がすでにすべての可能なデータを使い果たしているならば、データがAIイノベーションを駆動する主要な源ではなくなる12〜18ヶ月後にこれは重要なのだろうか」と述べている理由です。以前はそうでしたが、将来的にはデータがその理由ではないかもしれません。
なぜそう言うかというと、GPT-5を見てください。GPT-5や他の大規模言語モデルの第二イテレーションは実際に期待に届いていません。この記事では「OpenAIの次の主要モジュールGPT-5を開発する努力は、ウォールストリートジャーナルの新しいレポートによると、スケジュールから遅れており、結果はまだ巨大なコストを正当化するものではない」と述べています。ここでGPT-5は「以前のモデルのような大きな飛躍ではなかった」と書かれています。
基本的に私がここで言っているのは、以前は私たちはこれらのAIモデルを構築するためにデータを使用し、それが高いレベルの知能にアクセスするための鍵でしたが、今やパラダイムは完全に変わったということです。私たちはもうこのデータを成長させていません。もちろん、非常に選択的なデータセットを取得することはできますが、おそらくそれらは自分自身で作成することになるでしょう。
つまり、データが成長していないということ、そして企業がすでにすべてを使い果たしていることがわかっていて、もちろんそれがイノベーションを推進するものではないため、これは新しいパラダイムであり、注目すべきことではないでしょうか?なぜなら、もちろんここでのイノベーションは実際にテストタイムコンピュートから来ているからです。
このパラダイムに馴染みがない場合、これは基本的にモデルがより長く考えることを許可すると、モデルがよりスマートになるというものです。また、これが12ヶ月後には重要ではないかもしれないと言う理由は、ヤン・ルカンの動画を含めるかもしれませんが、彼もこの問題について話しています。私たちがAIでデータをすべて使い果たし、それをAIモデルに入れるという点に達したら、企業は革新する異なる方法を探し始めるでしょう。彼らがそうした方法の一つがもちろんテストタイムコンピュートであり、これらの新しいイノベーションはすべて、より多くのデータを収集することに依存していません。実際、より多くのデータを収集することは、私たちを間違った方向に導いていると主張する人もいるでしょう。なぜなら、人間は学習するとき、何かに熟達するために500万の例を必要としないからです。
もちろん、これはモークスのパラドックスのようなものかもしれませんが、これは興味深い点だと思います。ヤン・ルカンの動画も紹介します。
「私たちは何か本当に大きなものを見逃しています。人間の知能を再現するのはさておき、私たちは猫の知能やラットの知能、犬の知能さえ再現できません。彼らは驚くべき能力を持ち、物理的な世界を理解しています。どの家猫も非常に複雑な行動を計画することができ、世界の因果モデルを持っています。彼らの一部はドアや蛇口などを開ける方法を知っています。人間では、10歳の子供は夕食のテーブルを片付け、食器洗い機に入れることができます。ゼロショットで、初めて10歳の子供にそれをするよう頼んだとき、彼女はそれをするでしょう。どの17歳も20時間の練習で車の運転を学べますが、私たちにはまだ猫のように行動できるロボットがありません。夕食のテーブルを片付けることができる家庭用ロボットはなく、何十万時間もの監督された訓練データがあるにもかかわらず、レベル5の自動運転車もありません。これは私たちが何か本当に大きなものを見逃していることを示しています。」
ここで私が言おうとしているのは、これらのAI企業に例外があるべきだと思いますし、おそらくこれらのモデルの開発を助けた人々に何らかの払い戻しがあるべきだと思います。特定のアートスタイルを盗んだならば、一部のアーティストは確かに補償されるべきだと思います。
しかし、私がここで言おうとしているのは、18ヶ月後には、イリヤ・サツケヴァーが言ったように、事前トレーニングのような大規模なデータ収集に基づかない新しいイノベーションが出てくるだろうということです。より多くのイノベーションは単により良いアルゴリズムとそのデータを使用するより革新的な方法の結果となるでしょう。もちろん、これは私の意見に過ぎません。皆さんはどう思いますか?
これらの訴訟がどのように展開するか見るのは非常に興味深いでしょう。最近の訴訟では、これらの大企業の一つを訴えた個人の一人が実際にその訴訟に勝ちました。これらの企業が実際に契約を結び始めていることも知っています。例えば、OpenAIはRedditとデータにアクセスするための契約を結んでいます。ニューヨークタイムズのようなウェブサイトもあり、時間が経つにつれてこの問題がどのように進展するか見るのは面白いでしょう。
先ほど言ったように、私の意見では、AIが人間のように学習できるような潜在的な新しいイノベーションにより、これは12〜18ヶ月後にはあまり重要ではないと思いますが、結局のところ、私たちには分かりません。
この動画を楽しんでいただけたなら、次の動画でお会いしましょう。
コメント