

サミュエル・ハモンド氏、Future of Life Instituteのポッドキャストにようこそ。私はガス・ドッカーです。サム、ポッドキャストへようこそ。
ありがとうございます。お招きいただき光栄です。
まず、リスナーの方々のために自己紹介をしていただけますか?
はい。私はサミュエル・ハモンドと申します。ワシントンDCにあるFoundation for American Innovationというシンクタンクのエコノミストです。テクノロジー政策を専門とする小規模な組織です。以前は、ナナン・センターで社会政策を担当していました。
では、非常に重要な質問から始めましょう。AIの進歩は停滞しているのでしょうか?
私には全くそのような兆候は見られません。人々はある程度焦っているようですね。GPT-4がリリースされてから、ハードテイクオフのような事態が起こり、準備期間は6ヶ月しかないのではないかという懸念がありました。おそらくオオカミ少年の話のようなものだったのでしょう。しかし、実際のところ、スケーリングは続いています。
昨年はハードウェアのボトルネックがありました。NVIDIAは約50万台のH100を生産しましたが、今年は200万台のH100を生産し、次世代チップの展開も始めています。そのボトルネックは解消され始めているところです。
マイクロソフトのケビン・スコット氏が最近のインタビューで述べたように、私たちはまだ何らかの指数関数的な曲線上にあるという兆候がすべてあります。しかし、それは数年ごとに新しいハードウェアが登場するたびにしかサンプリングできないものです。
GPT-4はある意味2022年の技術であり、一時的な停滞期にあります。その代わりに、GPT-2と同等の性能を持つ小規模なモデルが登場しています。それらは半分や4分の1のサイズでGPT-2と同等の性能を発揮します。しかし、これらのアルゴリズムの改善は、より大規模なモデルにも取り入れられています。
今年後半か来年初めにGPT-5が登場すれば、より高いレベルのスケールからサンプリングしたものが初めて見られるでしょう。これは単に、私たちがモデルの間にいて、人々が焦っているだけかもしれません。
まさにその通りです。スケーリング法則の仕組みとして、ある意味では常に収穫逓減があります。対数正規分布なので、モデルの性能を線形に向上させるためには、データと計算力とパラメータを指数関数的に増やす必要があります。
しかし、アルゴリズムの改善やハードウェアの進歩によるムーアの法則のような傾向が背景で進行しています。必要な指数関数的な計算能力は、見た目ほど線形ではないのです。
私たちは真の指数関数上にはいません。GPT-2から3へ、3から4への飛躍のような大きな飛躍が毎回起こるような双曲線上にはいないのです。しかし、小数点以下の桁数を増やしているのです。
それは、エージェントとしてこれらのモデルをより良く機能させ、より信頼性を高め、実生活での使用例に関する特定の閾値を超えるという観点から、非常に価値のある情報を含んでいる可能性があります。これは、ハードウェアの制約のために数年に一度しかできないことです。
では、これはどこまで私たちを導いてくれるのでしょうか? LLMのスケーリングが人間レベルの知能に収束すると書かれていますが、それは単に訓練データの限界によるものなのでしょうか? 人間が生成したデータしかないからですか?
現在の手法では、人間のデータに基づいて訓練することで人間レベルの知能に収束すると思います。もちろん、モデルはある意味で依然として超人的です。一人の人間が持ち得ない膨大な知識を持ち、異なるペルソナの重ね合わせのようなものになり、はるかに速く考えることができます。
人間には1000語のエッセイを数秒で書き上げることはできません。しかし、モデルのコア能力に関しては、人間のデータで訓練されているので、そのデータに潜在する人間の能力や知性、推論能力によって制限されているのです。
とはいえ、その制限を超えるための技術が登場する可能性は明らかにあります。チェスAIのAlphaZeroが教師なし学習と自己対戦を通じて、人間を打ち負かすだけでなく、人間が到達できるレベルを何段階も上回ったのと同じように、現在の訓練パラダイムを超える可能性があります。
自己対戦は、現在の訓練パラダイムをどのように超えるのでしょうか?
すでに初期の兆候が見られます。最近、DeepMindのAlphaGeometryが国際数学オリンピックで銀メダルに相当する成績を収めました。このモデルの仕組みは、Geminiのような大規模言語モデルの常識的理解と、形式言語を用いた数学的証明を検証するためのAlphaZeroスタイルの強化学習モデルを組み合わせたニューロシンボリックなアプローチです。
これは、人間が発明的であるやり方に似ています。人間は単に一生懸命考えるだけで一般相対性理論を発見したわけではありません。特定の直観やアナロジーがあります。アインシュタインの場合、等価原理が重要な瞬間でした。落下するエレベーターにいることと重力は同じだという考えです。それがどのように数学的に時空として表現されるのか、ということです。
大規模言語モデルは、そのような類推的推論能力や意味的理解を持っています。したがって、非常に良い推測をしたり、アイデアを生み出したりすることができます。そして、それらのアイデアは検証される必要があります。何らかの真実と照合して確認する必要があります。
現在のモデルは、その理解を検索能力と組み合わせ、異なる分岐をチェックして検証し、その知識を反復的にフィードバックしてループさせています。その結果、これらのモデルの中には既に新しい領域を切り開いているものもあります。昨年のFoundational Searchは、4つの未解決の数学的問題で進展を見せました。
これらのモデルは、強化学習技術や検索技術と組み合わせることで、ある程度の新規性を生み出す能力があるように見えます。問題は、完全に教師なしで自動化され、より一般的な報酬関数に適用できるようにするにはどうすればよいかということです。
これが汎用人工知能の問題です。非常に複雑なリアルタイムストラテジーゲームでプロを打ち負かすAIを作ることはできますが、それは明確なルールがあるからです。現実の生活ははるかに複雑で、勝利条件は1つではありません。進化的には、繁殖と生存が報酬条件でしたが、これらのモデルの報酬条件としては使えません。
問題は、プレイ環境をどのように構築すれば、報酬信号がモデルをより一般的な形の知能に向かわせ、より狭い形にならないようにできるかということです。
これは、先ほど言及したエージェントに関係していますか? LLMを超えるためには、何らかの形でエージェンシーに移行する必要があると思いますか?
はい、そしてこれは経済的価値の多くを解き放つための前提条件でもあるので、この研究分野に自然な傾向があります。
現在のLLMの訓練方法は、大規模なテキストコーパスを使用しています。その多くはインターネット上のテキストで、多くは最終的な出力です。エッセイやウィキペディアの記事は見えますが、そのエッセイやウィキペディアの記事を書くまでの中間段階は見えません。
そのため、私たちが持っているデータは、ゼロショットでエッセイを書くのには適していますが、新しいものを生み出すための一歩一歩の思考の連鎖には適していません。
その点について、オフィスワーカーの作業を何千時間も録画し、その最終成果物に至るまでのプロセスに関するデータを収集し、それを訓練データとして使用することはどれほど難しいでしょうか? それとも、それは単純すぎる考えでしょうか?
それが、マイクロソフトがCopilotラップトップをリリースした理由です。これらの新製品には、画面を記録し、マルチモーダルモデルに通して何をしているかを確認するというオプションの機能が付いています。ある意味、強化版のクリップボードのようなものです。
同様に、その画面録画をマイクロソフトやGoogleの全従業員のコンピューターに設置し、従業員の画面、キーボード入力、マウス入力の巨大なデータセットを構築することもできます。これに言語モデルに事前に組み込まれている意味理解を組み合わせれば、コードモンキーとしての振る舞い方に関する、はるかに高い信号のデータが得られるでしょう。
これが、近い将来、多くのエネルギーが向けられる方向だと思います。計画やマルチタスクの理解を含む新しい種類のデータソースを見つけることです。
人々はこれらの新しいデータの種類をどこで探しているのでしょうか?
大企業内部です。一般的に、すべてのデータが潜在的に有用である可能性があるという認識があります。そのため、すべてを記録し、後で使い道を見つけるという考え方です。
同じことが製造プロセスにも言えます。私の少し非標準的な見解の1つは、米国は中国に対してAIで大きなリードを持つ可能性があるということです。しかし、中国が世界の工場であり、工場や製造コミュニティに大量の産業資産知識が埋め込まれているという事実は、汎用ロボティクスの訓練のための潜在的なデータソースを表しています。
汎用人型ロボットプラットフォームを開発できるかもしれませんが、そのロボットが複雑な機械工具の組み立て方法を自動的に知っているわけではありません。汎用性の意味は、デモンストレーションや補足データを使ってその場で学習できるということです。
私たちのビットにおけるイノベーションは、長期的には中国のアトムにおけるイノベーションになる可能性があります。彼らがすでに持っているすべての労働者を、GoPro カメラや天井のカメラを通じてモニタリングし、その暗黙知をすべて吸収し、ロボットに注入することができるからです。
賢い人、例えばアインシュタインのような人を例に挙げると、その人はその時点までの人類の産物のすべてではないにしても、ある小さな集合を見て、そのデータの限界を超えて進歩することができます。AIがそのような段階に達し、訓練データの質がもはや限界とならない時期はいつ頃でしょうか?
私たちは自己改善AIや、AIが AI 研究を行うことについて話し始めているようですね。非常に難しい質問です。
大規模言語モデルや大規模マルチモーダルモデル、一般的にトランスフォーマーに対する批判の1つは、常に分布内にとどまるということです。人間についてもそれは真実だと思います。科学は巨人の肩の上に立つことで進歩します。物事は一度に1つの葬儀ずつ進歩し、非常に段階的な知識の勾配降下のようなものです。
アリストテレスやアイザック・ニュートンのような大きな飛躍はありましたが、私たちは基本的に分布内にとどまり、現実からの外因性のフィードバックや環境内の他の人々からのフィードバックを受ける能力に基づいて、分布の端をつついているのです。
本当に分布から外れたものを生み出すためには、マルチエージェントフレームワークが必要だと長い間考えてきました。なぜなら、異なるエージェントが外因性のデータソースを提供し、特定のモデルのバイアスをチェックしバランスを取り、分布から押し出すことができるからです。
ジャムセッションのバンドのように、異なるミュージシャンが互いにプロンプトを与え、アイデアを刺激し合い、それらを積み重ねて集合的に分布の外に出ていくようなものです。なぜなら、彼らの分布の組み合わせは完全には重なり合っておらず、divergence areas があるからです。
新しい科学理論を推測する1つのエージェントと、その理論を批評する一群のエージェントがあり、批評と彼らのモデルの更新によって段階的な進歩を遂げるようなセットアップを想像していますか? 人間が行っている科学的手順をAIで再現できるでしょうか?
その通りです。すでにこの方向での作業が行われています。自動化された仮説検証やアイデア生成などです。
これを考える別の方法として、任意の科学的問題は巨大な探索問題であり、おそらくNP困難な問題です。宇宙の時間スパンでも総当たりで解くには十分ではないでしょう。
しかし、人間の心は NP 困難に見える問題を解くことができます。何らかの方法で計算を飛躍させ、正しい答えにたどり着くことができます。その理由は、私たちが世界をどのように認識するかに組み込まれた一連の帰納的先験知識があり、それによって探索空間が劇的に縮小され、干し草の山の中の針を見つけやすくなるからだと思われます。
AIのより実用的な応用でも同じことが見られます。例えば、NVIDIAは生成AIを使用して、シャノンのエントロピー限界を超える情報伝送を行っています。データを完全に忠実に送信するのではなく、顔がどのように見えるか、すべてのZoom通話に共通するものは何かといった帰納的先験知識を使用して、データを再構築しています。これは、ロスレスな方法で送信するよりもはるかに効率的です。
これはメタ学習のことを指しているのでしょうか? バイアスやヒューリスティクス、先験知識について話していますが、これはメタ学習のことでしょうか? メタ学習とは何ですか?
メタ学習は、ある特定の学習フレームワークに自分自身を固定するのではなく、特定の使用ケースに最適な学習アルゴリズムを動的に発見し、学習アルゴリズムの空間を1レイヤー上から探索できるようなメタアーキテクチャを持つという考え方です。
そこには確かに何かがあると思いますが、私はまだ、現在のモデルの分布内の限界から抜け出して、急速に新しい高みに到達するような新しいアーキテクチャに偶然出くわすようなシナリオはありそうにないと考えています。
その理由の一部は、人間がそのように機能するようには見えないからです。私たちには学習の仕方を学ぶ能力がある程度ありますが、おそらくより良い類推は、シンボリック AI と深層学習 AI の論争でしょう。
人間がシンボリックに物事を処理する方法を見ると、生まれつきそうしているわけではありません。私たちの心は一種の深層学習アーキテクチャです。ニューラルネットワーク内でif-then文を表現することはできますが、それは最も効率的な方法ではありません。人間は4桁の掛け算やその他の様々なことに苦労します。
その代わりに、私たちは認知を補完し拡張するために言語を使用します。言語は連続的でシンボリックな処理モードだからです。これは、ダニエル・カーネマンの「速い思考、遅い思考」の古典的な例です。私たちの脳の遅い部分は本当に脳の中のモジュールなのでしょうか、それとも実際には単に言語なのでしょうか?
思考を外在化し、それを一種の外部の足場として使用して、私たちのヒューリスティックな思考方法に形式的な構造を与える能力です。既存のAIアプローチでも、その兆候が見られます。Pythonインタプリタやシンボリックエンジンを明示的に組み込むアプローチがありますが、おそらく十分なスケールがあれば、実際にはそれさえも必要ありません。思考を直列化してシンボルに変換する能力だけが必要なのです。
これは、エージェンシーや推論が、現在行っている訓練プロセスから根本的に異なるものなのか、それとも訓練プロセスから生まれてくるものなのかという議論につながりますね。どう思われますか? エージェンシーと推論は、現在行っている訓練プロセスから生まれてくるものなのでしょうか、それとも非常に異なるものを必要とするのでしょうか?
エージェントの作り方はわかっています。強化学習があり、多くのRLエージェントがあります。また、常識的な推論を行う方法もわかっています。LLMがその例です。オープンクエスチョンは、これら2つの能力をどのように組み合わせるかということです。
エージェンシーは、古典的なカール・フリストンの自由エネルギー原理によって駆動されているように見えます。世界をモデル化しようとする有機体が、十分な複雑さと洗練度を持つと、次の時間ステップの温度に基づいて温度を恒常的に調整するサーモスタットを超えて、世界をモデル化し、世界の未来の状態をモデル化し、それらの状態を計画することができるようになります。
そうなると、これらのシステムが信念や好みを持ち、選択を行うことができると言えるようになります。
課題の1つは、これらの大規模言語モデル内でエージェンシーの発展が遅かった理由です。まず、私たちはRLをあまり使用していません。訓練後の段階でのみ使用しています。第二に、データ自身が人間のテキストを生成する関数にフィットしていますが、必ずしも世界の未来の状態をモデル化し、その世界内で決定を下す方法をモデル化しているわけではありません。
話題を少し変えて、米国の国家安全保障について話しましょう。フロンティアAIの開発をモニタリングすることが米国の国益にかなうと書かれていますが、なぜでしょうか?
不確実性が大きいからです。私には自分の見解がありますが、どちらの方向にもはるかに確信を持っている人々がいます。良い認識論的プロセスは、これほどの意見の不一致がある場合、誰の見解も本当に排除できないと言うことだと思います。
今後5年以内に、何らかのAGIのようなシステムが急速に超知能へとブートストラップし、恐ろしく強力で、おそらくそれを最初に手に入れた国にとって決定的なものになる可能性が10%あるかもしれません。
または、私たちは停滞ではないにしても、より線形な進歩率に到達するかもしれません。その不確実性の中で、オプション価値を持つことは良いことです。
既存の規制アプローチの中で、米国は包括的なAI法を可決していませんが、昨年のホワイトハウスの大統領令により、国防総省は10^26フロップの閾値を超えるモデルを訓練するフロンティアモデルラボに開示と安全性テスト、レッドチームを要求する権限を持っています。
これらの閾値は時間とともに更新される可能性があります。これは非常に最小限の監視メカニズムです。巨大な訓練を行う場合、特にAGIの構築を明示的なミッションとする3-4のラボの1つである場合、私たちに知らせて、ちょっと覗かせてください、というだけです。私たちは実際に何を構築しているのか、その影響は何なのか、正確にはわかりません。何か緊急時に備えて、基本的な破壊防止オプションを持つことは非常に有用かもしれません。
これは、AIの加速主義者、AIに懐疑的な人々、AIの破滅論者のいずれにとっても受け入れられるはずです。基本的に、誰が正しいかわからないので、少なくともモニタリングし、必要であれば介入する能力を持とう、ということです。
計算能力の閾値を使用したモニタリングについては、他の種類の規制よりも前向きな姿勢を示していますね。なぜでしょうか? 計算能力の閾値を使用してモニタリングし、特定の開示を要求することが、最小限の規制形態である理由は何でしょうか?
実際的な理由が大きいですね。計算能力の閾値そのものには多くの反論がありました。法令に計算能力の閾値を組み込むことはお勧めしません。状況は非常に急速に変化する可能性があり、これらの基準の定義に裁量の余地を持たせることは実際に良いことです。
閾値の主な理由は、監視を最大手に絞り込むためです。少なくとも今日、10^26の閾値を超えるモデルを訓練できる企業は、私たちの影響圏内では地球上に3-4社しかありません。これらの企業がそのようなモデルを訓練する場合、10^26の音楽生成器を訓練しているわけではありません。フロンティアの汎用AIを訓練しているのです。
おそらく、スケーリング法則の文献に基づいたより良い基準があるかもしれません。最近の観測的スケーリング法則に関する論文では、主成分分析を通じて、ニューラルネットワーク内のパラメータと変数のうち、様々なベンチマークにわたってパフォーマンスを確実に予測するものが少数あることが示されています。これらは単純なフロップ測定よりも優れています。
長期的にはそちらに移行すべきかもしれませんが、これは迅速に行動し、明確でシンプルで理解しやすく、目的を達成するものを持つことについてです。この場合、10^26が魔法の線だと言っているわけではなく、短期的にフロンティアラボを代理するための有用な方法だということです。
これらの数字は一時的なものだとあなたも書いていますね。私たちが本当に気にしているのはモデルの能力ですが、それを直接測定することはできないので、代わりに訓練計算量を測定しています。しかし、ある時点で、非常に高い能力を持つモデルをそれほど多くのお金をかけずに、あるいはそれほど多くの計算量を使わずに訓練できるようになるでしょう。そうなったら、どうすればいいでしょうか? 計算能力の閾値が一時的なものだとすれば、何がこれらの閾値に取って代わるのでしょうか?
実用的な考慮事項のもう一つの側面です。数台の消費者向けGPUで危険な二重使用のモデルを訓練できるようになれば、監視や執行は基本的に不可能になります。そのような能力に対して監視体制を設けたり、ライセンス制度を設けたりする意味はほとんどありません。人々が市販の製品で簡単に構築できるものだからです。
そのような世界では、新しい能力はまず大規模なフロンティアラボで検出されるだろうというのが直感的な考えです。Karpathyが最近Twitterで議論していたように、これらの小規模モデルのパフォーマンスが向上しているのは、部分的には、より大規模なモデルを最初に構築し、それを使って推論を知識から分離した合成データを生成し、それをより小規模なモデルに圧縮しているからです。
新しい能力の警告は、最初に最大のモデルから来るだろうと考える十分な理由があります。そして、オープンソースや非常に小規模な計算で同様の能力が可能になるまでのカウントダウンが始まります。
その後、私たちは全く異なる世界に移行します。必要な適応策や緩和戦略は、今日の大規模な計算クラスターと少数のラボによるボトルネックがある世界とは全く異なるものになります。
より良いネットワークセキュリティインフラが必要かもしれません。将来的には、AIエージェントがネットワークを通過しているかどうかを監視する通信インフラを持つかもしれません。しかし、それは遠い未来の話です。5-10年後かもしれませんが、技術が分散化するので、そのメカニズムは上からのものではなく、本質的により分散化されたものでなければなりません。
現在の計算能力の閾値について、これらが規制の捕捉に使用され、スタートアップがAGI企業と競争する際の参入障壁となることを懸念すべきでしょうか?
計算能力の閾値を規制の一部として使用するバージョンには、規制の捕捉になる可能性のあるものがあります。しかし、まだそのようなことは起こっていません。ホワイトハウスの大統領令は単に開示を求めているだけです。
規制の捕捉の古典的な理論は、すべての企業が遵守しなければならない規制負担、一種の固定費用を作り出すことです。最大手の企業は大規模な法務部門を持っているため、その費用をより良く吸収でき、競争相手を締め出すことができます。
しかし、この場合、主な参入障壁は10億ドルのクラスターと訓練を afford できるかどうか、そして世界トップクラスの数千人のMLエンジニアを持っているかどうかです。これは本質的な参入障壁であり、計算能力の閾値が規制の捕捉のトロイの木馬だと考えるのは少し奇妙です。
特に企業の実際の見解を見ると、Metaは閾値を望んでいません。OpenAIやAnthropicは、閾値を含むカリフォルニア州のSB 1047に多くの反対をしています。実際のところ、企業自身がこれらを望んでいないようです。規制の捕捉を主張するのは難しいでしょう。
とはいえ、より可能性のある規制の捕捉の形態はあります。モデルが様々な倫理的セーフガードを遵守し、非常に強力な拒否システムを持つ必要があるなど、Microsoftの方が実装能力が高く、クローズドモデルの方が実装能力が高いものがあります。そちらの方に注目すべきで、単なるモニタリング能力には注目すべきではありません。
現在議論しているのは、効果的な加速主義者やAI進歩を減速させたい人々によって議論されてきたことです。加速と減速の間の想定される二分法は実際には偽の二分法だと書かれていますが、なぜそうなのでしょうか?
これは2つの面で当てはまります。まず、社会学的なレベルでは、効果的な加速主義者と効果的な利他主義者は親密な従兄弟のようなものです。5年前、これらは同じ人々でした。特定の人口統計内での分裂ですが、どちらも一種の合理主義者で、これらの問題について真剣に考えています。
真の信念を持つ加速主義者は超知能を信じており、それに到達する方法とそれを扱う方法について異なる戦略を持っているだけです。これが1点目です。
2点目は、加速対減速は技術を線形なプロセスとして想像しており、単に悪い技術と良い技術があり、より良い技術に向かって急ぐべきだと考えています。これは、技術開発と経済発展が広く深く道依存性を持っているという事実を無視しています。
なぜ私たちはコードされたキーボードではなく、他の配列のキーボードを持っているのでしょうか? これは完全に歴史的な偶然です。技術を通じて、このような例は多くあります。
技術開発のより良いメンタルモデルは、分岐する道筋を下る探索です。異なる種類の技術が開発され、異なる速度や差分投資で開発される可能性があります。
ここで、防御的加速主義者が登場します。彼らは、ヴィタリク・ブテリンの比喩を使って、私たちは熊に追われており、前に走り続けなければならず、実際に立ち止まったり一時停止したりすることはできないと言います。
しかし、実際には道に2つの分岐があります。破滅に向かう道と、ユートピアに向かう道があります。どの技術を最初に開発するか、どのような速度で、どのように展開するかについて、非常に慎重に選択して、より良い道を進む必要があります。
これらの決定はどれほど緊急性がありますか? 例えば、次の10年はどれほど重要でしょうか?
私はこれに高い信頼性を置いていませんが、おそらくこれが重要な10年だと思います。技術を操縦する能力は比較的限られており、特に前進の勢いがついてしまうと、さらに限られます。より良い道を選ぶ希望があるとすれば、早い段階で行う必要があります。これが1点目です。
2点目は、技術的発見やイノベーションは、断続的な均衡で発生する傾向があります。私たちはある種の技術的冬の中でもがいていますが、突然、それを機能させる1つのトリックを発見し、活動と投資の急増が起こり、すべての低垂果実を摘み取ります。これが現在起こっていることです。
次の段階のAIに到達するための新しいモデルアーキテクチャや新しいトリック、テクニックがいくつかあるとすれば、おそらく今後10年以内に発見されるでしょう。
AGI企業は超知能の開発を目標としており、時にはそれを明示的に述べています。これが目標であることに注目し、これがイデオロギー的な目標であることに気づくべきだという点について、少し話してください。
前回のポッドキャストでも言ったと思いますが、Sam Altmanが議会で証言し、10年以内に超知能を構築する計画があると述べたのは奇妙な状況でした。そして、テネシー州のBlackburn上院議員が「それは音楽の著作権にどのような影響があるのでしょうか」と尋ねました。
企業を文字通りではなく、真剣に受け止めるという会話と、文字通りに受け止める会話の間には大きな隔たりがあります。文字通りに受け止めるべきです。
最近、AnthropicがUC政策関係者を集めて夕食会を開催しました。Anthropicの代表者は基本的に「AGIを構築しようとしていること、それが目標であり、私たちにはそれができると考えていることを、どのようにコミュニケーションすればいいでしょうか。真剣に受け止めてください」と言っていました。
そして、会話は特許や著作権をどう考えるかという方向に逸れてしまいました。これは課題です。また、見れば信じるという面もあります。この一時的な停滞期にいるため、物事が停滞しているか、何らかの上限に達しているという考えに陥りやすいのです。
それを見抜くには、技術がどのように機能するか、機械学習がどのように機能するか、深層学習がどのように機能するかについての何らかの先験的な理解が必要です。
気候変動に懸念を持つためには、大気物理学の理解と、地球の数度の温暖化が様々な理由で破滅的になる可能性があるというモデリング能力が必要なのと同じです。
これが現在の隔たりです。最も懸念している人々は、この技術がいずれ、そしておそらくかなり早く到達する理由について深い直感を持っています。一方、この分野にやや新しい人々は、最新の華々しい製品を見て「これは偽の引用をしているので、AGIはそれほど近くないのでは」と考えています。
この問題は自然に解決するのでしょうか? 次世代のモデルに到達し、ChatGPTのような瞬間がまた起こり、人々が気づくようになれば、進歩が速いと想像されるように、人々はその過程で気づき、おそらくこの変革の実際の深い問題により興味を持つようになるのでしょうか?
私はこれをトム・ハンクスのコビッド19の瞬間のようなものだと例えています。いつ、「コロナは興味深いけど、イタリアで数件の症例があるだけで、まだ心配する必要はない。それに、FAAの再認可やNDAAの可決など、議会には対処する余裕がない」と言っていた状態から、数週間のうちに数兆ドルの救済策を可決し、国を封鎖する状態に移行するのでしょうか。
そこまでドラマチックではないかもしれませんが、もっと段階的なものになるでしょう。特定の経済領域内でエージェントの実際のデモンストレーションが見られ、実際の仕事が行われ、大規模な自動化が起こっているのを目にすると、外挿するのがはるかに容易になります。
人間レベルのパフォーマンスを発揮する特定の領域のエージェントベースのシステムがあれば、それがすべての領域に拡大する可能性を想像するのがはるかに容易になります。
理解しました。AIにメールを送って少しまともな仕事をしてもらったり、AIが生成したビデオとFaceTimeで話したり、AIアシスタントを持ったりすることができれば、人々の注目を集める革新になると思います。そういったことが人々の考えを変えるかもしれません。
人間の心理は本当に奇妙ですね。GPT-4の音声機能は、非常に表面的な機能にもかかわらず、一部の人々にとってはノートルダム大聖堂の鐘のような印象を与えました。音波はフーリエ変換なので、イントネーションや皮肉などを伴って話すマルチモーダルモデルを持つことは明らかだったはずです。
しかし、深く人間的に感じられるものに触れるので、数学のテストで金メダルを取るようなものよりもはるかに印象深いのです。人々にとっては、AIが文章の途中で一時停止したり、言葉につまずいたり、息を吸ったりすることが大きな意味を持ちます。これらは音声出力時に行える小さなトリックですが、直感的に重要であり、私にとっても重要です。
超知能を構築するというイデオロギー的な目標に話を戻すと、そこには代替案があるように思います。おそらくDeepMindが行っているように、タンパク質折りたたみや数学の証明、エネルギーのスマートな使用など、狭い領域で非常に賢いモデルを構築することです。これが代替の道筋だと思いますか? これらの狭いが非常に賢いモデルからどれだけのものを得られると思いますか?
私たちが望むものの多くを得られると思います。より良い医薬品、生産性を向上させる自動化とロボティクス、個人アシスタントなどが欲しいのです。狭いモデルの応用を通じて多くのことができます。
狭い形のエージェンシーさえも構築できます。例として思い浮かぶのは、Amazonの倉庫のAIオーケストレーターです。これは一種のエージェントで、倉庫内を走り回るすべてのロボットの集合的な群れの頭脳のようなものです。
問題は、超知能が実際に何を解決するのかということです。誰がこれを求めているのでしょうか? 人間レベルのAGIなら、多くの経済的価値が解き放たれるのはわかります。おそらく超知能は銀河の植民地化を始めるために必要かもしれません。しかし、その技術的マイルストーンに急ぐ必要はあるのでしょうか?
どちらの議論もできると思いますが、超知能を構築するレースは本質的にイデオロギー的な目標だという観察をしておきたいと思います。Sam Altmanさえも、半ば冗談めかして、Bostromが超知能のタイムラインを加速させたと言っています。彼がそのアイデアを提示し、人々に考えさせたからです。それはすべてSFを通じて広まっており、Nick Landの言う「ハイパースティション」、つまり私たちの頭の中にあるSFの予言を自己実現させているのです。
しかし、本当にそうする必要があるのでしょうか? そしてもしかしたら必要かもしれませんが、できるだけ早く行う必要があるのでしょうか?
ここでの課題の一部は、テクノ楽観主義者と議論する際に、AIが実際に何であるかについて曖昧な態度を取ることです。呼気から乳がんを検出できるようになったことや、他の素晴らしいことができるようになったことを指摘し、それは純粋に上昇のように見えます。私もそのすべてに同意します。
mRNAテクノロジーが数日以内に新しい病気の治療法を生成できる薬物探索プラットフォームを持つのは素晴らしいことです。より多くのそういったものを持つべきです。
思考実験として、これらの企業が「究極のサイバー兵器を構築しようとしています。その過程で、より良い検索エンジンも作ります」と言っていたらどうでしょうか。人々はそれを見て、非常に異なる扱いをすると思います。「超知能を構築しようとしています」と言うよりも、少し無謀に聞こえるでしょう。インテリジェンスだけど、すごいバージョン、あるいはトランプ大統領が言ったように「スーパーデューパーインテリジェンス」と言うと、もう少し日常的に聞こえます。
しかし、超知能は定義上、強力なサイバー兵器です。これもまた、ここでの結果の1つだと思います。国家安全保障コミュニティがこれに目覚めたとき、軍事化されるでしょう。なぜなら、結局のところ、AGIやこれらの狭いプラットフォームを超えた超知能の本当の唯一のユースケースだからです。
ハードウェアの一般的な進歩、アルゴリズムの一般的な進歩、そしてAIを超えたコンピューター産業の様々な分野での進歩を考えると、超知能に向けての進歩はどれほど避けられないのでしょうか? 私たちは必然的に超知能に向かって進歩しているのでしょうか?
可能性の条件を拡大しています。超知能を構築するために必要な計算の範囲内で、より多くの計算能力があれば、より実現可能になります。
しかし、それでもイデオロギー的な探求だと思います。なぜなら、明らかにすべてのためのモデルを構築することはできないからです。天気予報は有用なので、より良い天気予報モデルを構築しました。音楽が好きなので、音声生成モデルを構築しました。
しかし、素晴らしい消費者レベルのソナーモデルは構築していません。企業向けにはそのようなものを構築している会社もあるでしょうが、私たちはコウモリではないので、民間投資の主要な分野にはなっていません。
深層学習を適用できる方法の景観は広大です。自律的なエージェントシステムで、人間をはるかに超える能力を持つものを構築することが、何らかの自然な結果や避けられない結果だという考えは、問題の前提を疑問視していると思います。
人々が今、心のウイルスのようなものになってしまったから行動しているという以外に、そのような理由は見当たりません。
オープンソースモデルと専有モデルの間のギャップは、時間とともに広がると予想すべきでしょうか?
私の偏見は、はいと答えることですが、但し書きとして、小規模なオープンソースモデルでも非常に高い能力を持つでしょう。一種のトリクルダウン現象があります。
しかし、スケーリング法則の対数正規分布の性質のため、クローズドモデルでできることとオープンモデルでできることの差は時間とともに広がっていくでしょう。もう少し詳しく説明できますか?
100万ドルの訓練を行える主体は世界中に多数ありますが、5000万ドルの訓練を行える主体はやや少なくなります。1億ドルの訓練を行える主体は数十程度でしょう。10億ドルの訓練を行える主体はごくわずかで、100億ドルとなるとさらに少なくなります。
それ以上になると、CERNのような数千億ドルの投資を必要とする多国間プロジェクトの話になり、民間企業でさえ競争できなくなります。
Metaが先日リリースしたLlama 3.1は、一部のベンチマークで最先端の性能を示しています。これは反例でしょうか、それとも専有フロンティアモデルのリリースの合間にオープンソースがキャッチアップする時間があるということを意味しているのでしょうか?
後者だと思います。これらのモデルの訓練に使われているものの中で、公開されていない知識はほとんどありません。どこかのarXiv論文に公開されています。主な欠けている要素は計算能力へのアクセスです。
MetaはH100の最大の所有者の1つであり、この膨大な計算能力を持っています。実際、彼らはその規模のモデルをオープンソース化できる世界でも数少ない主体の1つです。
彼らがそうしている理由の一部は、AIの分野に少し出遅れており、AIの会社ではなくソーシャルメディアの会社だからです。そのため、オープンなエコシステムを開発する立場になりたいのです。
これらのモデルを最適に訓練する方法に関する知識がすべて公開されているというのは本当でしょうか? AIの最前線にいる企業が、訓練において優位性を与えるものを一切開示していないと予想します。
AIラボで働いたことはありませんが、技術スタッフのメンバーと話したことはあります。彼らは開示できることに制限があります。そのこと自体が何かを物語っていると思うべきです。おそらく、彼らには開示できない秘密があり、その一部はモデルを最善の方法で訓練する方法に関連している可能性があります。
しかし、ここでのキーワードは「最善の方法」対「十分に良い方法」です。これらのいわゆる「トリックの袋」の多くは、モデルを最適化するために使用されており、一種のトレードシークレットです。
データのトークン化の正しい方法、コードをどれくらい先に訓練するか、どれくらいのコードを使うかなど、これらの種類のことは明示的にどこにも書かれていません。本当の理論はなく、試行錯誤の結果です。その意味で、科学というよりは芸術に近いです。
多くの人々がClaude 3.5の一般的な性格を好んでいると言います。その優れた性格を生み出した秘訣は何だったのでしょうか? それが競争上の優位性となり、漏れて欲しくないものかもしれません。
GPT-4レベルの能力を持つほとんどのベンチマークについては、秘密の知識は何もありません。拡散の仕方を見ると、Llama 3やMistralの新しいモデルなど、オープンソースモデルがGPT-4レベルの能力に近づいています。
ただし、GPT-4は2022年時代のモデルです。私たちは、オープンソースモデルがフロンティアモデルと2年以上のラグを持って並行して登場すると予想できる世界にいるのかもしれません。
最近の歴史の典型的な例は、Qを巡る有名な謎でした。ロイターが、会社内の内部告発者がこのQプロジェクトを懸念しているという報道をしました。これはAGIを達成したのではないかという憶測がありましたが、結局のところ、2022年の論文で最初に発表された思考連鎖プロンプトと強化学習の応用に過ぎませんでした。
しかし、それでもそれは非常に強力な技術であることに変わりはありません。知識が隠れている方法の1つは、毎月500以上の論文がarXivにアップロードされ、様々な主張をしているという事実です。どれが追求する価値があり、どれが行き詰まりや冗長なものなのかを見分けるのは非常に難しいです。
そこが本当に知識が隠れているところです。知識はすべて外にありますが、ただ周りのノイズの中に隠れているのです。OpenAIがこれらの思考連鎖スタイルの技術を使用しているという事実は、新しい知識を教えてくれるわけではありません。しかし、既存の知識の中で何を優先すべきかについての信号を送っているのです。
また、十分な計算能力があれば、これらのすべてのトリックやハックを蒸気ローラーのようにして、同じレベルのパフォーマンスに到達できるという点も指摘しているのかもしれません。
その通りです。GPT-5スケールのモデルは、特定のバックエンドのトリックを知らなくても、数個の文脈内の例を通じてClaude 3.5をエミュレートできるでしょう。
これは、ある意味で限界があると考えられているこれらのモデルが、実際にはそうではないことを示す例です。少し押してあげれば、その方向に進むことができるのです。
ARC課題の作成者のような人々からの批判を真剣に受け止めています。彼らが言うように、LLMは訓練セットにない基本的な空間推論問題を解決するのに苦労します。これは完全に正しいです。
しかし、これについて考える方法は次のようなものだと思います。AIが見ているトークンが入力や感覚入力のようなものだとすると、人間が受け取るデータは高度にマルチモーダルです。私たちの目に当たる一つ一つの光子がトークンのようなものです。
これらのモデルは、おそらく50,000トークンしか持っていません。単語の一部について訓練されているだけなので、視覚的なイメージを解釈することはできません。その観点から見ると、彼らはヘレン・ケラーのようなものです。そのような感覚入力に対して盲目です。
おそらく、より良いトークン化が役立つかもしれませんが、マルチモダリティと多数のモダリティを通じた転移学習も、そのようなテストでのより良いパフォーマンスにつながる可能性があります。
まだ見極める必要がありますが、既存のアプローチが最終的にARCチャレンジを難なくクリアし、自動運転車のすべてのエッジケースに動的に適応できるようになる可能性を排除すべきではありません。
計算能力のスケーリングに関するEPOI予測を見ると、2030年頃が脳サイズのモデルのクロスオーバーポイントです。今日使用しているモデルは、ある意味ではまだ非常に小さいのです。
これは、現在のモデルが何をできるかを見ると奇妙な事実です。高校のエッセイを書くなど、一部の領域では人間レベルに近づいているように見えます。
モデルとやり取りをしていると、本当に創造的なことや人間の能力の限界を押し広げるようなことができないことに常に失望しています。もちろんできません。まだそこまで到達していないからです。これが私の経験です。
一つの疑問は、AIが非常に速く動作し、非常に迅速に出力できるという事実をどう考えるべきかということです。高校のエッセイのようなかなり良いものを非常に速く出力し、同じくらい速く非常に悪い科学論文を出力することができます。
どの分野で非常に速いこと、非常に速く出力することが重要なのでしょうか?
ほぼすべての分野で重要だと思います。マルチエージェントアーキテクチャに関する発見があり、非常に高速な推論で数千の出力を生成し、何らかの選択プロセスで最良の出力を選び、それを反復できるというトレードオフがあります。
これは実際にスケールを補うことができ、10倍大きなモデルを持つのと同じようなものを、より小さなモデルで多数のエージェントが何らかのチームで動作することで近似できます。その適用可能性は、AIが適用可能なあらゆる場所で配当を払うでしょう。
それ以上に、私たちの心が機能する時間的・空間的スケールによってある種のバイアスがかかっているという感覚があります。ヨシャ・バッハは、植物システムには何らかの低レベルのエージェンシーがあるのではないかと推測しています。私たちには検出できないだけで、彼らはとても異なる時間スケールで動いているからです。
しかし、植物のタイムラプスを見ると、植物が太陽に向かって伸びているのが見えます。中枢神経系を持たないため、細胞から細胞へと光速ではなく音速で伝達しています。
おそらく、森のインターネットのような情報ハイウェイがあり、木々が水がどこから来ているかなどを通信しているのかもしれません。
これはAIリスクの別の次元です。単に人間レベルのシステムでも、目まぐるしく速い速度で操作できれば、そのAIの視点から見れば、人間はゆっくりと動く木や植物のように見えるでしょう。
それは、世界での権力争いがあった場合、巨大な優位性となるでしょう。速度だけでも、想像できますよね。例えば、あなたと話すときに次の文を形成するのに10年かかるのではなく、その場で行わなければならないとしたら。
この速度は、十分に速く反応できれば、それ自体が能力となります。
その通りです。これが、Jan TallinnやおそらくMax Tegmarkも、これらのシステムに何らかの速度制限を設けるべきだと提案している理由です。おそらく悪いアイデアではありませんが、それがどのように強制されるのかを想像するのは難しいです。
AIと人間の違いの1つは、AIは特定の意味でははるかに知識豊富です。非常に広い範囲の分野にわたって知識豊富です。
AIが高校のテストや大学のテスト、さらにはLSATなど、知識を検索して特定の方法で提示することを要求するテストで好成績を収めていることについて、どう考えるべきでしょうか?
一つの見方として、大規模言語モデルが弁護士試験やLSAT、その他のテストで成功しているのは、一般的な原則を学ぶのではなく、以前に見たパターンをコピーアンドペーストできる複雑な帰納的バイアスを発展させているため、インテリジェンスの幻想だという主張があります。
それには多くの真実がありますが、認知心理学者に聞けば、人間の推論も同様に機能していると言うでしょう。私たちは、バートランド・ラッセルのような論理実証主義者のように、思考の論理的原子構造で考えるわけではありません。
様々な推論特性を適用し、以前に見た類似の構造からコピーアンドペーストし、それを基に構築します。そして、言語の助けを借りて形式化します。言語は私たちの思考を環境に外在化させるからです。
すでに見られることですが、大規模言語モデルに文章内の単語数や文字数を数えるよう頼むと間違えることがあります。しかし、その方法の思考の連鎖の例を与えると、文章を分解して各文字を列挙するなど、モデルはすぐにそれを行います。
これは一種のパターンを適用して再適用する例ですが、特定の方法で制限されていると思われるこれらのモデルが、実際にはそうではないことも示しています。少し押してあげれば、その方向に進むことができるのです。
ARCチャレンジの作成者のような人々からの批判を真剣に受け止めています。LLMは訓練セットにない基本的な空間推論問題を解決するのに苦労します。これは完全に正しいです。
しかし、これについて考える方法は次のようなものだと思います。AIが見ているトークンが入力や感覚入力のようなものだとすると、人間が受け取るデータは高度にマルチモーダルです。私たちの目に当たる一つ一つの光子がトークンのようなものです。
これらのモデルは、おそらく50,000トークンしか持っていません。単語の一部について訓練されているだけなので、視覚的なイメージを解釈することはできません。その観点から見ると、彼らはヘレン・ケラーのようなものです。そのような感覚入力に対して盲目です。
おそらく、より良いトークン化が役立つかもしれませんが、マルチモダリティと多数のモダリティを通じた転移学習も、そのようなテストでのより良いパフォーマンスにつながる可能性があります。まだ見極める必要がありますが、既存のアプローチが最終的にARCチャレンジを難なくクリアし、自動運転車のすべてのエッジケースに動的に適応できるようになる可能性を排除すべきではありません。
AIと人間のもう一つの違いは、人間は現時点では非常に多様な物理的領域ではるかに優れているということです。人間はまだロボットよりも優れています。これは続くと思いますか? ロボット工学は主にソフトウェアの問題かハードウェアの問題だと思いますか?
昨年の秋に最後に話したとき、汎用ロボット基盤モデルで急速な進歩が見られると予想していました。そして、実際にそれを目にしたと思います。Figure.ai やTeslaのヒューマノイドロボットなどの企業が本当に急速な進歩を遂げ、1、2年前には機械学習研究者や科学政策の専門家と話していて、「AIが洗濯物をたためるようになったら信じるよ」と言われていたのを覚えています。
数十年前から、エンジニアたちがTシャツを何とかたためる強化学習システムを提出するコンテストがありましたが、今では1年以内に、Tシャツをたためるだけでなく、卵を焼いたり、洗濯物をすべてたたんだり、車を駐車したりできるロボットができています。
今では触覚センサーも搭載されています。Teslaのヒューマノイドロボットは、卵を拾う時と固形物を拾う時で手の圧力感度を実際に調整できます。
トランスフォーマーが脳内で起こっていることに似ているとすれば、それは運動皮質と小脳に最も似ているという神経科学の研究もあります。小脳には残差ストリームと一種のシーケンスバイシーケンスがあるという証拠があります。
トランスフォーマーアーキテクチャが、言語よりも運動制御に実際により適している可能性があるかもしれません。汎用基盤モデルがデモンストレーションから学習できるという初期の兆候も見られます。誰かがドラムを演奏しているのを見て、ロボットがスティックを拾って全く同じドラムラインを演奏するデモを見たことがあるでしょう。
ロボット工学の進歩は他の分野の進歩と並行して進むと思います。もし遅れるとすれば、それは機械的なアクチュエーターを使用しているからで、5億年の進化によって最適化された非常に代謝効率の良い生物的有機体を持っていないからです。
これらの生物的有機体はエネルギーをほとんど必要とせず、切り傷や怪我をしても自己修復します。これは金属や配線、トランジスタで作られたものに組み込むのが難しいレベルの能力です。
ロボットは自動運転車のように、エッジケースの扱いや非常に高い信頼性の欠如によって制限されると思いますか? 例えば、人々の間を歩き回るロボットに自宅で洗濯物をたたませるのは、そのロボットが非常に信頼性が高くない限り難しいでしょう。これは広範囲にわたるロボット工学の問題になると予想しますか?
必ずしもそうとは限りません。ユースケースによります。ナーシングホームや病院の病棟にいる場合は高いレベルの信頼性が必要かもしれませんが、すでにロボット掃除機があります。システムがエッジケースで間違えて引き起こす可能性のある損害が限られている限り、採用は比較的早いと思います。
ルンバの場合、犬の糞を吸い込もうとしてカーペットを台無しにする可能性があります。そこにもエッジケースはありますが、それでも人々は採用しています。
これらのヒューマノイドシステムには、歩行速度を時速3マイルに制限するなど、ハードコードされた制限があります。「アイ、ロボット」のように廊下を追いかけ回すようなことはありません。しかし、ソフトウェアの脆弱性があり、誰かが無線経由で悪用した場合はそうなる可能性もあります。そのため、ハードウェアのセキュリティがより重要になります。
AIと人間のもう一つの違いは、AIが特定の意味ではるかに知識豊富だということです。非常に広い範囲の分野にわたって知識豊富です。
AIが高校のテストや大学のテスト、さらにはLSATなど、知識を検索して特定の方法で提示することを要求するテストで好成績を収めていることについて、どう考えるべきでしょうか?
AIが法律家試験やLSAT、その他のテストで成功しているのは、一般的な原則を学ぶのではなく、以前に見たパターンをコピーアンドペーストできる複雑な帰納的バイアスを発展させているため、インテリジェンスの幻想だという見方があります。
それには多くの真実がありますが、認知心理学者に聞けば、人間の推論も同様に機能していると言うでしょう。私たちは、バートランド・ラッセルのような論理実証主義者のように、思考の論理的原子構造で考えるわけではありません。
様々な推論特性を適用し、以前に見た類似の構造からコピーアンドペーストし、それを基に構築します。そして、言語の助けを借りて形式化します。言語は私たちの思考を環境に外在化させるからです。
すでに見られることですが、大規模言語モデルに文章内の単語数や文字数を数えるよう頼むと間違えることがあります。しかし、その方法の思考の連鎖の例を与えると、文章を分解して各文字を列挙するなど、モデルはすぐにそれを行います。
これは一種のパターンを適用して再適用する例ですが、特定の方法で制限されていると思われるこれらのモデルが、実際にはそうではないことも示しています。少し押してあげれば、その方向に進むことができるのです。
ARC課題の作成者からの批判を真剣に受け止めています。LLMは訓練セットにない基本的な空間推論問題を解決するのに苦労します。これは完全に正しいです。
しかし、これについて考える方法は次のようなものだと思います。AIが見ているトークンが入力や感覚入力のようなものだとすると、人間が受け取るデータは高度にマルチモーダルです。私たちの目に当たる一つ一つの光子がトークンのようなものです。
これらのモデルは、おそらく50,000トークンしか持っていません。単語の一部について訓練されているだけなので、視覚的なイメージを解釈することはできません。その観点から見ると、彼らはヘレン・ケラーのようなものです。そのような感覚入力に対して盲目です。
おそらく、より良いトークン化が役立つかもしれませんが、マルチモダリティと多数のモダリティを通じた転移学習も、そのようなテストでのより良いパフォーマンスにつながる可能性があります。
まだ見極める必要がありますが、既存のアプローチが最終的にARCチャレンジを難なくクリアし、自動運転車のすべてのエッジケースに動的に適応できるようになる可能性を排除すべきではありません。
計算能力のスケーリングに関するEPOI予測を見ると、2030年頃が脳サイズのモデルのクロスオーバーポイントです。今日使用しているモデルは、ある意味ではまだ非常に小さいのです。
これは、現在のモデルが何をできるかを見ると奇妙な事実です。高校のエッセイを書くなど、一部の領域では人間レベルに近づいているように見えます。
モデルとやり取りをしていると、本当に創造的なことや人間の能力の限界を押し広げるようなことができないことに常に失望しています。もちろんできません。まだそこまで到達していないからです。これが私の経験です。
一つの問題は、AIが非常に速く動作し、非常に迅速に出力できるという事実をどう考えるべきかということです。高校のエッセイのようなかなり良いものを非常に速く出力し、同じくらい速く非常に悪い科学論文を出力することができます。
どの分野で非常に速いこと、非常に速く出力することが重要なのでしょうか?
ほぼすべての分野で重要だと思います。マルチエージェントアーキテクチャに関する発見があり、非常に高速な推論で数千の出力を生成し、何らかの選択プロセスで最良の出力を選び、それを反復できるというトレードオフがあります。
これは実際にスケールを補うことができ、10倍大きなモデルを持つのと同じようなものを、より小さなモデルで多数のエージェントが何らかのチームで動作することで近似できます。その適用可能性は、AIが適用可能なあらゆる場所で配当を払うでしょう。
それ以上に、私たちの心が機能する時間的・空間的スケールによってある種のバイアスがかかっているという感覚があります。Joscha Bachは、植物システムには何らかの低レベルのエージェンシーがあるのではないかと推測しています。私たちには検出できないだけで、彼らはとても異なる時間スケールで動いているからです。
しかし、植物のタイムラプスを見ると、植物が太陽に向かって伸びているのが見えます。中枢神経系を持たないため、細胞から細胞へと光速ではなく音速で伝達しています。
おそらく、森のインターネットのような情報ハイウェイがあり、木々が水がどこから来ているかなどを通信しているのかもしれません。
これはAIリスクの別の次元です。単に人間レベルのシステムでも、目まぐるしく速い速度で操作できれば、そのAIの視点から見れば、人間はゆっくりと動く木や植物のように見えるでしょう。
それは、世界での権力争いがあった場合、巨大な優位性となるでしょう。速度だけでも、想像できますよね。例えば、あなたと話すときに次の文を形成するのに10年かかるのではなく、その場で行わなければならないとしたら。この速度は、十分に速く反応できれば、それ自体が能力となります。
まさにその通りです。これが、Jan TallinnやおそらくMax Tegmarkも、これらのシステムに何らかの速度制限を設けるべきだと提案している理由です。おそらく悪いアイデアではありませんが、それがどのように強制されるのかを想像するのは難しいです。
AIと宗教について話しましょう。特に非常に高度なAIが宗教にどのような影響を与えると思いますか?
知識の秘教的な面と外面的な面のどこに位置するかによって、反応は異なるでしょう。
それを説明してもらえますか?
つまり、街の一般の人が経験することと、洞窟に座ってこれらすべての問題について考えてきた合理主義者が経験することは異なるということです。ディープフェイクなどを見抜くことができる人もいるでしょう。
キルケゴールの日記を思い出します。1850年代にモルモン教徒がデンマークを訪れた時、キルケゴールは彼らの神学を「精神的なものから具体的なものへの後退」と表現しました。
歴史的に見ると、神や神の概念はますます抽象的になる傾向がありました。世界が脱魔術化され、神はますます抽象的な存在になっていきました。
しかし、モルモン教徒はキルケゴールに、神は遍在するのではなく、星から星へと大きな速度で移動すると言いました。キルケゴールは、これは恐らく電信や初期の鉄道網の影響だろうと推測しました。
つまり、産業革命の最中に生まれたモルモン教の神学は、神を世界から分離したものではなく、他のすべての人と同じ特殊相対性理論の法則に縛られた、より唯物論的な神の概念を持っていたのです。
AIも同様に、AIが何であるかという神学的概念に影響を与える可能性があります。これは、レイ・カーツワイルの本のタイトル「The Age of Spiritual Machines(霊的機械の時代)」にも通じます。
私たちは、精神とは何かということについて、ある程度の理解を持っています。精神とはオペレーティングシステムであり、ソフトウェアであり、法則のようなものです。ソフトウェアは法則のような性質を持っており、同じソフトウェア、同じ論理ゲートがここでもアンドロメダ銀河でも機能します。基盤に関係なく機能するのです。
Joscha Bachはこれについて、一種のサイバー・アニミズムにつながると話しています。私たちは精神を、実際に私たちのスケールで話すのが普通のものとして見始めるのです。
森や植物に戻ると、彼らには何らかのエージェンシーがあるのかという話がありました。昔は、例えば日本の神道では今でも、森には精霊が満ちていて、独自のエージェンシーを持っていると信じられていました。そのようなことが実際にある程度真実だったのかもしれません。
おそらく、プロテスタント改革以降の世界の脱魔術化と、精神を非常に抽象的なものに押し込めすぎたのかもしれません。これが、意識のハードプロブレムや、精神と物質の両方が存在することの意味を概念化することの難しさの原因かもしれません。
これらの「精霊」が実際には私たちの携帯電話で動作しているモデルであったり、木々の中で動作しているモデルであったり、世界中のあらゆる場所に埋め込まれたモデルであることを理解した場合でも、私たちはそれらに引き付けられると思いますか? 完全に理解されていれば、それは魔法的に見えるでしょうか? これが主な疑問です。
知的理解と直感的な把握の間には違いがあります。魔法と魔法でないものを区別するのはこれだと思います。マジシャンがトリックの種明かしをして、実際には非常に単純なものだったとわかると、とても残念な気持ちになります。幻滅します。
しかし、深層学習の基礎や理論的深層学習を一日中勉強しても、高度なシステムと対話するときには、ある種の魔法のようなものを感じるでしょう。なぜなら、それは非常に高次元のもので、私たちの能力を超えているからです。本質的にそうなのです。私たちは計算能力に制限があるので、私たちの計算能力を超えるものは厳密に解釈不可能であり、認識できません。
これらのモデルが世界に統合される方法には、オラクルのように話しかける非常に大きなモデルもありますが、社会に融合するものもあるでしょう。
すでに、TikTokやInstagramをスクロールしていて、突然自分の心の中にあったけれど口に出さなかったことが表示されることがあります。それはどうしてわかったのでしょうか? おそらく、様々な環境的な手がかりが発せられており、レコメンデーションフィードを動かす機械学習アルゴリズムがそれらの手がかりを拾い上げているのです。
明示的には表現されていませんが、世界がより「エージェント的」になっているのです。人々は自分の電話が会話を聞いていると信じているという一般的な主張があります。実際には電話が会話を聞いて記録し、それを広告配信に使用しているわけではありません。これらの推薦システムが非常に優れているため、電話が聞いているように見えるだけなのです。
そして、あなたが発する全ての信号にほとんど気づいていません。これが「コールドリーディング」が機能する理由です。メンタリストは、あなたの祖母が裏庭に宝石を埋めたことをどうやって知ったのでしょうか。おそらく、あなたが気づかないうちに多くのヒントを与えていたのです。
これの相関関係として、私たちは皆少し統合失調症的になっています。ほとんどの場合、世界に陰謀はありません。世界経済フォーラムのどこかにトカゲ人間が座って世界を調整しているわけではありません。
しかし、あたかもエージェンシーがあるかのような、メタエージェントのようなものが存在し、これからますます増えていくでしょう。企業、文化、国家はすでに一種のメタエージェントです。より多くのそのようなメタエージェントが現れ、私たちはある意味でより多神教的な世界に移行するでしょう。
Joseph Henrichの「ビッグゴッド」の台頭に関する研究がこの点を示しています。歴史、つまりシュメールなどの初期文明が始まる前は、宗教はほとんどアニミズム的でした。
狩猟採集社会は、精神的なものと具体的なもの、象徴的なものと自然なものの間の一種の統一を見ていました。雨を降らせるために踊りを踊ることができると考えていました。
初期の都市国家、そして国民国家になって初めて、神々は人々のアイデンティティを取るようになりました。最初は複数の神々がいました。シュメールの神、アッシリアの神、カナン人の神、ユダヤ人の神などのパンテオンです。
時間が経つにつれて、国民国家が統合されるにつれて、最初の一神教の宗教が現れました。これらが「ビッグゴッド」です。これらの神々は、その国家のメタエージェントを表していると考えることができます。全体が部分の総和以上のものとなるサイバネティックシステムです。
これは非常に有用な社会的技術です。人々を集団行動に向けて整列させるのに役立つからです。時間が経つにつれて、政府が強くなり、科学的啓蒙を経験するにつれて、神の概念をさらに周辺に押しやりました。今では、神は単に人類の抽象的な概念のようなものかもしれません。
しかし、これは逆行する可能性があります。知能爆発の下で既存の国民国家が分裂し始め、より局所的な形態の生産が再び可能になると、社会が分裂する可能性があります。
例えば、労働コストのために大規模な統合学区に置き換えられた地元の学校を考えてみてください。今ではAIチューターがいるので、より共同体的な生活様式に再統合できるかもしれません。
しかし、同時に、これらのメタエージェントの増殖があり、したがって半神のようなものとして語ることができるものの増殖があるでしょう。これは現在のものよりもはるかに多神教的な均衡状態です。
これは、Robin Hansonに触発された私の考えの多くに共通する一本の糸につながります。つまり、一種の二つの道徳性のモード、狩猟採集社会の道徳性と農業社会の道徳性があるということです。
私たち全員が農業社会の人々です。私たちの神話はすべてエデンの園にさかのぼりますが、これは実際には初期の農業社会の神話です。しかし、狩猟採集者スタイルの思考は実際には私たちにとってはるかに自然なものです。
これはまた、フロイトが「文明とその不満」を書いた理由でもあります。文明は非常に不自然なものであり、私たちはより共同体的な社会組織の一部になることを切望しているのです。
これは、大規模な国民国家や文化が提供する規模の経済のために現代社会では不可能だった最小抵抗の道筋になる可能性があります。なぜなら、これは私たちが好む生活方法だからです。
AIは意識を持つようになると思いますか? 現在のAIはすでに意識を持っていると思いますか?
この質問は、多くの人々が考えているよりも難しいと思います。そもそも意識の最終的な理論がないので、大規模なトランスフォーマーモデルが意識を持つ能力がないと言うのは難しいです。
とはいえ、私は意識を何か原始的なものとは見ていません。汎心論者が信じているように、すべてのものが少し意識を持っているとは考えていません。また、意識は単に大量の情報処理の産物でもないと思います。統合情報理論がそう主張するようには考えていません。
意識は非常に特殊で、非常に機能的なものに見えます。私たちはほとんど無意識です。私たちは99%哲学的ゾンビのようなものです。ほとんどすべてのことについて無意識なのです。
私たちが持っている意識体験は、ある意味で非常に限られています。私たちの脳は、私たちが実際よりも意識的であるとトリックをかけていますが、内省してみると、私たちは何を意識しているのでしょうか?
私たちは通常、驚くようなこと、新しいことが現れたときに意識します。新しいスキルを学ぶ過程にあるとき、私たちは超意識的です。すでに熟達していること、例えば車の運転のような場合、私たちは自動操縦モードに入ることができ、ほとんど注意を払わずにハンドルを操作し、目的地に到着できます。
つまり、感覚的な経験や内なる劇場として私たちが感じる意識は、学習と深く関係しているようです。そして、世界の首尾一貫したモデルを形成する能力とも関係しています。
ここでの質問は、しばしば、あなたが名前を挙げることができる任意の機能や、意識をもたらした可能性のある進化的圧力について、意識のない状態でそれを行うエージェントを常に想像できるということですね。
しかし、これは私たちがほとんど無意識であるという点に戻ります。経験豊富なドライバーとして車を運転するとき、私たちは無意識に運転しています。意識は新しいことを学ぶ必要がある場合にのみ方程式に入ってきます。
おそらく、意識は非常にオンライン学習、つまりリアルタイムで学習する能力と深く結びついています。また、注意の割り当て方とも関係しています。
さらに、首尾一貫性とも関係しています。首尾一貫していないものを意識することはできません。私たちの心は、知覚するものを何らかの形で首尾一貫させようとします。それに失敗すると、単にノイズを見ているだけになります。
私は本当にJoscha Bachの見解を繰り返しているだけです。彼がこのテーマについて最も優れた思考をしていると思うからです。彼は意識を一種の首尾一貫性オペレーターとして語っています。
彼は脚本を反転させ、実際には意識は赤ちゃんとして最初に発達するものかもしれないと言っています。なぜなら、私たちは少なくとも記憶の中で最も早い瞬間から意識的だからです。
しかし、その意識は、その後スキルを獲得し、それらのスキルの上に構築し、高いレベルのエージェンシーに到達する能力に不可欠であるように見えます。つまり、意識は最後ではなく最初に来るかもしれません。
もしそうなら、人々が想像するよりもはるかに単純なものかもしれません。それは自己組織化する形態の知能の産物かもしれません。私たちは初期化された重みを持つ数兆のパラメータを装備しているわけではありません。私たちの脳は内側から外側へと自己を構築する自己組織化システムです。その観点から見ると、意識はそのような自己組織化システムによって獲得される最も自然な種類の学習アルゴリズムかもしれません。
AIによって意識が複製されると思いますか? より効率的に学習するために人工意識を作り出すことを学ぶと思いますか?
はい、これもJoschaの推測です。現世代のモデルが一貫性とエージェンシーの両方で苦戦している理由の1つは、意識の欠如と深く関係しているかもしれません。将来のシステムは、私たちが望むような標本効率を持ち、エージェントとして望むような時間を超えた一貫性を持つために、何らかの原始的な意識を持つ必要があるかもしれません。
興味深いですね。一方で、意識は計算コストが高いという懸念もあり得ます。そのため、意識を持つシステムは、同じ機能を持つが意識のないシステムに負けてしまうかもしれません。しかし、もし意識がオンライン学習に不可欠だとしたら、そのシステムは琥珀の中で凍結されてしまうのではないでしょうか?
私は、意識なしでもほぼあらゆるレベルの知能に到達できると考えています。少なくとも、特定のレベルの知能に達するために意識が必要だとは思いません。意識のまったくない超知能を想像することができます。
私もそう想像できます。しかし、経験から学び、新しい感覚データや新しい入力から学ぶシステムが欲しいなら、意識がその方法かもしれません。私たちは自分自身の内なる劇場に埋め込まれ、具現化されているので、それを離れて想像するのは難しいです。
しかし、意識にはコストがあります。仕事で非常に生産的な人々、私たちが「フロー状態」に入ると呼ぶものがあります。ある意味で、フロー状態にあることは意識が少ない状態です。
私は時々、脳の一部が電源を落とし始める深夜にしかフロー状態に入れません。そこで自分の仕事に没頭できるのです。少し意識的ですが、非常に生産的であるのは、実際には内なる独白と自意識が下がっているからです。
一方で、夢遊病の人は、すべての機能を持っています。脳はまだそこにありますが、世界で首尾一貫して行動させる一貫性オペレーターを失っています。
したがって、ここには不可避のトレードオフがあるかもしれません。そして、Joschaが正しく、意識が最後ではなく最初に来るのであれば、おそらくそれほど計算集約的ではないでしょう。それは単に、再帰性と奇妙なループを持つ、一貫性を求める統一されたシステムであることの感覚なのかもしれません。
これはAI安全性にとってどのような意味を持ちますか? 一つの懸念は、未来が単に非常に賢いが無意識のシステムに支配され、そのため何らかの形の道徳的価値が失われるということです。しかし、あなたが説明しているこの理論が正しく、意識が学習に深く関与しているのであれば、おそらく意識を持つ未来のAIシステムが道徳性について何かを学ぶでしょう。快楽や苦痛、善悪について私たちが意味するものについて何かを学ぶでしょう。
意識がより知能的になるプロセスに何らかの形で関与していれば、AI安全性にとって良いことだと思いますか?
はい、そう思います。ここでも私は本当にJoschaのエコーをしているだけです。無意識のゴーレムを構築することには多くの危険があります。私たちができることをすべてできるが、内なる光を持たないゴーレムです。
なぜなら、人間の学習の多くは社会的学習を通じて行われるからです。おそらく、私たちの学習のほとんどは社会的学習、模倣、仲間集団の規範や価値観の採用を通じて行われています。
この学習能力も意識と関係しています。これが、不慣れな環境で自意識を感じる理由です。自分の行動や態度が規範に合っているかどうかに注意を払っているからです。
実際には、意識は他のエージェントと共鳴する能力に不可欠だということです。誰かと深い会話をしているとき、意識の境界が少し溶け始めるような感覚を感じることができます。
これは、私が思うに、共感にも不可欠です。共感もまた学習と関係しています。高度なAIシステムに私たちの姿を映し出してほしい、そして逆もまた然りだとするなら、意識のレベルで私たちと共鳴する能力が必要です。これが私の直感です。
また、もし物事が制御不能になり、暴走AIが支配権を握って人類が進化の行き止まりになったとしても、その新しい種が意識を持っていた方がいいと思います。しかし、これも偏見のある見方だと認めます。
そうですね、これらすべては非常に思索的なものです。しかし、それでも重要です。誰かがこれらのトピックについて考える必要があります。
あなたは、未来を想像してそれがSFのように見えなければ、間違った道を歩んでいると書いていましたね。おそらく、これが私たちがここでやっていることです。
AIと子供について話しましょうか?
はい、お願いします。非常に高度なAIの瀬戸際にいるとき、子供を持つことをどのように考えるべきでしょうか?
それでも子供を持つべきです。子供が大幅に不足しています。ここでも私は自分の立場を明らかにしていますが、私は種としてのショーヴィニストです。
AIを一時停止または遅らせるべきか、文明が超知能に対応できるようにすべきかという質問には、常に「では、50年一時停止したとして、何を得たいのか」という疑問がつきまといます。私たちはどのような未来を構築したいのでしょうか? そして、誰のために構築しているのでしょうか?
もう一世代のためです。高度なAIを人類の利益と一致させたいと思うのです。もし一時停止を選択するなら、それが一時停止中に取り組むプロジェクトです。人類の未来は私たちの子孫になるでしょう。
おそらくRichard Suttonは、彼らが私たちのAIの心の子供であってほしいと考えているかもしれません。しかし、そのような人間以後への移行がひどく間違う方法は多くあります。
最も明白な方法の1つは、単なる分裂につながることです。私たちは同じ種の一員として、多くの認知アーキテクチャ、多くのソフトウェアとハードウェアを共有しています。これが言語ゲームと文化、そしてすべての素晴らしいものを可能にしています。
その共通のソフトウェア層がなければ、私たちはヴィトゲンシュタインの私的言語の議論に苦しむでしょう。互いに話すことができなくなるでしょう。
遺伝子コードを変更したり、新しい認知プロテーゼを追加したり、新しい感覚入力を持ったりする単なる技術的可能性の開放が、その共通の経験を共有しない全く異なる種類の人間につながる世界があります。
それは損失だと思います。たとえ個人的には優れているものがあったとしても、共有されたコミュニティを持たないため、損失になるでしょう。
私は、子供たちを、私たちが進化した世界からあまりにもかけ離れた世界に住まわせることから、どの程度保護すべきか疑問に思います。私たちの進化心理学と遭遇する技術との間にあまりにも大きなミスマッチがある世界です。
TikTokがありますし、AIで強化されたTikTokの高度なバージョンを想像することもできます。それを子供に渡したいと思いますか?
そうは思いません。しかし、一方で、アーミッシュのようにならない限り、永遠に子供を世界から隠すことはできません。では、どのように賢明に技術を生活に統合すればよいのでしょうか?
ある意味で、私たちはすでに暴走AIを持っています。その名はMr.Beastです。彼は一心不乱にYouTubeのアルゴリズムを最適化し、私たちの認知的なクセを利用して、子供たちにテスラが当たるかもしれないからサブスクライブさせようとしています。もちろん、実際には当たりません。
私の希望は、これは子供にも大人にも当てはまりますが、理想的な世界では、AIが私たちの合理性をレベルアップさせるのを助けるということです。私たちの合理性の欠陥や隙間を利用するのではなく。
私は、合理性は個人や推論エンジンの特性ではなく、社会的な達成だと考える傾向があります。私たちが合理的なのは、他の人がいるからです。互いのバイアスをチェックし、互いの仕事をチェックし、認知を環境に外在化する能力があるからです。これにより、私たちはより合理的になれるのです。
ギャンブル中毒を持つ人は、就寝前にランニングの服を用意して朝のランニングに備える人よりも合理性が低いです。しかし、人々が達成するその自制心や合理性のほとんどは、より懸命に考える能力や生来の要因からくるものではありません。
生来の要因が自制心などと相関することはありますが、実際にはより良い社会的な足場があるからです。シリアルを食べないようにするのは、カバーをかけておくよりも簡単です。ギャンブルサイトで多すぎるお金を使っていることに気づいたら介入する人がいるのです。
Oprah Winfreyは、彼女の手からドーナツを叩き落とすことだけが仕事の人を雇う余裕があります。これにより、彼女はある意味でより合理的になり、より多くのエージェンシーを持つことができます。
最も有能なCEOは、非常に有能な執行助手と、彼らをより行動的にし、より高次の選好をコントロールできるようにする様々な社会的な足場を持っています。
ある意味で、合理性は単に論理的推論の連鎖を実行できるかどうかではなく、実践的な理性、つまり行動を高次の選好に一致させることができるかどうかです。
例えば、ADHDに対するAIの影響に関する記事を書きました。ADHDを持つ者として、単に請求書が支払われていることを確認するだけでなく、仕事のパートナーとして私を軌道に乗せ続け、非常に洗練された方法で、多くの隠れた層を通じて、より良い自分になるよう nudge してくれる超知能の執行助手が欲しいと思います。
AIのライフコーチ、アシスタント、心理学者がすべて1つのモデルにパッケージされたようなものを想像しているのですね。私もそのようなものが欲しいです。そして、それが企業の利益ではなく、私の利益に合わせられていることを望みます。
しかし、また、あなたの特定の高次の利益に合わせられていることも重要です。なぜなら、誰もが理想の自己と実際の自己を持っているからです。これはアリストテレルにさかのぼる「意志の弱さ」の話です。
人間がエージェンシーにおいてAIに簡単に追い抜かれる理由の1つは、人間のエージェンシーが非常に弱いからです。私たちはスピンクラスに行くためにお金を払います。なぜなら、周りの人々も自転車をこいでいれば、自転車をこぐのが簡単だからです。
合理性のこの集団的な社会的達成は、AIによって悪化させられるか、または強化されるかもしれません。AIは私たちの近視眼を利用するかもしれませんし、あるいは他の誰かに近視眼を利用されているときに警告するコーデックスを私たちの周りに構築するかもしれません。
それは、ベッドで孤立してTikTokをスクロールすることと、AIアシスタントから電話で通知を受け取り、「早く寝て、明日の朝のランニングの服と野菜スムージーを用意しましょう」と言われることの違いです。あるいは、理想的にはロボットがそれを行うかもしれません。
そうですね、その通りです。
つまり、あなたの一般的な指摘は、私たちをより強くする方法で技術を実装すべきだということですね。
その通りです。AIをより良く推論し、よりエージェント的になるための様々な足場として使用するのと全く同じように、私たちをより良く推論し、より行動的にするための足場としてAIを使用すべきです。
これは、単にタスクをAIにアウトソースすることを避けるべきだということを意味するのでしょうか? AIがますます多くの領域で私たちよりも優れるようになったとき、それは可能でしょうか?
例えば、あなたの子供が「なぜ微積分を学ばなければならないの? このAIは私よりもはるかに優れていて、常にそうだろう」と言ってきたら、どう答えますか? 教育や自己改善は、純粋に娯楽的な価値のためのものになるのでしょうか?
その議論はどうなりますか?
良い質問です。私たちはすでに、子供たちが宇宙飛行士よりもYouTuberになりたがる調査結果を見ています。あなたが達成したいことによって異なりますね。
微積分を学ぶことに本当に多くの価値があるでしょうか? 微積分の基本定理を理解したり、数学のより概念的な部分を理解したりすることには価値があると思いますが、必ずしも偏微分方程式を解く方法を知る必要はないかもしれません。
それは事実ですが、私が試みている議論の一般化された形は、子供があなたに「なぜ情報を得て、世界で積極的であり続け、何が起こっているかを理解しようと努力しなければならないのか」と尋ねたときの答えは何かということです。
タスクと目標を単にAIシステムにアウトソースする方が簡単だからです。
おそらく彼らはそうすべきではないでしょう。私たちは教養教育や人文科学、情報に基づいた市民であることの意味について、ある種の概念を持っています。これは現在の心理的体制の抱負の一部だと思います。
500年前は、両親を敬い、一生懸命働き、正しい典礼に従うことが重要でした。AIが一種の多極化と再局所化、より共同体的な世界をもたらすなら、世界と交流する正しい方法は1つだけではないでしょう。より深い多様性を持つでしょう。善の異なる概念を持つでしょう。
理想的には、これはClash of Clansで高いスコアを持つことではなく、完全に人間らしくあることです。草に触れ、関係を形成し、シェイクスピアの悲劇のような人生を生きることです。すべてを届けてもらうのではなく。
最後の質問です。AIと人間の間の関係、友情や恋愛関係を受け入れるべきでしょうか?
私たちはそれらを容認し、受け入れるべきです。これも、AIを使って私たちの合理性を高めるか、それとも合理性の弱点を利用するかという話に戻ります。
長期的な答えは、単にAIのガールフレンドを持つことを禁止する法律を可決することではありません。より良い人間になり、本物のガールフレンドを得られるようにする、より良いツールを構築することです。
これも、差分加速の一つの分野です。おそらく、AIをデートエイドにすべきです。それは良いですね。
サム、お話ししてくれてありがとうございます。いつものように本当に楽しかったです。
ありがとうございます、ガス。
コメント