
9,326 文字

物理学には歴史的に2つの大きな分野がありますな。1つは素粒子物理学で、これは基本法則を探求する分野です。例えば、加速器での2粒子の相互作用を調べるとかいうように、できるだけシンプルな設定で粒子の振る舞いを正確な数学で記述しようとするわけです。
もう1つの分野は、創発現象の物理学です。前世紀にフィル・アンダーソンらが取り組んだ分野で、電子の集団がどう相互作用して面白い創発現象を生み出すかを研究しました。多数の粒子を扱うには新しい考え方が必要やと彼らは言うたんです。
知能の物理学はこの方向をさらに押し進めるもんやと思います。新しい数学的ツールが必要になるでしょうな。特に、コンピューター科学者らが構築してきたカテゴリー理論とか、構造に関する数学理論なんかが役立つかもしれません。
これまでそういう理論は数学の中だけで閉じとったんですが、これからは経験科学的なアプローチで応用できるんちゃうかな。つまり、数学モデルを使って複雑なAIモデルの予測をしたり、数学的ツールをモデリングツールとして使うとかいうことです。
ハーバード大学のタナカさん、ようこそお越しくださいました。
ありがとうございます。
「知能の物理学」というプログラムを立ち上げられたそうですが、まず「知能の物理学」とは一体何なのか、詳しく教えていただけますか?
そうですね、物理学者は人間の脳のようなニューラルネットワークの研究に長い歴史があります。数学的ツールを使ってニューロンの集団がどう発火して集団ダイナミクスを生み出すかを理解しようとしてきました。
でも今、生成AIの発展で本当にワクワクするのは、それがニューラルネットワークでありながら、驚くべき振る舞いを見せ始めてることです。会話ができたり、絵を描いたり、ある意味で本当に知的やと言えるんちゃうかな。これからもっとそうなっていくと思います。
私の大きな関心は、「思考とは何か」「創造性とは何か」「創造的な思考者であるとはどういうことか」といった心理学的な問いと、数学的モデリングや実験を結びつけることです。生成AIを実験プラットフォームとして使うことで、これらの問いに迫れるんちゃうかなと思うてます。
なるほど。詳しい話に入る前に、AIの専門家としてちょっとお聞きしたいんですが、GPT-5はどんなものになると思いますか? ブルームバーグが「一種の組織のようなもの」になるって報じてましたけど、意味がよう分からんかったんです。タナカさんはどう思われます?
はい、色んな角度から考えられると思いますが、私が起こると信じてるのは、「時間の感覚」を持つようになるということです。
これには色んな意味があります。AIが最初に登場したとき、画像分類や囲碁みたいなタスクで言われてたのは、「人間が短時間でできることならAIにもできる」ということでした。例えば、画像を見せて犬か猫かを分類するのに、人間はあまり時間かからへんやろ? 最先端の画像認識AIモデルもそれができるようになったわけです。
でも、より長い「思考」が必要なタスクになると話は違ってきます。数学の文章題を解くとか、言語モデルで新しい数学定理を証明しようとする試みなんかがそうです。そういうのには段階的な計画立てと、その計画の正確な実行が必要で、より長い時間の「思考」が要るんです。
GPT-4で始まってこれからも続く変化の1つは、AIモデルがもっとダイナミックなデータを扱うようになることです。今のGPT-4は単に単語の並びをTからTへと処理してるだけですが、私らは声で話すわけです。そして声の情報には色んな内容が含まれてます。
例えば、「わー、すごい興奮してる!」って言うとき、実際に興奮してたら「わー!すごい興奮してる!!」ってなりますよね。でも興奮してへんかったら「わー…すごい興奮してる…」みたいな感じになる。こういう情報は声の中に、動的な音波の中に入ってるんです。
もう1つの例は、最近ビデオ生成モデルがどんどん出てきてることです。画像生成ができるって言うてたのが、今はビデオになってきてる。これが言語や他のモダリティと結びついていくんです。
最後にもう1つ。コンテキストウィンドウがどんどん大きくなってます。コンテキストウィンドウっていうのは、モデルが一度に処理できるテキスト情報の量のことです。GoogleのGemini AIは今200万のコンテキストウィンドウを持ってます。これはどういうことかというと、あなたが1歳とか3歳の頃から話し始めて、一生涯ずっと同じAIモデルと会話し続けられるってことなんです。
そのAIモデルは、あなたが言ったことを覚えてるし、もしかしたらあなたがしたことも覚えてるかもしれません。コンピューターと対話して「今日はこんな状況で悲しい気分や」って言うたら、AIが「5年前にも同じような状況やったけど、あの時はこうやって乗り越えたやん」みたいなことを言うかもしれない。
つまり、より長く、よりダイナミックな時間の感覚を持つようになるんです。
面白いですね。「時間の感覚」についておっしゃいましたが、キー博士、タナカさんのGPT-5の予測についてどう思われますか?
はい、タナカさんの素晴らしいアイデアを聞かせていただきました。時間について言及されたのは本当に興味深いですね。実は数年前、ニック・ボストロムが多くのAI専門家に「これからのAI研究にとって、どの分野が最も洞察に富んだインスピレーションを提供すると思うか」というアンケートを行いました。その結果、驚くべきことに認知科学がトップに来たんです。
時間の話をされましたが、AIテクノロジーは本当の意味での「記憶」の問題にまだ取り組めていないと言えるかもしれません。この点について何か見解はありますか? コンピューターのメモリーと認知的な記憶は違いますからね。コンピューターメモリーは過去の特定の状態と相関する状態ですが、人間の認知的記憶は、タナカさんも言及されたように感情を含みますし、時間の経過に対する鋭敏な感覚も扱います。
これは物理学者にとっても謎なんです。アインシュタインですら「今」の本質を理解できないと認めています。相対性理論では、宇宙の全歴史が4次元時空の中のパターンにすぎないので、時間の経過や「今この瞬間」という感覚がないんです。
でも人間の認知プロセスは、時間のこういった現実的な性質に基づいているんです。だからAIが本当に人間らしくなりたいなら、何らかの形で時間の概念を取り入れる必要があるんじゃないでしょうか。タナカさんのおっしゃったことはとても興味深いので、この点についてもっと詳しくお聞かせいただけますか?
そうですね、1つの考え方として、知能とは情報の圧縮やと言えるかもしれません。時間の感覚や感情なんかも、そういう観点から見れると思います。
例えば、私らの脳はニューロンの集まりですが、何かを経験したときにそれに対する「共鳴」みたいなもんが起こります。感情の話でいうと、多くのニューロンが特定のパターンで発火する。これが物理的に起こってるわけです。
で、私が「今、幸せやな」って言うとき、その「幸せ」は脳内の多くのニューロンのある状態に対応してるわけです。ここに圧縮が起こってるんです。
過去の出来事を思い出すときも同じです。例えば、車にはねられそうになったときのことを思い出すとしましょう。突然の事故のときって、人はよく「ほんの1秒のことなのに、何分も、何十分も続いたように感じた」って言いますよね。細かいディテールまで覚えてる。これも全て、外界や脳内で起こってることを、主観的な存在である私らがどう要約するか、どう情報を圧縮するかに関係してるんです。
これは重要なポイントやと思います。なぜなら、この圧縮された情報のレイヤーで物事を操作し理解することが、チャットにとっても重要やからです。
例えば、ChatGPT使うとき、多くの人は質問して情報を得て、それで会話終わり、ってパターンが多いと思います。でも1時間、2時間と長く続く会話のタイプを考えてみましょう。そこで考えなあかんのは、例えば感情のスペースです。誰かと1時間話してると感情が動きますよね。それがある種のつながりを維持し、感じさせるんです。
つまり、生のテキストのスペースがあって、それを要約した感情や時間感覚のレイヤーがあるわけです。今のAIは主に生のテキストレイヤーで動いてますが、もっと長い会話をしようと思ったら、単に言葉や文の並びじゃなくて、別のレイヤーをコントロールせなあかん。それを明示的にデザインする必要があるかもしれませんが、自然に現れてくる可能性もあると思います。
なるほど。ブルームバーグが報じたOpenAIのAGIへのロードマップは面白いですね。以前の会話でもおっしゃってましたが、エージェントが本当に重要になってくるって。
でも、エージェントって豊富さの計算じゃなくて、希少性の計算に基づいてるんじゃないですか? 私らの記憶は限られてるし、研究によると意識的な処理のバンド幅は1秒あたり100ビット程度しかないんです。それが私らの限界なんです。
でもAIにはそんな制限はない。けど、計画を立てたり行動を実行したりするとき、私らはその希少性の窓の中で動いてるんです。だから人間のエージェンシーを理解するには、AIもある程度、希少性の計算に基づく必要があるんじゃないでしょうか?
でも今のところ、全てが豊富さの計算に基づいて開発されてる。これ、大きな違いやと思うんですが。
ああ、そうですね。関連することで1つ思い出したんですが、物理をするAIを作るとき、最高の物理学者の多くが視覚的思考家やということを考えなあかんと思います。物理学っていうとアインシュタンを思い浮かべる人も多いでしょう。ファインマンの本を読んでも、直感や図解がたくさん出てきます。
物理学は全部長い方程式のリストで表せると思うかもしれませんが、こういう人たちは情報を視覚の領域に圧縮してるんです。それによって思考の飛躍が可能になる。
例えば、ファインマンのノーベル賞受賞につながった計算。シュウィンガーっていう別の素晴らしい物理学者と同じ結論に達したんですが、アプローチが全然違った。シュウィンガーは長い方程式のリストで、数学的に正確で美しかった。でもファインマンは視覚的な領域で飛び回るように考えて、同じ結論に達した。
これは、イノベーションには「飛躍」が必要で、それは先ほどキー先生がおっしゃったように、希少性や制限から生まれる可能性があるってことを示唆してると思います。高次元の情報を画像に圧縮して、そこで直感を働かせて、それを数学の方程式に戻す、みたいな。
面白いですね。これは本当に難しい質問なんですが、そろそろ問わなきゃいけない問題だと思います。AIが意識を持つように進化すると思いますか?
これは倫理にも大きく関わる問題です。もし意識を持つなら、AIをただのツールとして扱うわけにはいかなくなりますからね。もちろん、これは非常に思弁的な質問ですが、タナカさんはどうお考えですか?
ああ、そうですね。意識の定義は難しいと思います。キー先生の方が詳しいと思いますが、私は専門家じゃないので。でも、例えば感情の主観的な経験なんかは、エンジニアリングの課題として次の重要なステップになると思います。
OpenAIの次の目標は、GPT-4oを使った音声会話みたいですが、チャットボットを単なる情報ツールとして使うんじゃなくて、ユーザーと長時間にわたって感情的に引き込まれるような会話をすることが目標になるかもしれません。
そうなると、ある意味で感情を実装する必要があります。AIが自分の感情を認識し、その感情がどう生まれたかのメカニズムを理解し、さらに人間ユーザーの感情状態を分類する。そして、相手の感情を操作するような形でコミュニケーションを取る。
これはAIの安全性の問題にも深く関わってくると思います。でも、こういうことが自然な次のエンジニアリング目標になるんじゃないでしょうか。
なるほど。意識についてお聞きしたのは、多くの研究で意識がメタ認知と深く関係していることが分かっているからなんです。メタ認知は自信の判断や選択に非常に重要です。
少し前に、イギリス王室がウェールズ公と家族の写真を公開しましたが、操作されていたということでニュースメディアが撤回しましたよね。これは非常に興味深い事例でした。
ニュースメディアがどんな形であれ操作された写真は使えないという判断をしているということを、私は知りませんでした。タナカさん、なぜそうなのか説明してもらえますか?
簡単に言うと、フェイクニュースや現実ではないものを載せられないんです。修正を加えるだけでもダメなんです。
これは私たちが持っているメタ認知の一種です。私たちが流す情報についてのメタ認知ですね。でも人工知能にはこれがありません。
そう、メタ認知がないから、時々幻覚を起こすんです。これはAIの安全性の大きな問題です。メタ認知がなければ意識も持てないという議論もあります。これについてどう思われますか?
もちろん、これはかなり思弁的な立場ですが。新聞の場合、照明の調整はOKでもレタッチはダメっていう違いがあるんです。これはかなり微妙な違いで、人間にしか判断できないと思います。
それに、トランプ氏が撮影された直後の写真なんかは、おそらくピューリッツァー賞を取るでしょうが、その写真の価値は全く手を加えてないということにあるんです。ありのままってことですね。
でも今日では生成AIを使えば、そういう画像を簡単に作れてしまう。じゃあ、何が違うんでしょうか?
これは本当に重要な点だと思います。
はい、色んな考えがありますね。まず人間側のことを考え始めました。「事実」が何を意味するのか、その境界線がどんどん曖昧になってきてるんです。
キー先生がおっしゃったように、もう今では、インターネットやニュースメディアの動画を見ても、それが本物かどうか判断する方法がないんです。昔は、動画や音声録音が何かの出来事の証拠になると信じられてました。でも、その種の証拠、事実に対する安心感みたいなものは、もう失われてしまったんじゃないでしょうか。
意図さえあれば、何でも作り出せる。これは民主主義の根幹を揺るがすことだと思います。だって民主主義では、メディアなどから事実を得て、それに基づいて私たちが判断するはずなんです。でも今や、その最初のステップ、つまり何が事実なのかを知ることが揺らいでいる。これが最初に思ったことです。
そうですね。私がケンブリッジで博士研究員をしていたとき、ロジャー・ペンローズと知り合いだったんですが、彼は量子力学のコペンハーゲン解釈を信じていませんでした。量子ベイズ主義も好きじゃなかった。
これは物理的現実に対する彼の真実の感覚なんです。でも、多くの人は量子ベイズ主義的アプローチは悪くないと考えていますし、コペンハーゲン解釈も受け入れています。
これは存在の核心に関わることだと思うんです。真実をどう判断するか、どう選択するか。おそらく、私たちに意識があるのはこのためなんでしょう。
非常に実践的で重要な質問をしているんです。タナカさんは実験に興味があるようですが、AIが意識を持たずに、人間と同じレベルの判断力や良心を持つことは可能だと思いますか? これは開かれた問いだと思いますが、タナカさんの直感はどうでしょうか?
私の直感では、AIは最適化で構築されているので、意識のどんな機能でも最適化問題に変換できれば、それを訓練することは可能だと思います。
感情も同じです。例えば、私たちが感情を持つというとき、脳内のホルモンレベルの変化など、実際の感情のことを言っているかもしれません。でも、誰かと協力するために相手の感情を読み取るという機能的な感情もあります。これはアルゴリズム的にハックすることができると思います。
ChatGPTでも似たようなことが起きていると思います。私がChatGPTに悪いことを言っても、ChatGPTモデルは調整されているので、唯一の反応は「申し訳ありません、改善します」といったものです。これは単に学習した行動パターンです。
だから、意識の機能を近似することは可能だと思います。
なるほど。私の元学生のケン・スズキがスマートニュースを創業しましたが、生成AIが作り出すニュースをどう安全に扱うかという実践的な問題に直面しています。これは文字通り何十億ドルもの価値がある問題です。
AIに倫理や価値観を教えることができるかどうか疑問です。なぜなら、これらは変化するからです。例えば、10年前は写真のフォトショップ加工は許されませんでしたが、今では雑誌でもある程度の加工は許容されています。
倫理や境界線は変化していて、AIにその変化や倫理を教えるのは非常に難しいです。タナカさんは、AIに倫理や境界線について教えることができるとおっしゃいましたが、私にはそれが疑問です。
そうですね、現在のGPT-4oでも、元のモデルを訓練した後、人間の評価者に「良い」「悪い」と判断させ、それをAIモデルに模倣させるプロセスがあります。技術的には、インターネット上のユーザーエンゲージメントなどを通じて、AIモデルを常に更新し続けることは可能だと思います。
1つ面白いアナロジーがあります。ヘッドホンのノイズキャンセリング機能です。これはある意味メタ的です。ノイズキャンセリングヘッドホンをつけてオン・オフを切り替えると、現実が微妙に変わりますよね。オフなら外の音が全部聞こえる。オンにすると静かな部屋にいるような感じになる。
似たようなことが起きていると思います。例えばソフトバンクが「感情キャンセリング」について話していました。コールセンターで、お客さんが電話オペレーターに怒鳴っているとします。彼らの目標は、内容は保持しつつ、声に含まれる感情をキャンセルすることです。
誰かが怒鳴っていても、その言葉だけを感情なしの単調な声で聞くことができる。この種の現実の操作が起きているんです。もちろんニュースメディアでも同じことが起きていて、私たちの物理的な存在感覚のあらゆる部分に入り込んでくると思います。
タナカさん、ボストンにいらっしゃるんですね。素晴らしい場所です。ローレンス・レッシグのような人もいて、彼は「コードは法律だ」と言いました。システムを操作することで人々の行動をコントロールできるってことですね。
マイケル・サンデルもいますね。正義の講義で有名で、トロッコ問題についても言及しています。
「知能の物理学」と言うとき、最終的にはこういったことも全て含まれるんでしょうね。トロッコ問題も含めて。もちろん、非常に基礎的なレベルでは、マックス・テグマークが提唱しているように、ニューラルネットワークのメカニズム的解釈可能性を研究することも知能の物理学の重要な部分です。
でも一方で、トロッコプログラムのようなものもあります。知能の物理学の調査範囲には、こういったものも全て含まれると思います。
ボストンにいて、こんな素晴らしい人たちに囲まれているタナカさんとチームの挑戦は何でしょうか? 何か興味深い未来の計画はありますか?
そうですね、これら全てが私たちの強みだと思います。非常に学際的な分野ですからね。心理学も言いましたが、もちろん政治学や法学もあります。
私たちが取り組んでいることは、あらゆる側面に触れています。特に、ハーバードが単なる技術大学ではなく、人文学部も大きいことが本当に助かっています。
例えば、AIの規制について何をすべきかという大きな問題があります。実際、私の学生の1人が法学の授業を取っていました。彼は本当に情熱的にAIの信頼性構築に取り組んでいるんです。AIの研究者としては最高レベルなんですが、法学の授業も取っていた。
なぜなら、両方の言語を話せる人が必要だからです。著作権の問題は何か、このAIアプリケーションは倫理的か、といったことを議論するには。
ハーバード自体が一つの知能だと思いませんか? レベル5は組織であるべきだと思いますが、ハーバードはAIの1つだと思いますか? NTTについてはどうでしょうか?
NTTのユニークな点は、長期的な考え方だと思います。NTTは皆さんご存知の通り、長年日本社会の中心的存在でした。信頼は私たちの核心的な価値の1つです。
そして信頼を築くことが今、不可欠になっています。NTTのもう1つの重要な価値は、信頼されるパートナーであることです。単に信頼されるだけでなく、信頼されるパートナーになるということです。
このパートナーという概念が、例えばマイクロソフトのCopilotのように、今やAIパートナーを意味するようになっています。ある意味で、ビジネスでも人間がやっていたことをAIに置き換えようとしています。
信頼を築くということは、お互いを理解することを意味します。NTTがハーバード脳科学センターと共同で、この「知能の物理学」プログラムを立ち上げたことを本当に誇りに思います。
これは人文科学、AI、物理学、心理学など、これから結びつけなければならない全ての分野を橋渡しする素晴らしい方法だと思います。NTTの貢献があったからこそ、この時代に新しい基礎的な学問分野を生み出すための動きの1つを実現できたんだと思います。
そろそろ終わりの時間ですね。最後に何かコメントはありますか? 知能の物理学という全く新しい分野について、視聴者の方々へのメッセージをお願いします。
この分野が本当にワクワクするのは、すでに素晴らしいことが起きているからじゃなくて、私自身を含め、これを見ている皆さんの多くが形成的な方法で貢献できる可能性があるからだと思います。
物理学には長い歴史がありますが、私が物理学を始めたとき、「過去の物理学について読むのは素晴らしいけど、次は何をすべきなんだろう?」と考えました。今や私は新しい物理学を構築すべき研究者の側にいるわけです。
私の好きな言葉の1つに、量子場理論の創始者の1人が粒子物理学に取り組んでいたときのことがあります。彼は若い人たちへのメッセージとして、「きれいで優雅なものに向かうんじゃなく、混沌としたところに向かいなさい。混沌としてるところにこそ、行動があるんや」と言うたんです。
AIを見てみると、これはもう素晴らしい混沌ですよ。問題がたくさんあって、人々にとって素晴らしいインスピレーションの源になってる。
そうですね。確か、ワインバーグ教授がおっしゃった言葉やと思います。若い人たちへのメッセージとして。私も本当にそう信じてます。
一緒に新しい分野を築いていきましょう。
素晴らしい。キー博士とタナカさん、今日はありがとうございました。
コメント