レオン・ボトゥー | 現代AIにおける概念的課題

12,087 文字

Leon Bottou | Conceptual challenges in modern AI

Mathematics and Machine Learning Program Opening Workshop 9/5/24Speaker: Leon Bottou, Meta AITitle: Conceptual challenge...

ほな、最後の講演者の話に移らせてもらいます。機械学習とAIにおける概念的な問題についてお話ししたいと思うんやけど、まずは25年前の1986年に小さな振り返りから始めさせてもらいます。
その頃、銀行の小切手処理センターで金額をチェックする機械を導入したんです。正確に言うと、ソフトウェアやったんやけど、かなり複雑なもんでした。これは実際のアプリケーションで、15年間で10億枚の小切手を処理しました。アメリカの小切手の10%を占めるほどの規模やったんです。
重要なんは機械そのものじゃなくて、データなんです。データはこの機械から直接収集されたもんやから、まさに適切な分布やったんです。テストデータの分布が現場の分布と一致してたから、テストが信頼できるって分かってました。
トレーニングはもうちょっと複雑やったんやけど、転移学習や事前トレーニングなんかもあって、最終的なトレーニングデータには十分なデータが含まれてました。これは一般的な小切手処理機械やなくて、特定のものやったんで、テストデータの分布が現場と同じやっていう理論的な基盤に頼ることができたんです。
低い誤り率の数字が信頼できるっていうのもあって、トレーニングセットとテストセットのパラダイムが数十年にわたって機械学習の進歩を牽引してきたんです。
でも、複雑な関数を最適化できるように見えるっていう謎もありました。当時はそれについて全然分かってなかったんやけど、ディープネットワークの進歩があって、理解が深まってきました。でも、まだ完全には理解できてへんのです。
改善は機能したんやけど、基本的には再帰型ネットワークは機能せえへんかったんです。トランスフォーマーは複雑な構造を学習できるように見えるんやけど、学習した構造を解読することはできへんのです。でも、その存在はBPTTで確認できます。
多分、一番重要な変化は機械学習がAIとして再ブランド化されて、野心が拡大したことやと思います。問題が特定の範囲から、オープンな問題へと変わったんです。AIに様々な問題を解決してほしいっていう期待が高まってきたんです。
多くの人が、言語モデルベースのチャットボットがオープンドメインの問題に対応できると主張してます。完璧やないかもしれへんけど、進歩のペースが速すぎて、結果は避けられへんって感じです。
シャノンの1948年の論文から始まって、情報理論の基礎を築いた論文で言語モデリングを通信の文脈で初めて紹介したんです。通信では、メッセージは分布に従うから、もっと効率的にコード化できるんです。電報の分布を集めて検証することもできます。
それから、一般的な英語の分布について語ろうとしたんやけど、かなり慎重やったんです。基本的な英語と特殊な英語は統計的にかなり違うって言ってました。一般的な英語の分布の良いモデルがあれば、人間が言えそうなことを機械が正確に再現できるから、人間と同じくらい知的に見えるんです。でも、「見える」って言葉には注意が必要です。
言語の重要な機能の一つは、時々新しいアイデアを表現することです。これは人類の歴史にとって非常に重要なんやけど、新しいアイデアの確率はほぼゼロなんです。
シャノンは人間に短い英文の次の文字を推測してもらう実験を始めました。大文字だけで、スペースも句読点もない文章やったんです。そして、エントロピーの下限を1.4から2.6の間と推定しました。これはカバーとキングによって1.25まで改良されて、同じ注意点で多くの実験が行われました。
3グラムだと2.21、4グラムだと1.75、可変長のNグラムだと1.4になります。つまり、Nグラムと知性の差は文字あたり0.2ビットしかないように見えるんです。これらの数字に異議を唱えることもできるし、単純すぎるって言うこともできます。
でも、一般化のための最良の境界を取って、本のあらゆるトリックを使って良くしようとしても、学習したい関数のサイズを小さくすると、必要な例の数が2乗で増えていくんです。だから、長い間これは絶対に機能せえへんと確信してたんです。実用的に大きすぎるトレーニングセットが必要になるからです。
でも、今はそんな大きなトレーニングセットを使ってるんです。ただ、それだけやないんです。あんまり最適化されてへんものを最適化しようとしてるんです。これが問題なんです。
テキストのサンプルを取るとき、実際には存在せえへん分布からは取れへんのです。常にグラフを辿ってテキストを取得するんです。インターネットのグラフや引用のグラフなんかです。
例えば、図書館にいて、戦争や歴史について書かれた本のセクションにいるとします。一冊の本を読んで、その本が別の本を紹介してて、そんな感じで続いていくんです。最終的には法律の本のセクションに辿り着くかもしれません。つまり、マルコフ連鎖でテキストをサンプリングしてるんやけど、それがうまく混ざらへんのです。
シリコンバレーの大企業がマルチなんとかをやってても、ユーザーはそんなことせえへんから関係ないんです。みんな違う分布を見てるから、見かけ上は真の分布と違うんです。
パフォーマンスを測定するために、テストセットの平均パフォーマンスに戻るんやけど、みんなが違う分布を見てるなら、大数の法則は使えへんのです。モデルのベンチマークを見ても、そんなベンチマークで命を賭けたくはないでしょう。
最初のラマの頃、結果は代名詞の大文字小文字や句読点の付け方に大きく依存してたんです。そして、ほとんどの論文がモデルに最適な大文字小文字と句読点を使ってることに気づいたんです。これがベンチマークの現状で、今では一つのベンチマークの代わりに何千もの数字があって、質を量で置き換えてるんです。それでも、まだ命を賭けたくはないですね。
みんなが違う分布を見てるっていうのは、マルコフ連鎖でテキストをサンプリングしてるけど、うまく混ざらへんからなんです。あなたのサンプリング方法と私のサンプリング方法は違うから、分布も違うんです。これがオープンな問題の背景にあるものです。
みんなが違う分布を見てるってことは、みんなが違う問題を解決しようとしてるってことなんです。だから、推論問題について話すとき、推論問題が何かっていうアイデアはあるんやけど、詳細はあなたと私と別の人で全然違うんです。
言語モデルのベンチマークを作る人たちにとっての推論問題は、あなたにとっての推論問題とは全然違うかもしれません。彼らが測定する数字があなたには当てはまらないかもしれないし、特にプロンプトの大文字小文字によって変わるかもしれません。
これは深刻な問題です。測定できへんからです。テストセットによるテストは多くの面で妥協されてるんです。みんなが違う分布を見てるし、テストセットの測定は本当に信頼できへんのです。
言語モデルの本当のパフォーマンステストはベンチマークやなくて、Twitter上での称賛なんです。この場合、テストセットがトレーニングセットに漏れてしまってるんやけど、それを特徴づけることができへんのです。
推論のベンチマーク問題に対しては、トレーニングセットに同じ失敗があるかもしれへんけど、分からへんのです。トレーニングセットを知らへんからです。これは再帰的な消費の問題です。
似たような推論テンプレートを異なるアイテムに適用できるってのは面白いですね。トレーニングセットの定式化を適応したり、テンプレートをより複雑なステップで実際のものに適応させたりできるってのは興味深いです。でも、それをどう特徴づけたらいいか分からへんのです。
実際、トレーニングセットをスキャンして、そういったものを探す最良のツールは言語モデルなんやけど、それをどう測定したらいいか分からへんのです。だから、ちょっと困ってるんです。
ベンチマークの数字は何の役に立つんでしょうか？私は、数字はそれが重要である理由を説明するストーリーと同じくらい良いものやと主張します。
小切手読み取り機の場合、分布が同じやということは分かってました。現場の分布とテストセットの分布が同じになるように細心の注意を払いました。大数の法則で十分なストーリーがあって、我々の数字が正当化されたんです。
でも、多くの分野ではそうやないんです。例えば、ベンチで動作確認プログラムを実行できるマイクロプロセッサは、温度や電源供給が適切であれば、現場で別のプログラムを実行できるって信じる十分な理由があります。これは、それがどう機能するかについての実質的な知識があるからです。
蒸気機関の話は飛ばします。熱力学の前に蒸気機関が来たっていう使い古された話ですからね。
それじゃあ、この状況から抜け出す方法について話しましょう。最初は比較的小さな方法から始めて、だんだん大きくなっていきます。最後にたくさんの例を挙げるんですが、それは私自身がよく理解できてへん部分やからです。議論できたらいいなと思ってます。
合成性っていうものがあって、これは先ほど議論したグループみたいなものかもしれません。例を挙げて考えてみましょう。新しいアイデアを表現する思考実験です。
英語のソースがたくさんあるとして、2024年までに話された全ての英語の適切に重み付けされた混合を使って、完璧な統計モデルを持つ機械を訓練したとします。そして、まだ知られていない新しい物理理論を記述するテキストを想像してみてください。
モデルはこのテキストに無限小の確率を与えます。シェイクスピアの猿みたいなもんです。無限の例からの分布の非常に遠い尾部からのテキストなんやけど、このテキストの先行確率は無限小です。でも、モデルは整合性のある文を生成できるんです。
じゃあ、何を期待できるでしょうか？人間なら、正しい文法で意味のある議論を展開するけど、ほとんどがフィクションになるでしょう。人間は未知の事実を知ることはできへんからです。
統計モデルの基礎だけで何を期待できるでしょうか？条件付き確率は比率やから、ゼロ割るゼロになります。実際には何が得られるんでしょうか？1に近いんでしょうか、2に近いんでしょうか？難しい質問ですね。
実際には、このテストはできへんのです。でも、実際に遠い尾部に行こうとすると、モデルの性能は非常に悪くなります。統計モデルの議論だけに頼ると、何も得られへんのです。でも、人間なら何か別のものを期待するでしょう。
実際に機械との対話を試してみると、こんな感じになります。ジャックが新しい発見について彼のモデルに話すっていう話があります。過去形で書くのは問題ないです。トピックはルーシーのジャケットです。これも問題ない。これを変えて、あれを変えて、ドイツ語にして、何か追加して…こんな感じで一歩ずつ進めていくと、話が間違った方向に進んでいっても、まだ意味は通るんです。
基本的に何が起こってるかっていうと、モデルが学習したのは英語の統計モデルやなくて、文を操作したり、単純な操作でつながってる文をつなげたりする方法なんです。私が言語の合成的特性と呼んでるものを学習したんです。これによって、データからの支持がなくても、遠い尾部でも意味のあるテキストを作れるんです。たとえ真実やないかもしれへんけどね。
こういうモデルを何十年も学習しようとしてきたんやけど、うまくいかへんかったんです。トランスフォーマーがこれを達成したように見えるんやけど、なぜそれが機能するのかを理解し始めたばかりです。「始めたばかり」っていうのは、本当に始めたばかりってことです。
これについては後で詳しく説明しますね。じゃあ、ここでいう合成性ってどういう意味なんでしょうか？定義は難しいですが、後でもっと正確に説明します。
1968年、ゼリグ・ハリスが「言語の数学的理論と操作文法」という小さな本を書きました。彼は「いくつかの基本形と変換を定義することで、英語を記述できる」と言ってます。これを押し進めると、文を操作したり、二つの文が関連してるけど、一つのことだけが違うっていうアイデアにたどり着きます。
例えば、補語が違うとか、時制が違うとか、人の名前が違うとかです。この種の文の近さは、モデルがかなりうまく扱えてて、ちょっと指示や訓練をすれば、モデルに変更を加えるように頼むこともできます。これはかなり信頼性が高いんです。
これは推論のように時々しか機能せえへんものとは違って、いつでも機能します。試してみたらわかりますが、このモデルはこれを非常にうまくやります。我々にはまだ理解できへんけどね。
とにかく、二つの視点があります。古典的な視点では、テキストの各部分は先行するテキストを条件とする条件付き分布に従います。一般的な統計的言語モデルを構築するために、予測コスト（エントロピーみたいなもの）を最小化します。適切なソースの混合を見つけることで、良いデータセットを作る必要があるかもしれません。そして、モデルが良い表現を発見することを期待します。
もう一つの見方は、テキストの各部分が、我々が知ってるかもしれへんし知らへんかもしれへん要因によって条件付けられた独自の分布に従うっていうものです。テキストごとに違うけど、共通の構造があるはずで、それを発見すべきです。
正しい構造を見つければ、新しいテキストにすぐに適応して、残りのテキストをより正確に予測できるはずです。これもトークン遷移コストを最小化することで得られるかもしれません。もっと良い方法があるかもしれませんが、システムの設定次第です。
これが規模の効果やっていうのは言わへんかったですね。これらは示唆的な証拠です。
別の例を挙げましょう。ある惑星があって、三つの衛星があります。この惑星の天文学者たちは先史時代の天文学者で、何も知りません。でも、衛星がどこにあるかを予測したいんです。
最初の天文学者は「三つの惑星の位置のテーブルを作って、三つの衛星が特定の位置にあるのを見たら、次の位置を読み取る」って言います。もう一人は「いや、衛星ごとにテーブルを作って、それぞれに同じことをして、最後にまとめる」って言います。
最初の方法だと、三つの衛星の組み合わせの全周期を見る必要があります。これは最小公倍数になる可能性があります。一方、二番目の方法なら、一番長い周期の衛星だけ見ればいいんです。
ネットワークでこれができるでしょうか？面白いのは、27の複素パラメータ、つまり54の実数パラメータしか必要ないってことです。非常にシンプルです。
訓練するときは、三つの周期を描いて、衛星の位置を独立に生成します。衝突なんかの相互作用はありません。コストは、シーケンスの各位置でのエラーの面積で測定されます。
右側に大きなテーブルがあれば、何かを学習できます。左側にはテーブルがないので、予測は悪いです。これを最小化すると、ここでICL（In-Context Learning）を押してるってことになります。メモリーにできるだけ早く学習させようとしてるんです。
アイデアとしては、メモリー、つまり新しいテーブルを設定して、できるだけ早く学習することです。データが支持するなら、天文学者Aよりも天文学者Bになりたいって感じです。
試してみると、うまくいきます。メモリーヘッドが一つしかない場合、黒い部分は各衛星の周期で、赤い部分は組み合わせた周期です。予測するには組み合わせた周期を見る必要があります。
でも、三つのヘッドがある場合、学習プロセス中に、機械は衛星を分離して、異なるテーブルに送り、異なるテーブルを参照して、再結合することを学びます。各周期の後に何かが得られます。
ここで面白いのは、まだ見たことのない衛星の配置が見えることです。各衛星の位置は見たことがあるから、予測ができるんです。そして、その予測は正しいんです。ここでは一種の外挿が起こってるんです。
これが言語とどう関係するのか考えてみましょう。文を変えたいとき、文の時制を考慮する必要があります。これは他の部分とはかなり独立して変更できます。文に登場する人の名前や、場所なんかもそうです。
これらのことを学習する最初のステップは、他の部分からかなり独立して変更できる原子的な要素を特定することです。このようなシステムはそれを行います。
ここでのポイントは、コスト関数がグローバルな分布に対する適合度の良さではなく、新しい分布への素早い適応に近いってことです。コストを切り詰める必要があります。これらのものの働き方にわずかな変化が見られるかもしれません。
コスト関数を変える必要はないかもしれませんが、ここで役立つものがあります。水平と垂直のスライスが重なる部分がうまくいくんです。だから、コストを少し切り詰めると、最適化がテーブルが必要とする時間を最小化しようとするのを確実にするのに役立ちます。
個人的な議論では、合成性を促進するための項がコスト関数にあるかもしれないって言ってました。それはあなたが言ってることの一部なんでしょうか？
まあ、この種のアーキテクチャでこの種のトレーニングプロセスを使って、コスト関数の設定次第では、トレーニングプロセスがメモリー（テーブル）に現象の部分をできるだけ早くモデル化させようとするのが見えるんです。
これが今度は、ネットワークに独立した要素で遷移を組織化させることになります。つまり、モデルAとモデルBがあって…はい、そうかもしれません。でも、私が広げようとしてたってのも示してますね。
ある時点で、見てるものにすごくイライラしてて、みんながSF小説を考えることでAIについて考えてるっていうアイデアにも苛立ってました。だから、別のものを見てみようと決めたんです。
バスという、ホルヘ・ルイス・ボルヘスの素敵な小説を見てみました。複雑な話なんですが、真ん中に特別な種類の本があります。侵入者を殺せる細かい道筋がある話があって、侵入者も細かい道筋を殺せます。両方が救われることも、両方が死ぬこともあります。
全ての可能な解決策が起こり、それぞれが全ての分岐点になります。意味をなす全てのテキストの集合を考えてみましょう。これは正確には集合ではありません。ここに完璧な言語モデルがあるとします。テープに単語が印刷されてるようなものです。
この集合の中でURを見つけて、次の単語を出力します。面白いのは、各単語が可能な続きの部分集合を狭めていくってことです。各追加が物語、キャラクター、設定、アイデア、特徴を制約していきます。
もちろん、そんな集合を表現することはできません。ボルヘスは「本に書くのは面倒くさい。既に存在する本のふりをして、それについての解説を書く方がいい」って言ってます。これは面白いですね。本は書けへんけど、本についてはたくさん書けるからです。これは完全に有効な方法です。
ここで構造主義者の話に移ります。ゼリグ・ハリスは、少なくとも人生の初めは最後の構造主義者でした。構造言語学は二つのアイデアに基づいています。
一つは、各言語は規則的な構造を持つ談話の集合で、その構造は例から発見できるってことです。これは機械学習的なアイデアですね。もう一つは、言語学が文法と意味論を厳密に分離することで進化したってことです。
これは英語では意味があるかもしれませんが、中国語ではそうでもないかもしれません。形式文法理論には大きな進歩がありました。コンパイラを作るのには素晴らしかったんですが、言語モデルはそういった進歩の一つではありません。
1968年のハリスの本で、全てのテキストの庭園を基本形と連続的な変換の集合として見つけます。これを操作文法と呼びます。私はこれがグループかもしれないと主張します。なぜなら、これらの変換は結合的で、逆転可能だからです。詳細については議論の余地があるかもしれません。
変換は単なる統語的なものではなく、意味的な変化も含みます。場所の変更、時制の変更、意味の変更などです。こういうものがあれば、完成や質問のためのチャットができます。
前提があって、質問があって、テンプレートの始まりに合うように変換を行い、テンプレートの終わりを取って、逆変換を行って、変換を得ます。これは複数のレベルで行えるかもしれません。
どの瞬間でも、我々の機械は物語を続けようとしています。その物語は文脈によって制約されています。真実も意図もありません。ただ物語の必然性と、テキストの意味を認識する能力があるだけです。
これは一種の知識ですが、科学的な知識とは違います。物語の世界で真実なことと、我々の世界で真実なことを区別する能力です。新しい単語を出力するとき、機械はトレーニングデータから事実を借りてきますが、それらは必ずしも真実ではありません。
それらを補完して、必ずしも嘘ではないものを得ます。そして、幻覚を起こしたり、そういった類のことをたくさんします。これは正常なことで、予想されることです。これはフィクションです。
言語におけるフィクションの訓練はいつだったんでしょうか？1970年代のプリンストン大学の文学部がその先駆けでした。ベーカーストリート221B番地に住んでいたシャーロック・ホームズ…2番地か4番地だったかな？
実際には存在しません。4番地に違いありません。イタリアの25番地から229番地は銀行に割り当てられていて、今はロシアの寡頭政治家が所有していて、制裁下にあります。でも今は221D番地にシャーロック・ホームズ博物館があります。237番地の代わりに。だから2番地か4番地でしょう。
こういう風に、シャーロック・ホームズの架空の世界に複数の単語を巻き込んでいきます。もっと面白い例があります。「カナリアが歌わなかったら」っていうのは、この事実を除けば、これこれのことが起こっただろうっていう意味です。
これは反事実的な条件文で、現代論理学の始まりです。現代論理学の始まりっていうのは、ブール論理にはうまく当てはまらないってことを強調したいんです。
反事実的な文があるとき、その全てが真であることを望まないんですが、それらを含意としてモデル化すると、全てが真でなければなりません。だから、何か別のことをする必要があるんです。
フィクションマシンを定義してみましょう。フィクションのみを出力する機械です。私は、我々のマシンはフィクションマシンの近似だと主張します。人々はそれを急速に成長するAIとして送り出そうとしてますが、まあ、それはそれとして。
ほんで、面白い世界モデルを作れるんかっていう疑問が出てくるんやけど、ここで一つ紹介せなあかんのが、ウィンストンっていう人物なんや。彼はMITのミンスキーと同時代のコンピューターサイエンティストやったんやけど、人生の最後に主張したんが面白いんよ。
彼は、頭のええ数学者たちは推論が鍵やと思ってたけど、彼にとってはストーリーテリングが鍵で、推論はその副産物やって言うたんや。これってホンマなんやろか？
まず、事実の記録だけでは、別の可能性のある展開を説明できへんのや。例えば、ある戦いの歴史を理解しようと思うてみ。その戦いの全ての出来事を時系列で記録した詳細なログがあるとする。この時刻にこれが起こって、この日にあれが起こって…っていう感じやな。
確かに戦いについて知ることはできるけど、本当の意味で理解したとは言えへんのや。理解するためには、「もしこれが違ってたら、こんな風に展開してたやろう」とか「もし将軍がこっちの決断をしてたら、ストーリーはこう変わってたはずや」って言えるようにならんとアカン。
つまり、本当のストーリーを理解するためには、実際には起こらへんかったけど、起こり得たストーリーを作れるようにならんとアカンのや。面白いのは、フィクションマシンならこれを完璧にできるってことや。完璧なフィクションマシンなら、これを完璧にできるんや。
そして、幻覚も実は役に立つんや。別の理想化されたマシンを考えてみよう。真実マシンっていうのを想像してみ。これは、テキストの一部が我々の世界で本当に真実かどうかを教えてくれるマシンや。でも、遠い尾部、つまりウィキペディアにはない遠い部分を見てみよう。
フィクションマシンなら、言語の合成的構造を全部持っててるから、遠い尾部でも意味のある文を作れるんや。でも、真実はそんな単純やないんよ。物事を変え始めると、もう真実やなくなるかもしれへんからな。
これはもっと詳しく見る価値があるけど、面白いのは、人々がやってることとは違うってことや。彼らはまず言語モデルを訓練して、それからファインチューニングするんや。ファインチューニングでは、チャットボットとしての言語の働きを調整して、ユーザーの好みに合わせようとするんや。
でも、遠い尾部はずっと難しくなるんや。例を挙げてみよう。これはGPT-4の例やけど、数ヶ月前のもんや。今は変わってるかもしれへん。彼らはこういう問題があるたびに訓練を続けてるからな。
「シャツを乾かすのに3時間、ズボンを乾かすのに5時間かかるとします。2枚のシャツと4本のズボンを乾かすのにどれくらいかかるでしょうか？」
答えは「シャツ2枚の乾燥時間を決めるには、2かける3時間で6時間。ズボン4本の乾燥時間は4かける5時間で20時間。合計26時間です。」
これ、間違ったテンプレートを新しい状況に上手く適用した例やと思うんや。でも、「乾かす」を「洗う」に変えたら、うまくいくんや。質問には物干し紐のサイズが指定されてへんからな。小さければ、一度に一枚の服しか乾かせへんかもしれへん。
つまり、不完全な仕様があって、複数の解決策が必要な場合があるんやけど、機械が出す解決策はほとんどの場合間違ってるんや。
別の例を見てみよう。テキストの変換によって、意味のある文章にはなるけど、もう真実やなくなる場合があるんや。
「強力な黄色い車で銀行強盗たちは逃げた」から「強力な赤い車で逃げた」に変えると、まだ意味は通るけど、警察にとっては役に立たへんな。数分後に交通警察が飛ばし屋を止めたとしても、それは純粋な偶然や。
もっと複雑な話になると、突然「赤」を変えるだけじゃ上手くいかへんし、他のところも変えんとアカンかもしれへん。物語の必然性が制約を作り出して、全ての場合に変更を許さへんこともあるんや。
数学の場合、テキストの変換の中には、真実の文を真実の文に変換するように設計されてるものもあるんや。これは面白いな。でも、人間にとっての理解しやすさを犠牲にすることもあるんや。
興味深いのは、どの世界で真実なんやろか？数学の世界やろか？我々の世界で見てるものを数学的対象にどうマッピングするんやろか？ここには何か難しいものがあるんや。
物理学者が文章のストーリーと数学的な規定を組み合わせてるようなハイブリッドがたくさん見られるんや。ニュートンの第一原理は、力を加えると物体が初期軌道から逸脱するっていうもんや。そして、本質的に数学的やない何かで逆の軌道を完成させるんや。
因果関係を表現するだけやなくて、我々の世界で見てるものを数学的対象にマッピングすることについても何かが起こってるんや。これは数学的操作の対象になり得るんや。
理論と実験に話を移すと、真実マシンは遠い尾部を飛ばすようにラベル付けされた例で教師あり学習をするんや。真実のサポートは全くないんやけどな。でも、二段階のアプローチを取ることはできる。
まず、言語を使って、世界に合うかもしれへんし合わへんかもしれへんストーリーや理論を構築する。そして、それらを検証しようとするんや。
例えば、天気は幽霊の気分の表現やって考えてみよう。雷は幽霊が怒ってるから鳴るんや。太陽が少し顔を出すのは、幽霊の恋人が到着したからや。しばらくしたら収まって、良い天気に戻るやろう。もちろん、幽霊の気分には限界があるからな。
これが天気の理論や。別の理論もあるで。天気は動的システムで、ナビエ・ストークス方程式の一種やと考える。水の変化を加えて精緹化するかもしれへん。最終的なシミュレーションで白か黒かを教えてくれるんや。嵐は収まって、良い天気に戻るやろう。
もちろん、こっちにも限界はあるんや。どっちの理論もそれなりにうまくいくんやけど、限界もあるんや。
もう一つの理論は、テレビの天気予報に基づくもんや。南から暖かい空気の塊がやってきて、カナダから寒い空気の塊と出会う。大きな戦いになって、大嵐になる。システムが西に移動したら、良い天気に戻るやろう。
地図上で見える限り予測できるんや。これはニューラルシステムから来てるって言えるかもしれへん。結果を得たからな。でも、実際の地図を見ると、ニューラルネットワークでやるべきこととは全く関係のないスケールのある程度の予測力を獲得できるんや。
じゃあ、どの神話が天気について推論する最良の方法を提供するんやろか？我々の世界では、各神話は理論やな。我々の世界で観察される事実によって、神話を無効にしたり、どれかがより良いと判断したりできるんや。
そして、考え始めて、科学を始めるんや。つまり、言語では変換でモデル化できるけど、現実の世界ではもっと複雑やっていうアイデアがあるんや。そして、数学は一種の到達点で、言語の変換を行いながら真実を維持できる場所なんや。
これを理解しようとするのが科学なんやろうな。
結論として、最近の機械学習とAIエンジニアリングの成果は、巨大な期待と大規模な投資を引き起こしてる。同時に、機械学習の理論的・経験的基盤の両方を掘り崩してもいるんや。
だから、我々は緊急に概念的なブレークスルーが必要なんや。