ChatGPTのパラドックス: 印象的ながら不完全

24,887 文字

The ChatGPT Paradox: Impressive Yet Incomplete

Prof. Thomas G. Dietterich discusses the current state of large language models like ChatGPT. He explains their capabili...

ナレーション: 大規模言語モデルはこれまでのAIとは全く異なる新しい存在やと思います。広範な知識を持つシステムが初めて登場して、さらにそれと自然言語で対話できるんですからね。
あれがラマやったっけ？FacebookのMetaから流出した最初のオープンウェイトモデルやったと思います。そこから爆発的に色んなものが生まれました。ほんの数ヶ月の間にそれが起こったんです。人々が実験できるようになったからですね。趣味で色んなことをする人も出てきて、みんなが素晴らしいことをしてました。
そういえば、これらのモデルをオープンにすることの是非についての議論論文もありましたね。確かに、オープンウェイトモデルが利用可能になることで、研究が信じられないほど加速しました。世界中の誰もがそれらに取り組めるようになったんです。
今では、もっと大規模な共同研究が行われるようになってきました。これは完全に主観的な印象ですが、単著の論文はほとんどなくなったように思います。今では複数の機関が共同で取り組む論文が多いですね。企業と学術機関が一緒に、複数の国が協力して…これは大きな変化です。
以前は単著の論文もこの分野では珍しくなかったんですが、今ではかなり稀になりましたね。
質問者: 大規模言語モデルとChatGPTの現状についてどう思われますか？
ナレーション: そうですね、大規模言語モデルはこれまでのAIとは全く異なる新しい存在やと思います。長年にわたって、AIシステムは狭い領域に特化してて、その領域では深い専門性を持つことを目指してきました。
実際、私が大学院生やった頃は、初期のエキスパートシステムを構築してました。それは人間の専門家の知識を操作可能な形で捉えようとするもので、医療診断や工学的な設計構成などの分野でした。
でも、そういったシステムの狭さに対する不満が高まってきて、システムが改良され発展していく中で、AGI（人工汎用知能）というアイデアが出てきたんです。幅広い能力を持つシステムを作れないかと。今やっと、幅広い知識を持つシステムが初めて登場しました。
これは私たちにとって全く新しい経験です。広範な知識を持つシステムが初めて登場して、さらにそれと自然言語で対話できるんです。質問すると流暢に答えてくれて、韻を踏んだ詩のような回答さえできるんです。これには驚かされますね。
原理的には、十分に優れた言語モデルを構築すれば質問に答えられるということは分かってましたが、実際にそれができるモデルが登場するとは思ってませんでした。もちろん、指示調整や強化学習を組み合わせることで、ほとんどの場合トピックに沿って質問に答えられるシステムができました。
ただ、問題は依然として統計モデルであるということです。学習データが豊富な質問には非常に強いですが、珍しい質問には弱いんです。ご存知のように、私はプリンストン大学のThomas Griffithsの研究室から出た「The Embers of Autoregression」という論文の大ファンです。Thomas McCoyが筆頭著者でした。
私たちはThomas Thomasという名前のメールのやり取りで非常に混乱したことがありますが（笑）。彼らの研究は、LLM（大規模言語モデル）、主にGPT-4の性能が、質問が学習データに現れる頻度と回答が現れる頻度に依存することを示しています。
例えば、単語をアルファベット順に並べ替えるように頼むと、75%の確率で成功します。でも、逆順に並べ替えるように頼むと、成功率はずっと低くなります。正確な数字は覚えてませんが、たぶん25%くらいでしょうか。
他の例として、文章の単語数を数えたり、文字数を数えたりするタスクもあります。LLMには「お気に入りの数字」があって、必ずしも現実と一致しないんです。
もう一つ興味深いのは、彼らが回転暗号で遊んでいることです。今の若い人はrot13について知らないかもしれませんが、Usenetの時代、画像がウェブにない頃は、コンテンツ警告やネタバレ警告をする際にrot13という暗号を使ってました。
アルファベットを13文字ずらして置き換えるんです。同じ変換を適用すると元のテキストに戻せます。GPT-4はrot13についての学習データが多かったようで、rot13の符号化と復号化をかなりうまくできます。
でも、「世界の自動訂正」とでも呼べるような傾向があるんです。Griffithsと McCoyたちが行ったのは、英語の文章の1つの単語を非常に珍しい単語に置き換えて暗号化することでした。
そうすると、その文章は言語モデルにとって低い確率になります。それを復号化すると、珍しい単語をより一般的な単語に置き換えてしまうんです。これが私が言う「世界の自動訂正」です。世界はこの単語を使うべきだと言っているようなものです。アルゴリズム的には間違っているのに。
その研究への批判というか、拡張として考えられるのは、rot13を実装するコードを書いて実行するように頼んでみることです。GPT-4はPythonインタプリタのシミュレーションがかなり得意で、コードを書くのも上手いです。コードの学習と書き込みはモデルをより体系的に考えさせる傾向があります。
実際のPythonインタプリタで実行すれば、さらに良くなるでしょう。正しいことをするはずです。rot2やrot10のような変換を頼むと非常に悪い結果になることを彼らは示しました。学習データが少ないからです。
でも、私の仮説では、コードを書くように頼めば、1から26までのnに対して全て機能するはずです。これは興味深いことを示しています。LLMが英語を出力するとき、私たちがその英語のインタプリタになっているんです。モデルが必ずしも知っていたり理解していたりする以上のことを、私たちはしばしばそこに読み取っています。
もし正しい答えを出力して、私たちが正しく解釈するなら、それで問題ないのかもしれません。でも、何かをシミュレートすることと実際に行うことの間には、どこかに違いがあるんです。
スチュアート・ラッセルはよく言います。コンピュータがチェスをプレイするとき、それは本当にチェスをプレイしているんだと。チェスをプレイすることをシミュレートしているのではなく。なぜならチェスは論理的なゲームだからです。
でも、例えば共感を示すことをシミュレートしているとき、それは本当の共感ではありません。コンピュータは人間ではないので、これらの感情が何を意味するのか本当には分かっていないんです。統計的にその状況に適切な言葉を使っているだけなんです。
私はこう言いたいです。大規模言語モデルは、私たちが知識ベースになることを望んでいます。質問して答えを得られることを望んでいます。ある程度はそれをうまくやっています。でも、かなりの頻度で失敗もします。
GPT-4のレポートでは、非常に難しい質問応答問題での結果が示されています。それらは幻覚を引き起こしやすい問題です。GPT-4は初めて50%を超える性能を示しましたが、50%をそれほど大きく上回ったわけではありません。
新しいモデルがどうなっているかは分かりませんが、あまり改善されてないんじゃないかと思います。根本的な問題は、機械学習が統計的な取り組みだということです。
私たちは本当の知識ベースを得ているのではなく、知識ベースの統計モデルを得ているんです。これは25年前に機械学習とデータベースの分野で起こったことに似ています。
当時、統計的関係学習と呼ばれるものに取り組み始めました。アイデアは、学習データが本質的に関係データベースのタプルであり、年齢に関するテーブルと履修コースに関するテーブルを結合することで、人の年齢とその人が学生かどうかの関係を学習できるというものでした。
もちろん、確率的な推論だったので、常に正しいわけではありません。でも、データベースの統計モデルは、データベース操作にいくつかの有用な…実際には多くの素晴らしい応用がありました。
データクリーニングに使えました。例えば、誰かの年齢が5021歳となっているのを検出して、それがおそらく正しくない年齢だと判断できます。そんな低確率の年齢はありえないですからね。
中間的な結合のサイズを推定することもできました。データベースクエリを処理する際に、一方のテーブルの行が他方のテーブルの行とどれくらい一致するかについて、かなり良い確率的な予測ができました。それで中間テーブルのサイズを推定できました。
そういった情報を使ってクエリの最適化もできました。これらはデータベースの確率モデルにとって本当に素晴らしいことでした。でも、データベースクエリに答えるために確率モデルを使うことは決してありません。なぜなら、それは単に関連するテーブルの尤もらしいタプルを生成するだけだからです。実際に検索するわけではありません。
大規模言語モデルでも同じ現象が起きていると思います。データベースのタプルに相当するものを記憶の中で見つけられない場合…その構造がどうなっているかはまだ理解しようとしている段階ですが…高い確率の文や句を生成します。でも、それが現実と一致するとは限りません。
これが幻覚の原因の一つだと考えられます。現在、本当に興味深い研究課題の一つは、LLMの認識論的不確実性、つまりクエリに対する知識の不確実性を推定できるかということです。ICMLでもいくつかの講演がありました。
システムは答えを知っているのか、そしてそれをどうやって評価できるのか。この3、4年だけでも、おそらく十数本の論文がこの評価に関して出版されています。
今年の春にarXivに出た論文で、確か「LMポリグラフ」というタイトルだったと思いますが、これらの不確実性推定が回答の正確さを予測する能力を評価しています。多肢選択問題だけでなく、自由回答の問題でも評価していて、その評価はかなり難しいです。
これはその研究チームの2回目の結果発表ですが、彼らの方法を含め、評価されている全ての方法は認識論的不確実性を評価していません。代わりに、偶然的不確実性と呼ばれるものを評価しています。これは本質的に、可能な文の確率分布を評価しているんです。
具体的には、いくつかの方法は基本的に、LMから各トークンの確率（それ以前の全てのトークンを条件とする）を取得し、それらを全て掛け合わせて文字列の確率を得ます。
その確率が低ければ、答えを信頼すべきでないかもしれません。高ければ、信頼できるかもしれません。驚くべきことに、これが最良の技術と競争できるほど良い結果を出すんです。
でも、これは偶然的だと言います。本質的に出力層のソフトマックス確率を使っているからです。これは言わば、モデルのノイズの理論、データの確率分布の理論なんです。
まあ、その変動性には2つの源があると考えられます。一つは、与えられた前置きに対して、人々が次にどの単語を使うか決めかねているということです。だから単語の選択にばらつきがあります。
「二つの」や「中の」や「その」といった機能語は実際にはかなり低い確率を持ちます。多くの選択肢に確率が分散されているからです。一方、固有名詞などになると、モデルはより「これが正しい単語か、そうでないか」という判断をする傾向があります。
ナレーション: もう一つの可能性は、何かを言い表す方法が複数あるということです。それは自然な変動と考えられます。それを単なるラベルノイズと考えるか、本当に複数の可能な答えがあると考えるかです。
後者の場合、LLMは1つの答えを出すのではなく、「3つの可能性のある答えがあります。どれが正しいかは分かりませんが、全て挙げます」と言うべきでしょう。
現在人々がやっているのは、温度を0以上にして複数のクエリを行い、それらを意味的含意に基づいてクラスタリングすることです。自然言語推論技術を使って、2つの回答が基本的に同じことを言っているかどうかを判断します。
一方から他方を推論できるなら、それらを一緒にクラスタリングします。これで、意味的に異なる回答がいくつあるかの概念が得られます。そしてそれらに対するエントロピーを測定して、不確実性の尺度として使えます。
これは単純なトークン確率よりも少し良い結果を出します。なぜなら同義語を1つにまとめているからです。それらを別々の回答として数えたくはありません。
記憶が正しければ、最良の方法は「関連性への形成」（SAR）と呼ばれる技術です。Aが何の略かは思い出せませんが…とにかく、回答にとって重要な単語を特定し、それらの確率を下げます。それ以外は通常の確率を使って文の確率を計算します。
これが自由回答の質問に対して最も良い結果を出しました。でも残念ながら、これらのシステムでもまだかなりの割合で間違いを犯します。
残念ながら、これらの指標では、自信がない場合は回答を拒否するという信頼度のカットオフとして使った場合、どれくらいの割合で回答を控えることになるのか分かりません。95%や100%の正解率を得るには、どれくらい回答を控える必要があるのでしょうか。
いくつかの論文を見ると、質問の60%くらいしか答えられないかもしれません。日常的な質問に対する幻覚の割合はそれほど高くないと思いますが、難しいベンチマークではそうかもしれません。
LLMの不確実性の定量化を十分に良くして、正しい回答も多く失わずに幻覚を減らせるようになるまでには、まだまだ長い道のりがあると思います。
その理由の一つは、もう一つの不確実性の源、認識論的不確実性を測定できていないからです。従来の機械学習では、認識論的不確実性を2つの方法で測定します。
一つは、与えられたクエリが学習データにどれくらい近いかを見ることです。これには何兆ものトークンの学習データへのアクセスが必要です。RAGと少し似ていますが、学習データにインデックスを付けて、「学習データ点がどれくらい離れているか」を判断する必要があります。
もし遠く離れていれば、おそらく答えを知らないということです。これを素晴らしい埋め込み空間で行いたいところです。やり方は分かっています。問題は、Allen AI研究所を除いて、誰もそれらの学習データを全て利用可能にしていないことです。
実際にこれを試した人を知りません。機械学習での標準的なもう一つの方法は、モデルのアンサンブルを学習させて、それらが答えに同意するかどうかを尋ねることです。
もし意見の不一致が大きければ、モデルは知らないと言えます。これはベイズ的な考え方です。事後分布があって、それが広がっている場合は質問に答えません。
でも、もちろん1つのLLMを学習させるだけでも非常に高コストなので、10個学習させて投票させるなんてことはできません。それは馬鹿げています。
この問題に取り組もうとする論文がたくさん出てきていますが、まだ読む機会がなくて、どれくらいうまくいっているかは分かりません。でも、今後1、2年の間に、これらのモデルの認識論的および偶然的不確実性をより良く評価する方法が出てくると楽観的に考えています。
それが間違いの原因である限り、大きな進歩ができると思います。おそらくより良いプロンプティングや、検索拡張と組み合わせることで、幻覚の問題に大きな進展が見られるでしょう。
ええと…長々と答えてしまいました。質問が何だったか忘れてしまいましたね（笑）。
質問者: いえいえ、素晴らしかったです。まさに力作でした。認識論的不確実性と偶然的不確実性の対比が見られますね。大規模言語モデルは一種の擬似システム1で、必要なのは推論だと考えておられると思います。
昔は多くの人々がAIに取り組んでいて、論理や推論、形式システム、言語、意味論などを研究していました。今は大規模言語モデルへの obsession が大きいですね。多くの人が、これらの言語モデルが一定の規模になれば、そういった種類の推論ができるようになると信じているように見えます。どう思われますか？
ナレーション: うーん、トランスフォーマーのアーキテクチャでそのような推論ができるようになるとは考えにくいですね。実際、形式的推論とLMの推論（あるいは推論と呼ぶべきかどうかは分かりませんが）には、補完的な長所と短所があると感じています。
形式的推論の大きな問題は、本質的に文脈から自由であることです。基本的な推論規則である肯定式（modus ponens）は、前件の消去としても知られています。
「AならばB」という命題があって、Aが真だと分かれば、Bを推論します。そしてその理由を忘れるんです。追跡は可能ですが、重要なのは、今やBを完全に信じるようになるということです。
そのため、形式システムでは誤った結論を導き出すのが非常に簡単です。推論規則にバグがあれば、矛盾した結論を導き出して、何も真でないか全てが真であると決定してしまうのも簡単です。これは定理証明器の構造次第です。
だから大きな課題の一つは、形式的推論システムを動かして答えを得たら、常識チェックが必要だということです。この答えは意味をなすか？と。
もちろん、人間ならそれを読んで「これはバグっぽいな」と思い、どのルールを間違えたのか探そうとします。ルールデバッガーを引っ張り出してくるわけです。
でも、LMの美しいところは、豊かな文脈を持っていて、それを全て考慮に入れる能力があることです。文脈に依存しないわけではありません。
だから、LMがこう言うのを想像できます。「よし、解決すべき推論問題がある。何か形式的な体系でコードを出力して、定理証明器を走らせて、答えを取り出そう。そして、この文脈で意味をなすかどうか、常識チェックをしよう」と。これは素晴らしいことです。人々がこの可能性を探求してくれることを本当に望みます。
私はCplexやGurobiのような、混合整数問題やSAT問題を解けるパッケージがあることを嬉しく思います。非常に強力な推論エンジンがあるんです。leanのようなより高度な定理証明器や定理チェッカーもあります。
これらのスキルは補完的だと思います。Talia Ringerたちのコミュニティの仕事にも本当にワクワクしています。LLMを使ってコードや証明を生成する研究です。
証明を生成して、そこから正確性が保証されたコードを導き出すこともできますし、コードと証明を一緒に生成して、形式的なチェッカーで証明をチェックすることもできます。
コードもデータフローや制御フロー、デッドコードなどをチェックできます。これにより、今日よりもはるかに信頼性の高いソフトウェアが得られる可能性があります。
形式的なものと…インフォーマルと呼ぶべきか分かりませんが、システム1、この種の直感的で経験に基づいた、しかし豊かな文脈的知識を持つもの（これまで人工知能では本当に持っていなかったもの）を組み合わせる本当の機会があると思います。
そう、この方向には興奮するようなことがたくさんあると思います。様々な構成がありますね。システム1を先に置いて、ツールやRAGを呼び出すこともできます。あるいは逆の順序もあり得ます。
先ほどの講演で興味深いことを言っておられましたね。知識グラフに非常に興味があって、形式的な認知アーキテクチャを構築することに。明示的な計画立案やメタ認知、推論、常識的知識や事実、自然言語理解などを行うことに。
今日の言語モデルは全てを混ぜこぜにしてしまっていますからね。良い例として、言語モデルを使って知識グラフを構築できる可能性がありますね。
そうですね、長い間、情報抽出という分野がありました。特にオープンドメインの情報抽出です。私の好きなプロジェクトの一つにTom MitchellのNELプロジェクトがあります。
彼らが行ったのは、ウェブをスクレイピングして、例えばサッカーチームのバイエルン・ミュンヘンがミュンヘンにあるといった情報のタプルを抽出することでした。
このシステムを約10年間運用し、人間の介入も交えながら改良を重ねた結果、約8000万のトリプルを持つ知識グラフを構築しました。でも、彼らは昔ながらの単純な情報抽出、正規表現のようなパターンや他の種類のパターンを使っていました。
LLMを使えば、今ではGPT-4に「この段落を読んで、そこにある全ての事実を教えて」と頼むことができます。それは本当に良い仕事をします。「この形式的な表記で出力して」と言うこともできます。
もちろん、真実性の問題はまだあります。嘘で満ちた情報源を読んでいれば、大量の誤った事実を抽出してしまいます。
ミッチェルのプロジェクトでは、ある信念やトリプルに対して十分な数の独立した情報源が見つかれば、それを知識グラフに追加するという前提を立てていました。でも、それはますます良い戦略とは言えなくなってきています。
私たちの社会で、ある意味で真実を確立する責任を負っている機関はほんの一握りだと思います。「真実の守護者」とでも呼びましょうか。ジャーナリスト、科学者、そして裁判官かもしれません。
証拠を集めて何が真実だったかを決定しようとする人々ですね。でも、もう一つのチームがいます。検索品質を担当する人々です。
私の元学生の一人がGoogleの検索品質チームに長くいましたが、彼らの問題は、スパムウェブサイトと良質なウェブサイトをどう区別するかということでした。
検索エンジン最適化の人々と彼らとの間で対抗戦が繰り広げられていたんです。今、私たちはその機能をこれまで以上に必要としています。
なぜなら、大規模な「ジャンク生成」ができるようになったからです。オープンな文献から知識グラフを抽出しようとする際の大きな問題は、「この情報を信頼していいのか？」ということです。
科学文献でさえ、偽造があることが分かっています。だから、これをどう判断するか考える必要があります。ある分野の文献のレビュー記事を、ボタン一つで作れるところまで来ているんじゃないでしょうか。
実際、arXivではそういったものが投稿されているんじゃないかと疑っています。完全にボタン一つというわけではありませんが、かなり標準的な手順に従っているようです。
検索語を選び、それらの論文を検索し、ChatGPTにそれらを要約させ、グループにクラスタリングしてから要約する…これは研究コミュニティにとって非常に有用かもしれません。
でも、ここにも機会があります。5つの異なるグループが独立して同じ発見をしているなら、それは信じられるかもしれない、と考えることができます。
ナレーション: 私が知識グラフに入れたい理由は、主に知識グラフは簡単に変更できるからです。LLMの弱点は、全ての事実的知識が重みの中に焼き付けられていて、それがどうなっているのか本当に分かりにくいということです。
ヨーロッパの「忘れられる権利」に部分的に刺激された「アンラーニング」の文献から、それについて何かを学んでいますが、LLMから事実を削除する必要があります。どうやってそれができるでしょうか？
それにはどこかでその事実を見つけ出して、重みを変更する必要があります。これは興味深いですが、知識グラフにのみ保存されているとわかっていれば、事実を削除するのはずっと簡単です。
知識グラフから削除して、他の事実から推論できないことを確認するだけです。簡単ではありませんが…80年代か90年代初頭の人工知能で、人々は知識ベースとは何かを形式化しました。
それは「ask」と「tell」という2つの操作をサポートする抽象データ型だと言われました。アイデアは、形式的な表記のようなもので多くのことを「tell」できるというものでした。
そして形式論理で「ask」すると、答えを探すか推論して答えを導き出すか、あるいは「分からない」と言うかのどれかをします。これが知識ベースの抽象データ型でした。
LLMは「ask」の部分はかなり得意です。でも、検索拡張で新しい事実をソースドキュメントとして追加できるようになった今でも、「tell」することはできません。
今では知識グラフからRAGを行う研究も行われています。これは本当にワクワクします。2年前の私の講演で提唱したことの一部が実現しつつあります。
人々はLLMを使って知識グラフを構築し、Wikidataのような他のソースからも抽出しています。Googleは巨大な知識グラフを構築しました。そしてそこから検索できるようになり、即座に更新可能です。
ここでの課題は、LLMが事前学習の知識ではなく、知識グラフに基づいて回答することを確実にすることです。モデルにそれを構造的に制約する最新の技術については把握していませんが、その問題も解決できるはずです。
質問者: 非常に興味深いですね。真実性の確立についてのお話も良かったです。真実と知識の定義について、あなたの考えを聞かせていただけますか？主観性の問題や矛盾の問題がありますからね。
また、以前世界の知識を捉えようとしたCycプロジェクトについても触れられましたが、RAG（検索拡張生成）の長所と短所についてもコメントいただけますか？
ナレーション: はい、RAGの専門家ではないんですが…RAGに関する最初の研究は、まだ言語モデルを構築することを目的としていました。
アイデアは、LMがはるかに小さくても（10分の1程度）、関連するフレーズを取り出すための検索を使い、それに基づいて言語モデルを構築できるというものでした。
タスクは単に次のトークンを予測する事前学習タスクでしたが、予測は検索に基づいていました。もちろん今では、クエリを投げかけて答えを探すという指示の状況にありますね。BingやGoogleが行っているようなものです。
先ほど言ったように、最新の情報は把握していませんが、パーシー・リアンと彼の学生たちがRAGシステムの初期の評価を行いました。それによると、約半分の場合、彼らが与えた答えは検索されたドキュメントによってサポートされておらず、代わりに事前学習の知識からの漏洩でした。
検索されたドキュメントと一致していれば問題ありませんが、ドキュメントを引用するなら、その答えがそのドキュメントから来ていることを知りたいものです。
残念ながら、引用されたドキュメントの一部が答えに関連していないというのも別の失敗モードでした。Bingがこの経験を1年近く積んでいるので、おそらくかなり改善されているでしょう。
彼らがその数字を教えてくれるか、誰かがその研究を再現してくれると良いですね。でも、今私が本当に理解していないのは…ほとんどのRAGはLLMが学習された後に事後的に追加されているか、その後の微調整があったということです。
でも、最初の研究では最初から検索を使っていました。ツールの使用と同様に、モデルにツールの使用を学習させる必要があることが分かってきています。モデルにRAGを学習させる必要があります。
最初から、あるいは事前学習の途中からこれらのタスクを与えるようなシステムが出てくると予想します。そうしないと、微調整で知識の一部が破壊されるリスクがあります。
ジョン・シュルマンが言うように、「嘘をつくことを教えている」んです。事前学習で知っていることがあるのに、別のものを出力するよう指示しているわけです。システムをそんな風に混乱させたくはありません。
ここには非常に微妙な問題があります。検索やツールの使用、それらを正しく機能させることについて…
質問者: 興味深いですね。ML（機械学習）分野でのarXivや出版、研究の現状についてどう思われますか？
ナレーション: そうですね、私は今や時間の半分くらいをarXivでのボランティア活動に費やしています。1998年に機械学習カテゴリーが始まって以来、モデレーターを務めています。
当時は本当に簡単でした。今では1日に100以上の投稿があります。arXivは分野の急速なサイクルタイムの一部となっていると思います。
人々は結果が出来上がったらすぐに投稿します。ICMLや学術雑誌に掲載されるずっと前に見ることができます。これは基本的に良いことだと思います。ジャーナルや学会が門番になっていないからです。
でも、品質管理もありません。arXiv内部での言い回しの一つに「あなたの評判を守るのは私たちの仕事ではありません」というのがあります。
間違ったものを公開して後で取り下げなければならなくなっても、私たちは事実確認はしません。だから、arXivに論文を投稿する前に、ピアレビューを受けることを強くお勧めします。
同僚に honest なフィードバックをもらうということです。多くの企業ではリリースのプロセスがあって、そういったことが起こっていると思います。
でも、学術グループではしばしば締め切りの5時間前にLaTeXをいじっていて、あるべき規律が欠けているかもしれません。
これが私の警告です。arXivはある意味フィルターがかかっていないんです。パンデミックの間、問題が発生して、最終的にはScienceかNatureの記事で指摘されました。
非常に初期の胸部X線データベースにひどいサンプリングバイアスやその他の問題があったんです。多くの論文が「胸部X線からCOVIDを診断できる」と主張していましたが、実際には画像にテキストがあったり、人が横になっているか立っているか、子供か大人かといった、全く関係のない相関を拾っていただけでした。
結局、それらの論文をレビューするためにポスドクを雇うことになりました。慎重に見る必要がありました。陰謀論や誤情報を広めることを懸念していたからです。
P=NPやリーマン予想などの他の問題については、そのようなルールはありません。ルールとしては、証明を試みる機会は1回だけです。間違いに気付いたら修正版を提出できますが、新しい証明を主張する論文は再度提出できません。
多くの変人が有名な数学の問題を証明したと主張する論文を投稿してくるからです。物理学者は永久機関の論文などに対処しなければなりません。
繰り返しますが、私たちはあなたの評判を守るためにいるわけではありません。それがジャーナルや学会でのピアレビューの良いところです。
ピアレビューには意味があると思いますが、オープンサイエンスにも意味があります。おそらく最良の方法は、投稿前に自分でピアレビューを行い、そしてarXivの上にジャーナルを重ねて、高品質だと認められた論文をまとめて認証することでしょう。
通常、著者に改訂版を提出してもらう必要があります。実際、私の個人的な経験則として、arXivの論文はバージョン2になるまで読まないようにしています。
通常、著者自身が多くの問題に気付いて、バージョン1の1週間以内にバージョン2を提出するからです。
質問者: そうですね。Googleには送信ボタンを押してから実際に送信されるまでに5秒の待ち時間がある機能があるそうですね。オープンサイエンスプロジェクト全体について、1つか2つ変更できるとしたら、何を変更しますか？
ナレーション: ひょっとして私のピン留めされたツイートのことを言っているのかもしれませんね。PDFの論文が科学の理想的な交換形式だとは確信していません。
でも、LLMがその考えを変えさせるかもしれません。ピン留めされたツイートでは、別のアイデアを提案しています。
科学の営みを、ある分野で真実だと信じられていることの知識ベースを構築しようとする試みと見なすことができるのではないかと。
機械学習の論文でよく見られるパターンは、「私はよく定義された機械学習問題Xに取り組んでいます。例えば、正例のみ学習などです。私は新しい手法を持っていて、それは以前のものよりも優れているか、少なくともある側面で優れていると信じています。
皆が評価しているこれらの標準的なベンチマークで評価しています」というものです。Papers with Codeのようなサイトでは、同じことをしている論文を集めようとしていますが、完全には成功していません。
著者たちは、Wikipediaや知識グラフのようなものに行って、「私はこの問題に取り組んでいます。ここに別の提案された解決策、提案されたアルゴリズムを追加します。そして、私のアルゴリズムがこれらの他のものよりも優れていると考える証拠を提供します」と言うべきかもしれません。
理想的には、GitHubリポジトリのように、全ての手法を標準的なベンチマークと合意された指標に対して相互に実行できる場所で、その証拠を蓄積していきます。
もちろん、新しい機械学習の問題が出現するにつれて、この分類体系は発展していくでしょう。例えば、正例のみ学習は2010年頃まで問題として認識されていませんでした。
でも、multiple instance問題は1991年にはすでにありました。他の種類の弱教師あり学習もありました。あらゆる種類の教師なし学習もありました。
そして、毎回の会議で新しい種類の問題が登場し、新しい指標や評価方法が必要になっています。このグラフにそれらの全ての種類のものに対するノードがあると想像できます。
例えば大学院生として新しい分野に入る時、全ての論文を読んでそれを頭の中やスプレッドシートで構築する必要なく、分野のスナップショットを見ることができます。
そこには多くの繰り返し作業があり、非常に時間がかかります。可能かどうかは分かりませんが、アイデアとしては、英語で論文を書く代わりに、あるいはそれに加えて、このグラフを構築するということです。
でも、それが引用可能な研究であり、評価されるという考えをどうにかして支持する必要があります。RedditやWikipedia自体、Stack Exchangeなどからモデルを得られるかもしれません。
でも今や、LLMを呼び出して「正例のみ学習に関する文献を読んで、最良の方法は何か、異なる技術は何か、それらはどのように評価されているか教えて」と言うこともできます。
どれくらいうまくいくかは分かりませんが、それが他の技術かもしれません。私たち自身の技術を使ってその問題に対処するということです。
質問者: そうですね。安全工学に関するあなたの仕事についてお聞きしたいと思います。でも、まず…Emily Torresさんからのリツイートについて、OpenAIのsuper alignmentに関する仕事についてだったと思いますが、OpenAIの仕事なのか、それともイリヤ・サツケバーの新しいスタートアップの仕事なのでしょうか？何か誤解を招くようなところがあるとおっしゃっていたように思いますが。
ナレーション: そうですね、先ほどの「真実とは何か」という質問に戻るかもしれません。明らかに矛盾する真実がありますよね。実際、Cycプロジェクトの教訓の1つは、グローバルに一貫した知識ベースを構築することができなかったということです。
矛盾が含まれていたんです。だから、内部的には一貫しているけれど、グローバルには一貫していない「マイクロ理論」を開発する必要がありました。
確かにそれが真実であることは分かっています。解決されていない科学的な疑問がたくさんありますからね。例えば、新型コロナウイルスは研究所から流出したのか、それとも自然界で動物から人間への感染が起こったのか。両方を支持する証拠があります。
良いシステムは答えを出すべきではありません。代わりに「ここに1つの仮説があり、それを支持する証拠がこれです。もう1つの仮説があり、それを支持する証拠がこれです。答えは分かりません」と言うべきです。
もちろん、もっと文化的やイデオロギー的なものもあります。「このイデオロギーの枠組みの中では、人々はこれが重要または真実だと言うでしょう。そして、これらの代替案があります」と明確にすると良いでしょう。
システムに真実を与えてもらおうとするべきではありません。なぜなら、真実が何かをどうやって知ることができるでしょうか？私たちも真実を知りません。
これは少しTwitterのコミュニティノートに似ていますね。人々が「このツイートは誤解を招くと思います。ここに信頼できる引用源があります」と言い、そしてその引用源が信頼できるかどうかを他の人に評価してもらいます。
このような再帰的な議論構造を構築することができると想像できます。議論の構造はAIや哲学の分野で長年研究されてきました。そこから借りられるものがたくさんあると思います。
でも、これは超知能や超整列（super alignment）の問題に戻ってこないかもしれませんね。部分的には、これらのシステムに尊重してほしい価値観は何かということです。
これはある意味、ロボット工学の3原則のような領域に入ってきます。私たちを殺さないでほしいですよね。そして、その制約の下で、自分自身を機能させ続けてほしいと。
それらを明確に述べるのは非常に難しいです。これは「安全性」という言葉につながります。この言葉は本当によく使われていますね。
EU AI法に関する招待講演者の話を聞いてきたばかりですが、安全性や高度に有能なシステムについて多く語られていました。
同時に、米国の国立科学アカデミーの安全性が重要なアプリケーションにおける機械学習に関する研究にも参加しています。
安全性が重要なアプリケーションの人々は、航空学、自動車、鉄道、医療など、より伝統的なものから来ています。私たちが関心を持つ害は、生命の損失、重大な怪我、あるいはインフラの破壊などです。
これらが害であることには意見の相違はないと思います。驚くべきことに、社会は例えば飛行機の移動距離あたりの生命損失と自動車の移動距離あたりの生命損失に対して異なる許容度を持っています。
自動車の方がずっと高い致死率を許容していますよね。なぜなのか、自問する必要があるかもしれません。将来、自動運転車が普及したら、そんなに高い許容度を持ち続けるでしょうか？それともずっと良くなることを要求するでしょうか？
約束は、人間よりもずっと優れたドライバーになれるということです。そんなに楽しくないかもしれませんが…
とにかく、従来の安全工学は、起こりうる全ての問題を予測しようとします。それらを「ハザード」の集合として定義します。
ハザードは、入ってはいけない状態空間の領域として定義できます。そこに入ると高い確率で何らかの害が発生するからです。
そして、全ての既知のハザードに対して安全マージンを持つようにコントローラーを設計します。
この課題は、常に予期しなかった新しいハザードがあるということです。コンピュータビジョンでは「オープンカテゴリー問題」と呼ばれる問題があります。
学習データにない新しいオブジェクトが常に現れるんです。自動運転車の例でいえば、「Onewheel」のようなものです。これは真ん中に大きな車輪がある一種のスケートボードです。
2009年のImageNetコレクションにはOneWheelはありません。まだ市場に出ていなかったからです。電動自転車も同様に新しいですね。
これらの新しい交通手段はそれぞれ少し異なる動きをし、人々も異なる使い方をします。自動運転車はこれらを検出し、人々がそれらをどのように使うか予測できる必要があります。衝突を避けるためにね。
だから、予想される全ての問題について考えますが、常に新奇性に遭遇するという問題があります。
自動運転車について考えること自体、深層学習の進歩のおかげで、これまでよりもずっと強力な知覚システムを持てるようになったからです。
だからこれができるかもしれないと考えているんです。でも、人間と機械が完全に分離された従来の閉じたロボット応用から、機械と人間が高速で大きな運動量を持って相互作用する世界に移行しているんです。
そのようなシステムをどのように設計できるか、非常に難しいですね。でも、安全工学の人々は機械学習やコンピュータビジョンの知覚側で進歩を遂げていると思います。
まだやるべきことはありますが。なぜなら、私たちのシステムはまだ分布に依存しない精度を保証できないからです。精度が学習分布に依存することは分かっています。
その学習分布を、既知の全てのハザードの周りで特に豊かになるようにバイアスをかけることはできます。実際、全ての会社がそれをやっています。
高精度のシミュレータを構築して、あらゆる種類のクレイジーな条件をシミュレートし、一種の敵対的アクティブラーニングを使ってシステムを失敗する場所に追い込み、新しい失敗モードを発見しようとしています。
でも、もちろんシミュレータが知らないことはまだあります。OneWheelのようなものや、これから市場に出てくる新しいものなどですね。
だから、機械学習とコンピュータビジョン側の技術的課題は、これまで見たことのない新しいものを見ていることをどのように検出するかということです。
それには、その新奇性を表現する方法が必要です。これはコンピュータビジョンでの課題でした。なぜなら、従来はImageNetで事前学習を行い、標準的なImageNetコレクションの1000クラス以上のものを表現できるほど豊かな表現を学習していることを期待していたからです。
でも、そうではありません。既存のクラスの上にエイリアスされてしまい、十分に特徴的な表現を持たないものがたくさんあることが分かっています。
ファウンデーションモデルの戦略には期待しています。「できる限り全てのものを学習させよう」という戦略です。学習データに非常に多くのバリエーションがあれば、システムは全てのものの表現を持つでしょう。
そうすれば、新奇性を見て、それが特徴の珍しい組み合わせであることを知ることができます。特徴は持っているけれど、この組み合わせは見たことがない、というわけです。
特徴そのものを持っていないために新奇性に気付けないという、より小規模なコンピュータビジョンアプリケーションで観察されたことと対照的です。
だからこれは、認識論的不確実性の概念を使って「ああ、これは見たことのない新しいものだ」と言えるかもしれない、という楽観的な見方につながります。
そうすれば、車はより慎重に振る舞えるでしょう。風に揺れる布の横断幕なのか、それとも見たことのない新しい種類の歩行者なのか分からないからです。
例えば、ハロウィンの仮装をした人かもしれません。それにぶつかりたくないですからね。これが一つのことです。
でも、学習したモデルを形式的に検証する必要性も真剣に考える必要があると思います。今週もここでいくつかの論文がありました。検証しやすい新しいニューラルネットワークアーキテクチャを持つか、検証方法を改善するかについてです。
ほとんどは敵対的な例に対する防御というアイデアに基づいていますが、ピクセルレベルでの頑健化だけでなく、学習データ点の間でモデルが適切に振る舞うという保証も欲しいと思います。
ReluがデータポイントGPT-4の間で奇妙な方向に飛んでいくのを知らないんです。だからリプシッツ定数や2次導関数を制限したいんです。それに関する論文もここにありました。
データポイントの間で大暴れしていないという確信が欲しいんです。もしある領域で大暴れしているなら、そこに新しいデータポイントを得て、学習セットに追加し、失敗を証明するポイントが見つからなくなるまで引き下げていきたいですね。
これらを大規模に実現するのは、まだかなり先のことだと思います。でも、できれば分布のシフトに脆弱であるという問題から脱却できるかもしれません。
なぜなら、私たちの最悪の悪夢は、入力空間のその小さな領域が危険であり、何らかの理由で展開時にその点に当たる確率が高くなることだからです。そして、私たちは保証を与えられません。
分からないですね、空想かもしれませんが…
質問者: 楽観的になれますよね。おそらく、これらの機械学習システム、システム1のシステムの完全に確実な検証はできないでしょう。なぜなら、私たちの仕様はデータポイントだからです。
「カンガルーと鹿を常に区別できる」といった独立した宣言的な仕様はありません。これは有名なボルボの例で、彼らの鹿検出器がオーストラリアで機能しなかったというものです。
そういったことは保証できません。でも、別の保証はできるかもしれません。システムが自信がない場合、その自信のなさを正しく検出できるという保証です。
今ではかなり良い確率較正技術がありますね。まだ分布依存ですが、分布に依存しない較正の概念を考え出せるかもしれません。
そうすれば、車は自分が知らないことを知ることができ、もっと慎重になれるでしょう。100%正確である必要はありません。ただし、自信がないことについては100%正確である必要があります。
ナレーション: そうですね。最近の講演で、ベイズ最適化を使ってシステムを構築する素晴らしい例を挙げましたね。状況の全てのものをモデル化して、状況知識を構築できます。
そして、この敵対的な摂動を行えます。意図的に奇妙な状態に置いて、その不確実性について推論できるんです。これは自動運転車などに組み込めるかもしれませんね。
実際、それらの例はトロントのスタートアップ、Waabi（ワービ）で行われている仕事から取りました。Raquel Urtasunが率いているんですが、彼らは本当に素晴らしい仕事をしています。
他のグループもありますが、ほとんど全ての人がある形のベイズ最適化や代理モデル最適化を使っています。まさに認識論的不確実性の尺度を与えてくれるからです。
それを最適化できるんです。「私の空間の最も不確実な部分はどこか？」とか、リスクの概念があれば「十分なデータがない、最もリスクの高い部分はどこか？」と聞いて、そこにサンプリングを集中できます。
この10年間で開発された素晴らしいツールがたくさんあると思います。それらを組み合わせれば進歩できますが、まだスケールする十分に良い検証ツールがありません。
質問者: ソフトウェアの一部を検証するのも驚くほど難しいですよね。
ナレーション: そうですね。どうやってそれをするのか…人々は例を挙げます。完全に検証することはできません。部分的には、形式的な仕様を得ること自体が非常に難しいからです。
ほとんどの仕様が完全に正しくないことも分かっています。システムの失敗のほとんどは要件の失敗によるものです。
じゃあ、どうするか…これを2つの方向に進めたいと思います。一つは、マイクロソフトがデバイスドライバーでできたことに非常に感銘を受けています。
完全に正しいことを証明することはできませんが、モデルチェッキングを使って特定のプロパティが守られていることを確立できます。
デッドロックがないことなどを保証できます。おそらくモデルチェッキングを使ってメモリ安全性も確保しているでしょう。これらは比較的小さなコードですが、リアルタイムで非常に難しい状況に対処しています。
デバイスは偽の信号を送ることで悪名高いですからね。CrowdStrikeは明らかにそういったモデルチェックを行っていませんね。
デバイスドライバーは何をすべきかかなり良く分かっているので、プロパティを書き下ろすのが簡単かもしれません。でも、明らかに…
全てを検証することはできませんが、チェックできるプロパティはありますか？機械学習でも同じことが言えると思います。全てを証明することはできませんが、検証できる有用なプロパティについて考える必要があります。
完全な表面の近似を形成して、その振る舞いの上限と下限を与える必要があるかもしれません。それらが十分に密接であれば、自信を持てるかもしれません。
正確な決定境界は何百万もの小さなものでいっぱいで、それら全てを検証することはできないかもしれません。でも、もっとスムーズで単純な近似を作って、それらを検証できれば良いかもしれません。分かりませんが。
何ができて何ができないかを理解するには、多くの創造性が必要です。みんなにナンシー・レビソンの『Engineering a Safer World』を読んでほしいですね。
彼女が言うのは、安全なシステムを構築して展開するのではなく、安全性は本当に制御の概念だということです。システムを常に制御し、修正して安全を保つ必要があります。
これは、コンピュータビジョンやAI一般における未知の未知、エンジニアリングシステムの未知のハザード、未知の失敗モードの問題と非常に似ています。
デイビッド・ウッズ（長年の人的要因の専門家）は、カリフォルニア工科大学の研究を引用しています。エンジニアリングされたシステムは「堅牢だが脆弱」な傾向があるというものです。
私なりの要約では、知っている失敗モードに対しては安全マージンを設けてエンジニアリングします。だからそれらのことに対しては堅牢です。
ビザンチン的なものに耐えられます。RAIDがあれば、多くのディスクドライブが故障しても問題なく機能し続けられます。
問題は、知らなかった未知の失敗モードです。システムを設計する際、知っていることに対して安全マージンを設けますが、その後サイズ、重量、電力などを最適化して、できるだけ安く作ろうとします。
それが実行可能な領域の端ぎりぎりまで私たちを連れて行き、その実行可能な領域の端のすぐ向こう側に、知らなかった新しい障害が潜んでいるんです。それに対する安全マージンはありません。そしてそれに噛みつかれるんです。
つまり、予期しなかったこと、未知のことに対して脆弱なんです。
高度に堅牢な人間組織に関する文献も読みました。これは1980年代の組織心理学や社会学の文献から出てきたもので、手術室での患者安全運動やパイロット訓練の起源にもなりました。
彼らが話すのは、非常に高いレベルの安全性を達成することに成功した組織は、これらの未知の失敗モードが存在するという基本的な信念を持っていて、それらが噛みつく前に検出することが主な仕事だということです。
それをどのような根拠で検出できるのか？異常と、ニアミスです。
安全技術者の業績評価指標（KPI）のアイデアは、異常が発生するたびに、それが何だったのか、根本原因は何か、考慮し保護する必要のある新しい失敗モードがあるのかを理解しようとすることです。ニアミスではさらにそうです。
ニアミスの概念は、これらの既知のハザードと安全マージンがあって、そのマージンを侵害すると（本来はそうすべきではない）、何かがおかしいということで調査すべきだということです。
でも、ニアミスの概念にはいくつかの微妙な点があります。AIの人々にこれについて考えてほしいんです。
自動運転車では、「常に全ての歩行者から2メートル離れていなければならない」というルールがあるかもしれません。
でも、記録されたシナリオでは、歩行者が横断歩道にいて、自動運転車が真っ直ぐに向かってくるのを見て飛び退いたのに、自動運転車は「2メートル離れている、大丈夫」と言うんです。
これは反事実的なニアミスです。歩行者が回避行動を取らなければ、衝突していたでしょう。もちろん、他の車も回避行動を取る必要があります。
だから自動運転車は、他の主体が適切に行動しなければ害が生じたかどうかを判断できるセンサーと推論能力を持つ必要があります。
これは難しいです。左折する人があなたが通過するのを待たなければ衝突したでしょう。でもそれはニアミスではありません。私たちはそう決めます。
とにかく、これは安全性が重要なシステムを展開する際、それを取り巻く人間の組織全体が必要だという考えにつながります。
その組織は常に新しい失敗モードを探し、システムを適応させています。AIツールを使ってそれを支援できると思います。
私は異常検知や新規性検知について多くの研究をしてきました。ニアミスについてはあまり考えていませんでしたが、そこにも取り組むべきことがあると思います。
新しい失敗モードを見つけたら、診断の問題があります。何が本当の原因なのかを言わなければなりません。AIでは40年間診断の研究をしてきたので、いくつかのアイデアがあります。
それらは因果モデルに頼ることになります。もちろん、最近はJudea Pearlの因果性理論を使った因果AIに多くの取り組みがあります。ヨーロッパでも因果性に関する多くの研究が行われています。
そして修復があります。修復が、コンピュータビジョンシステムを再学習する必要があるということなら、それはできます。デバイスコントローラーを再学習するのもできます。
現在の安全性に関する取り組みは、人間がそれら全てのことを行うことに依存していますが、私たちにはそれに貢献できるものがたくさんあると思います。
でも、システムの安全性を維持するために、人間との協力が必要かもしれません。
はい、安全性を維持する仕事をより良くすればするほど、安全チームが経営陣によってカットされるというチャレンジは常にあるでしょう。
安全性に対する最大の脅威は通常、予算削減です。経営陣が「2年間失敗がないのに、なぜこれらの人々に給料を払っているんだ？何をしているんだ？」と言うからです。
ナンシー・レビソンは、これらのシステムが時間とともに危険に向かって移行する傾向があると記録しています。基本的に予算削減、スタッフの入れ替わり、トレーニングの失敗、そして単に災害の経験が不足しているためです。
だから鈍感になってしまうんです。これは本当に難しいです。でも、経営陣を教育する必要があります。失敗のコストと、これらの人々を雇っていることで得られる節約を推定する方法が必要です。
次のCrowdStrikeになりたくはないでしょうから。
質問者: そうですね。仕事が上手すぎると仕事を失うという、ある意味悪いインセンティブですね。安全工学は生きて呼吸するものであり、時間とともに劣化するという点に完全に同意します。それは終わりのないプロセスで、オーケストレーションがあり、人間が診断を行い、継続的に行う必要があります。不正検出などでも同じことが言えますね。検出した不正の数ではなく、防いだ不正の数が重要です。でも、それをどうやって測定するんでしょうか？
ナレーション: そうですね、本当にその通りです。
最後の質問ですが、今週のICMLで最も興味深かった会話は何でしたか？
一つ印象に残ったのは、清華大学の人たちと話したことです。彼らは、ゲーミング用GPUのような一般的なハードウェアでLLMを学習させる方法を見つけようとしています。
当然、彼らは学者なので、A100をたくさん買う予算がありません。でも、アメリカやヨーロッパからの禁輸措置も受けています。
必要は発明の母かもしれません。彼らは8ビットでの大規模モデルの学習に取り組んでいます。もし成功すれば、私たち学者もついに自分たちのLLMを学習し始められるでしょう。
彼らが成功して、それをオープンソース化してくれることを願っています。これが学者たちにとって大きな課題だったからです。
それでも、より大規模な共同研究が行われるようになってきたことに感銘を受けています。完全に主観的な印象ですが、単著の論文はほとんどなくなったように思います。
学生と指導教官だけの論文でさえ比較的少なくなっています。複数の機関が協力して取り組む論文が多いですね。企業と学術機関が一緒に、複数の国が協力して…
中国の著者がたくさんいますが、しばしばヨーロッパやアメリカの著者と一緒に仕事をしています。もちろん、インドからの人々も多くの企業に関わっています。これは大きな変化です。
以前はこの分野でも単著の論文が可能でしたが、今ではかなり稀になりました。
質問者: そうですね、紳士科学者の時代は終わりましたね。
ナレーション: はい、ジェフ・ディーンとこのことについて話したことがあります。彼は「学者がこのゲームで競争し、勝てるという考えは諦めなければならない。君たちの時代は終わった」と言いました。
彼が大学院生だった頃、分散システムで働いていた時のアナロジーを引きました。彼は基本的に、大学で分散システムの博士号を取得できた最後の世代だったと言いました。
その後、Googleが大学のどこよりも何桁も大きな分散システムを作り始め、そこからさらに拡大していきました。彼は全てのアクションが企業に移ったと言いました。
私はまだ本当に興味深いことが起こっていると思います。特に、最初のオープンウェイトモデルが流出した時、それはFacebook MetaのLlamaでしたか？そこから爆発的に色々なものが生まれました。
ほんの数ヶ月の間にそれが起こったんです。人々が実験できるようになったからです。趣味で色んなことをする人も出てきて、みんなが素晴らしいことをしていました。
様々なデバイスで動かすための取り組みもありました。だからオープンソースの大ファンです。これらのモデルをオープンにすることの安全性に関する議論論文もありましたが…
オープンウェイトモデルが利用可能になることで、研究が信じられないほど加速します。世界中の誰もがそれらに取り組めるようになり、Macでも動かせるようになりました。
質問者: 確かに、LowRANK精度はそれに役立ちましたね。そのウェイトが利用可能になった瞬間の発見でした。
でも、フロップス（浮動小数点演算）と能力の間に常に関係があると思いますか？学者が必要な理由は、トピックを深く理解し、第一原理から考える非常に賢い人々が必要だからではないでしょうか？単に大きなGPUクラスターではなく。そういった余地はあると思いますか？
ナレーション: そうですね、トランスフォーマーが究極のアーキテクチャではないと思う限りは…確かにシーケンスからシーケンスへのマッピングには非常に優れています。
XMLからJSONに変換したいなら素晴らしいですし、あらゆる形式を扱えます。だからデータ処理スクリプトを書く日々は終わりました。昔は正規表現をたくさん書いていましたが、これらのシステムに頼めば良いんです。
それには本当に優れています。でも、先ほど議論したように、推論には適していないかもしれません。知識ベースや形式的推論エンジンとのインターフェースもまだ明確ではありません。
システム2からシステム1への議論で触れなかったのは、練習を通じて学ぶというアイデアです。強化学習の多くは基本的に、宣言的に指定された目標とシステムのダイナミクスのモデルから始めて、それを非常に低レベルのポリシーにコンパイルします。
そのポリシーは直接センサーからアクションに結びつきます。これはシステム2の明示的な推論からシステム1に移行しているんです。
これは、私たちが自転車の乗り方や楽器の演奏を学ぶときに起こることのモデルの一つです。最初は痛々しいほどゆっくりと解釈的に実行し、あらゆる種類の間違いを犯します。
でも時間とともに、どんどん上手になり、最終的には完全に自動化され、考えなくてもできるようになります。
そうすることの利点の一つは、これらの低レベルのシステム1の信念に至った全ての履歴を持っているということです。システム2からシステム1への完全な由来があるんです。
だからシステムにバグが見つかった場合も、システム1に再コンパイルし直すのに役立ちます。
でも、明らかに全てをレシピを読んで練習することから学ぶわけではありません。世界と相互作用することから直接学ぶこともあります。それらは最初からシステム1です。
これらをどうやって混ぜ合わせるかは本当に興味深い問題です。システム1のルーチンがなぜ機能するのか、事後的に説明を作り出すのでしょうか？
これは魅力的な分野ですが、明らかに私たちはそれらの間を行き来できます。それが私たちの力の源のように思えます。
だから、単にデータとトランスフォーマーをスケールアップすることは長期的に実現可能ではないと思います。いくつかの領域では指数関数的な、あるいはそれ以上のデータ量が必要になることが分かっているからです。
可能な証明を全て生成することで定理証明器を構築することはできません。一方で、たくさんのLeanの例から、Leanのコードを出力する証明システムは構築できます。
だから、今はすべてが非常に混乱していると思います。
質問者: ビアティス教授、今日はお時間をいただきありがとうございました。光栄でした。楽しかったです。
ナレーション: こちらこそ、ありがとうございました。