AIは考えることができるのか? AI の限界を暴く

3,664 文字

YouTube
作成した動画を友だち、家族、世界中の人たちと共有

ジェフ: あなたに質問があります。私は本当に考えることができるのでしょうか?
マーティン: では、数学の問題で答えましょう。
ジェフ: さすがIBMの特別技術者らしい返答ですね。続けてください。
マーティン: 期待を裏切りたくありませんからね。では問題です。オリバーは金曜日に44個のキウイを摘みました。
ジェフ: はい、44個ですね。
マーティン: 土曜日には58個摘みました。
ジェフ: はい、58個。
マーティン: 日曜日には金曜日の2倍の数を摘みましたが、そのうち5個は小さめでした。
ジェフ: サイズは関係ありません。88個です。では合計は?
マーティン: 190個になりますね。
ジェフ: マーティン、私のAIチャットボットによると、5個が小さかったという事実を引かなかったので、185個になるはずだと。
ジェフ: 小さくても数は数です。新しいチャットボットが必要かもしれませんね。
マーティン: そうですね。5個が小さかったことは合計を変えるものではありません。しかし最近の研究論文で、一部のLLMがこういった余分な詳細につまずくことがわかりました。一見賢そうなAIがどうしてこんな明らかな間違いを?
ジェフ: その論文は読みましたよ。全てはトレーニングデータに起因します。論文によると、LLMは確率的パターンマッチングと呼ばれるものを実行しているとのことです。メモを取っておきましょう。ありがとう。つまり、トレーニングデータセットの中から最も近いデータを探すんです。この場合で言えば、数学の問題の類似例を探しているわけです。そして、「5個が平均より小さい」といった細かい詳細が出てくる場合、ほとんどの場合にはそれには理由があるんです。
トレーニングデータの中で、そういった但し書きが追加された数学の問題のほとんど全てで、その但し書きを考慮に入れる必要があったんです。そのため、LLMは関連するトレーニングの例のほとんどで見られた確率的パターンに従って、合計から5を不適切に引いてしまったわけです。
マーティン: つまり、ジェフ、それは「私は本当に考えることができるのか」というより大きな質問に戻ってきますね。
ジェフ: いい質問ですね。それとも単に思考や推論をシミュレーションしたり模倣したりしているだけなのか。あるいはもっと広い質問として、私たちは全員シミュレーションの中で生きているのか? 全てが模倣なのか? 何か本当に実在するものはあるのか?
マーティン: ちょっと待って、ジェフ。チャットボットのように幻覚を見始めているようですが、確かにこれはLLMのパターンマッチングが実際の推論を犠牲にしていることを示唆していますね。LLMは基本的な概念を本当に理解することなく正解にたどり着くことが多く、それがこのような問題を引き起こす可能性があります。
先ほどの数学の問題での余分な詳細がLLMを混乱させることがわかりましたが、他にどんな要因でモデルがこのような推論に苦しむことがありますか?
ジェフ: LLMは論理的推論に苦しんでいます。それはトークンバイアスと呼ばれるものが原因です。メモしておきましょう。ありがとう。これらのシステムは実質的に次の単語、より正確には次のトークンを予測しているのですが、入力の1つのトークンが変更されると、モデルの推論出力が変わってしまいます。つまり、LLMに質問をする際のプロンプトのちょっとした変更が、出力される推論に大きな影響を与える可能性があるということです。
マーティン: これは超強力なオートコンプリートのようなものですね。「メリーさんの子羊」の「その毛は白く」の次は…
ジェフ: オートコンプリートでは「雪のように」と出るでしょう。
マーティン: いいえ、私の携帯のオートコンプリートでは「メリーさんの子羊、その毛は白く子羊のように」と出ます。
ジェフ: かなり残念ですね。
マーティン: なぜそうなるんでしょう?
ジェフ: オートコンプリートは次の単語の確率に基づく予測スキームを使用しており、LLMも同様のことを行っています。ただし、アテンションなどの追加の賢さがあります。ほとんどの場合は正しいのですが、間違っている時には幻覚が起こり、あなたや私なら素早くフィルタリングするような変な余分な詳細が出てきます。
推論しているように見えるチャットボットは、実際には次の単語だけでなく、次の文、次の段落、あるいは文書全体を推測する超洗練されたオートコンプリートを行っているかもしれません。
ジェフ: がっかりですね、マーティン。私たち全員の魔法を台無しにしましたよ。
マーティン: マジシャンが箱の中の女性をのこぎりで半分に切るのを見て、実は2人の女性がいて、一方の腕と他方の脚を見ているだけだと説明するようなものですね。パッと魔法が消えてしまう。
しかし、AIの推論も進化しています。私たち優れた人間のように概念を理解できないと高慢に宣言することはできますが、最近の進歩では推論に大きな改善が見られています。
今日のほとんどの事前学習モデルは、トレーニング時の計算に依存しています。メモを取っておきましょう。ありがとうございます。モデルはトレーニング中に推論を学習します。あるいは、先ほど見たように、確率的パターンマッチングを実行することを学習します。その後、モデルはリリースされ、固定された存在となります。
つまり、基礎となるモデルは変化しないということです。先ほどトークンバイアスについて話しましたが、入力トークン、つまりプロンプトの小さな変更が出力の推論に影響を与える可能性があります。これは実際、プロンプトエンジニアリング技術を通じてLLMの推論を改善する際には良いことになり得ます。
例えば、多くの論文で、思考の連鎖プロンプティングと呼ばれるものを通じてLLMの推論が大きく改善されることが示されています。
ジェフ: はい、それについて聞いたことがあります。プロンプトに「ステップバイステップで考えましょう」のような文を追加して、LLMが答えを出す前に推論のステップを含めるように促すものですね。
マーティン: その通りです。ただし、重点は、LLMに思考の連鎖プロセスを採用させるための正しい魔法の言葉、正しい呪文を使用するプロンプトを書く人にあります。新しいモデルが行っているのは推論時の計算です。モデルに答えを出す前に考える時間を与えることができます。
考える時間は必要な推論量に応じて変化します。単純な要求なら1、2秒で済みますが、より複雑なものは数分かかることもあります。思考の連鎖の考える期間が完了してから、答えの出力を開始します。基本的に、話す前に考えるということです。
ジェフ: そうですね。推論時計算モデルで興味深いのは、基礎となるモデルをトレーニングして調整することなく、推論を調整して改善できることです。つまり、LLMの開発において推論を改善できる場所が2つあります。トレーニング時には質の高いトレーニングデータで、推論時には思考の連鎖トレーニングの改善です。
いくつかのAIラボの研究者たちは、これによって将来のLLMモデルの推論が大きく改善されると確信しています。
マーティン: そうすれば、ついにキウイを正確に数えられるAIが登場するかもしれませんね。
ジェフ: 素晴らしい日になるでしょうが、それは本当に考えているのでしょうか? それとも単なる思考のシミュレーション、一連のアルゴリズムが一緒に動いているだけなのでしょうか? 結局のところ、それは電気回路とその中を流れる電気的インパルスの集まりに過ぎないのではないでしょうか?
マーティン: それは確かにそうですね。しかし、あなたの思考も脳の中でニューロンが電気的インパルスを発火させているだけです。完全には理解されていないので、ほとんど魔法のように見えます。魔法のトリックの仕組みを説明するまでは。それが魔法を台無しにしてしまうように。
AIが一連のアルゴリズムを使用して思考をシミュレートしているという考え方も、それがトリックの仕組みです。しかし、トリックの仕組みを知ってしまうと、それは本当に思考なのかという疑問が生まれます。
ジェフ: 結局、それは本当に思考なのでしょうか?
マーティン: ジェフ、それは哲学者への質問ですね。私は哲学者ではありません。そこで次善の策として、人気のチャットボットに聞いてみました。その返答が本当に良かったんです。
思考とシミュレーションの違いは何かと尋ねたところ、思考には意識的で、目標に向かった、主観的な理解と適応性が含まれるが、言語モデルのような思考のシミュレーションは、実際の意識、実際の理解、実際の目的なしに、本物の思考と言語使用のパターンに合う応答を生成することで、思考の外見を作り出すだけだ、という答えが返ってきました。
ジェフ: 実際に考えることができないと言うシステムからしては、かなり良い答えですね。

コメント

タイトルとURLをコピーしました