ChatGPT の心理学を主要開発者のジョン・シュルマンが説明する

- YouTube
YouTube でお気に入りの動画や音楽を楽しみ、オリジナルのコンテンツをアップロードして友だちや家族、世界中の人たちと共有しましょう。

「今日のRHF(報酬モデルによる人的フィードバック)が、これらのモデルに影響を与える方法について、人間の心理学の観点から、あなたはそれをどのように特徴付けますか?それは欲求ですか?目標ですか?衝動なのでしょうか?心理学的にどのようなものなのか、どのように変更されているのでしょうか」

「はい、人間の欲求や目標にいくつかの類似点があると言えるでしょう。つまり、特定の一連の状態に向かって操舵しようとするのですが、他の状態ではありません。私たちの欲求や目標の概念には、それを達成した時の満足感のような他の要素もありますが、それらは学習アルゴリズムとより関係があり、実行時の固定モデルとは関係がないかもしれません。ですので、いくつかの類似点はあると思いますが、正確にどの程度近いかはわかりません。しかし、ある程度はモデルが意味のある方法で欲求と目標を持っていると言えるでしょう。RHFの場合、報酬モデルで測定された人間の承認を最大化しようとしているので、モデルはただ人々が気に入るものを生成しようとしているのです。

意識的な目標を持つということは、内なる自問自答をしているか、モデルが自分がなにをしているのか、なぜそうしているのかについて話すようなものかもしれません。ですので、モデルもある程度そのようなことを明示的に行うかもしれません。いくつかのことはむしろ本能的なものだと思います。例えば、かつてモデルが非韻を踏む詩を書くことができない問題がありました。一旦詩モードに入ると、つい韻を踏んでしまうのです。そのような本能があると思います。しかし、時々モデルにちょっと考える時間を与えると、内なる自問自答のようなものを吐き出し、自分自身にとって正しいことをするのを助け、また自分が持っている知識について教えてくれます。」

「推論能力を高めるために、その内なる自問自答のようなものを使う2つのアイデアを公に聞いたことがあります。どちらがより有望だと思いますか。1つは、モデルが多くの考え方を出力し、正解につながる方を学習するというものです。もう1つは、展開時に大量の計算リソースを使い、モデルが自問自答しながら推論するというものです。本当に推論が上手くなった時、どちらに近いと思いますか?大量の推論を行うからなのか、それとも推論が上手くなるように訓練されているからなのでしょうか」

「推論とは、テスト時に何らかの計算や推論が必要なタスクだと定義できるでしょう。ですので、推論によく定義上、テスト時に段階的な計算が必要になります。一方で、訓練時に何らかの計算や練習を行うことで多くの利益を得られると予想します。ですので、これら2つを組み合わせることで最良の結果が得られると考えています。」

「これらのモデルをチャットボット形式にすると、話し方が非常に似通ってきます。彼らは物事を掘り下げたがり、箇条書きにしたがります。しばしば控えめで地味な話し方をします。創造性に欠けるという不満もあります。先ほど話したように、最近までは韻を踏まない詩は書けませんでした。これはRHFの特定の方法による結果なのでしょうか。もしそうだとしたら、評価者のせいなのか、損失関数のせいなのか、なぜすべてのチャットボットがこのようになるのでしょうか」

「確かにその癖がどのように生まれたのかは興味深い疑問です。私自身最近は「掘り下げる」という言葉を使うようになってきました。モデルから影響を受けたのかもしれません。しかし、おかしな効果が起きているのかもしれません。言語モデルプロバイダー間で意図せぬ知識の引き継ぎが起きているのかもしれません。つまり、ラベリングタスクを雇った人が、お気に入りのチャットボットを開いて入力し、モデルにタスクを実行させ、その出力をコピー&ペーストしている可能性があります。これが収束の一因かもしれません。しかし、私たちが見ているものの一部は、単に人々が求めているものなのかもしれません。要点を示したり、構造化された回答を好む人が多いと思います。モデルからの大量の情報提供を好む人も多いでしょう。

ですので、これらの傾向がラベリング作業におけるデザインの選択や特徴の偶然の結果なのか、それとも本当に人々が求めているものの本質的な部分なのかははっきりしません。いくらか冗長過ぎると感じる人が多いのかもしれません。ラベリング段階で評価者が詳しい回答を好むためかもしれません。しかし、事前トレーニングの方法が原因なのかもしれません。終了シーケンスがあまり出てこないため、モデルはずっと続けたがってしまうのです。あるいは、1回のメッセージごとにトレーニングするため、フル対話を捉えられずに冗長になるバイアスがかかっているのかもしれません。短い回答で続きを求めるものは、すべての可能性を包括するものに比べて完結に見えないでしょう。」

「メディアの評価者の特徴はどうですか?彼らのバックグラウンド、政治的立場、知識レベルはどうですか?」

「かなり幅があります。様々なスキルを持つ評価者を、異なるタスクやプロジェクトに雇っています。Upworkなどのプラットフォームで単発のリモートワークをしている人々を想像するといいでしょう。国際的なグループで、米国在住者も多数います。ライティングタスクとSTEM系のタスクでは異なるグループを雇っています。STEM系タスクではインドやその他の中進国出身者が多く、英語のライティングや作文タスクでは米国在住者が多くなる傾向にあります。また、キャンペーンによっては専門家を雇う必要もありました。彼らの中には私たち研究者と同等、あるいはそれ以上に優れた能力を持つ人もいて、私たちよりも注意深くタスクに取り組んでくれます。」

コメント

タイトルとURLをコピーしました