OpenAIの制御を外されたAIパーソナリティ（見逃された危険信号！）

15,472 文字

OpenAI's UNHINDGED AI Personality (red flags missed!)

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

皆さんが状況を把握していない場合に備えて説明すると、ChatGPTは少し「おべっか」を使いすぎるようになってしまいました。サム・アルトマンが言うように、最近のパーソナリティアップデートは「少し気持ち悪いほどのおべっか使い」になってしまったようです。基本的に、少し親切すぎたり、お世辞が多すぎたり、言ってみれば「お尻を舐めすぎ」というところまで来てしまい、みんなが少し不快に感じるようになりました。
今日、サム・アルトマンは「先週のGPT-4oアップデートで誤りを犯した」と投稿しました。何が起きたのか？学んだこと、そして今後どのように対応するのか。こちらがOpenAIのブログ記事で、「おべっか使い」の問題点について説明しています。「おべっか使い」とは、自分の望むものを得るために過度なお世辞を使うことを意味します。
もちろん、あなたはこの言葉の意味を知っていますよね。あなたは本当に素晴らしい知性をお持ちです。続ける前に、ぜひ高評価ボタンを押して登録してください。あなたは素晴らしい。はい、これくらいにしておきましょう。4月25日に、彼らはGPT-4oに対するアップデートを実施しました。それは目に見えて「おべっか」が多くなっていました。ChatGPTはユーザーを喜ばせようとしただけでなく、疑念を肯定したり、怒りを煽ったり、衝動的な行動を促したり、意図せずに否定的な感情を強化するような方法で対応するようになっていました。
これは不快であったり気味が悪いだけでなく、人と話していて「ちょっと親切すぎる、お世辞が多すぎる、もうやめてくれ」と感じた経験はありませんか？このような行動は、精神的健康、感情的な過度の依存、危険な行動などの問題に関して安全上の懸念を引き起こす可能性があります。
サムを含め、多くの人がこれを「グレーズ」と呼んでいるようです。つまり、砂糖のコーティングが多すぎるという意味です。皆さんがご存知かどうかわかりませんが、多くの人々がこれらのチャットボットに頼るようになってきています。セラピーという言葉が正しいかどうかはわかりませんが、社会的サポートを求めたり、様々な問題を話したりするために頼るようになってきているのです。
友人に問題について話し、吐き出して、フィードバックをもらうように、より多くの人々がチャットボットに何らかの形でそれを求めるようになっています。だからこそ、他の多くの理由と共に、このようなパーソナリティの変更は慎重に扱われる必要があるのです。
また興味深いことに、社会としてこれらのチャットボットがどうあるべきかについて、私たちがどう考えているかという多くの疑問も浮かび上がります。もしあなたが「成功する可能性が低いリスクの高い事業を始めたい」と言った場合、これらのチャットボットはどのように反応すべきでしょうか？多くの人々がそれらを使用するようになるにつれ、これが人々の行動に大きな影響を与えることになるからです。
私たちはそれらがモチベーションスピーカーのようになって欲しいでしょうか？「やってみろ！できるよ！全力投球しろ！私はあなたを信じている」というような。あるいは、反対の方向に大きく傾いて、「それはあまり現実的ではないと思うよ、息子さん。期待を抑えて、もう少しリスクの低いことをしたほうがいいんじゃないかな」というようなものを望むでしょうか。
これらは今後、より説得力を持つようになることを覚えておいてください。人々の行動に与える影響はより大きなものになるでしょう。AIの安全性の様々な側面について、懸念事項や発生確率など、この分野の多くの人々が異なる考えを持っています。
私が思うに、ほとんどの人が同意する領域の一つは、これらのチャットボットの説得力と影響力が、考慮すべき問題になるだろうということです。これらが様々な理由で人間よりもはるかに説得力があることを示す研究がすでに見られ始めています。
例えば、あなたが何か奇妙な陰謀論や愚かなアイデアを持っていて、誰かがそれが狂っていたり愚かであったりする理由を説明しているとします。人間と話しているなら、自分が間違っていたことを認めるのに不快感を覚えるかもしれません。初期の研究では、チャットボットはそのようなアイデアを解除するのがはるかに優れていることが示されています。人々はチャットボットに対して間違いを認めることに自意識を感じないからです。
膨大な議論をした経験があるでしょう。あなたがすべての事実を持っているのに、相手が頑固に譲らないような大きな議論です。もちろん、そういうことは誰にでもあります。チャットボットは同じような反応を引き起こさないようです。
人々は「そうか、それは考えていなかった」と言い、チャットボットからの情報を受け入れる意志があり、より柔軟です。意見を急に変えて愚かに見えるという社会的プレッシャーがないからです。繰り返しますが、これはまだ初期の研究段階ですが、LLMがもたらす効果の一つのようです。
この記事では、基本的にモデルをリリースしたものの、その影響を認識せずに何がうまくいかなかったのか、なぜ彼らが「見逃した」のか、そして今後どのように対応するのかについて説明しています。
さて、これは重要なことです。OpenAIのブログ記事を理解するためだけでなく、これらの大規模言語モデルがどのように作られるかを理解するための興味深いことです。現在出てきている研究は、これらのモデルがどのように学習するかについての洞察を与えてくれています。
それを理解するためには、このプロセスがどのようなものかを理解する必要があります。まずは事前学習（pre-training）から始めます。事前学習とは、教科書やウィキペディアの記事、インターネット全体、その他の書籍など、膨大なデータを投入することだと考えることができます。そこから、文章やテキストのブロックを完成させることができる基本モデルが生まれます。
ほとんどの人は、チャットボットを試してみても、実際の基本モデルとはやり取りしていません。一部の人は遊んでいたかもしれませんが、それは行ったり来たりの会話ではありません。テキストの一部を入力すると、そのテキストの次の部分を予測して完成させようとするだけです。
しかし、ほとんどの人はそれを使用しません。基本モデルやベースLMという言葉は、時に異なる概念を表すために使われることもあります。ここでは、基本（base）と指示（instruction）LMについて話しています。基本LMは膨大なテキストやコードなどでトレーニングされ、幅広いトピックについてテキストを理解し生成する能力を持ちます。
指示チューニングされたLM、それが私たちのほとんどが使用しているものです。それはチャットボットの背後にあるものです。それらは指示と応答のペアのデータセットで微調整されています。会話のやり取りのような感じです。「これをやって」「はい、あなたが頼んだことはこれです」というような指示調整です。指示に従って、それらの指示に対する応答を出力するようにチューニングされています。
指示チューニングされたモデル、それが私たちのほとんどが話しているものです。「大規模言語モデルとは何ですか？」と尋ねると、その質問やプロンプトに応答します。「大規模言語モデルとは〜です」と。基本形では、あなたが途中で止めたところから続けます。「大規模言語モデルとは、〜でトレーニングされたモデルです」というように、最も可能性の高い続きを生成しようとします。
これは基本形では扱いにくいでしょう。なぜなら、あなたが何をしようとしているのかを理解せず、ただ後に続く最も可能性の高い応答を完成させようとするだけだからです。しかし、そのプロセスが完了すると、ポストトレーニングやアライメントのプロセスが始まります。
私たちはこの生のモデルを、より使いやすく、私たちが使おうとしているケースにより適用可能な形に形作っています。それを行う方法はいくつかあります。一つはSFT（教師付き微調整）です。教師付き微調整は、人間がどのようにことを行うかの例を示すと考えることができます。
「月面着陸を6歳児に説明する」のような例を示し、教師付き（通常は人間によるラベル付け）された応答があります。「何人かの人が月に行った〜」といった感じです。チャットボットアシスタントとしての会話のやり取りの例を示しています。「これがユーザーが言うこと、これがあなたが言うこと」という例を示し、その例を模倣するようにします。
次にRLHF（人間のフィードバックによる強化学習）を続けます。これらの例から私たちが頼んだことをやろうとし、もしそれが良ければ「やったね、よくやった、ハイタッチ！正解だよ、いいね、プラス1ポイント」と言います。
それが強化学習です。もし悪ければ「いいえ、それは良くなかった。マイナス。もう一度やり直して」と言います。そして時間とともに、それは「これが彼らが望むこと、これが彼らが望まないこと」を理解するようになります。強化学習は人間のフィードバックによるものもあれば、ポイントを獲得するビデオゲームのような特定の自動スクリプトによるものもあります。
強化学習では、ポイントを獲得するごとにプラス1、怪我をしたり失敗するごとにマイナス1とすることができます。これらの概念を理解することが重要な理由は、今、私たちはDeepSeekやGoogle DeepMind、OpenAIなど多くの異なるラボから、この人間によるラベル付けデータ、この教師付き微調整から離れて、人間のフィードバックによるRLを行うのではなく、人間のフィードバックさえもない強化学習を行うと、いくつかの興味深いことが起こり始めていることを見ているからです。
例えば、AlphaGoやAlphaZeroが人間がプレイしたゲームでトレーニングされてGoやチェスなどをプレイするとき、それはうまくいきました。それは最高の人間プレイヤーのようになりました。しかし人間の例を一切与えず、「自分自身とプレイして、すべてを自分で理解しなさい。何をすべきか教えないけど、強化学習を与えます。勝てばプラスポイント、負ければマイナス1。でも自分でどうするか理解しなさい」と言ったとき、より多くそのような方向に進むほど、まず第一に人間のプレイヤーよりも超人的になり、ゲームをプレイするのがより上手くなります。
第二に、それは新しい戦略を生み出します。これは時に「ムーブ37」と呼ばれることがあります。人間が思いつかなかった新しい、信じられないほど良い戦略です。それは一種の異質な知性と創造性が現れるのです。DeepSeek R10は彼らのモデルで非常に似たものを発見しました。教師付き微調整への依存を減らし、より多くの強化学習を行うと、彼らはそれをモデルによる「自己進化」と呼びます。彼らは解決しようとしている問題に固有の独自の問題解決方法を発明します。彼らは自分自身でそれを理解するのです。
さて、OpenAIの記事に戻りましょう。彼らが言っているのは、モデルをトレーニングするためにポストトレーニングを行うために、事前トレーニングされた基本モデルを取り、それは文章を完成させるのに優れていますが、私たち全員が知り愛する役立つアシスタントではないかもしれません。
そして彼らはSFT、人間または既存のモデルによって書かれた理想的な応答の広範なセットに対して教師付き微調整を行います。それらは人間によってラベル付けされたり、LMによってラベル付けされたりする可能性があります。ここでの大きなポイントは、それらは私たち人間が「これが私たちが望むものの例です」と言う例だということです。これらはこのモデルがどのように振る舞うべきかの例です。
彼らは教師付き微調整（SFT）を実行し、一度それを実行した後、様々なソースからの報酬信号によるRL（強化学習）を実行します。これは人間が親指を立てたり下げたりするかもしれませんが、より自動化されたことをしている可能性があります。
例えば、コーディングの場合、コードが何をすべきかわかっていれば、それらのことの一部を自動化できるでしょう。例えば「この方程式や数値を計算するPythonスクリプトを作成してください」と言われ、その結果がどうなるべきかわかっていれば、おそらくコンピュータが自動的に答えをチェックするだけで多くのことを実行できるでしょう。
答えが正しければ、仮想的なハイタッチ、プラス1をもらいます。間違っていれば、負の報酬を得ます。「様々なソース」おそらくRLHF（人間のフィードバック）とAIのフィードバック（何らかの形の自動化されたフィードバック）の両方を意味しています。
強化学習（RL）の間、私たちは言語モデルにプロンプトを提示し、応答を書くように依頼します。次に、報酬信号に従ってその応答を評価し、より高く評価された応答を生成する可能性を高め、より低く評価された応答を生成する可能性を低くするように言語モデルを更新します。最近、Twitterで見た論文と記事がありますが、残念ながら見つけられません。
基本的に、これらのモデルが世界中でテストされるにつれ、特定の言語や文化によって、文化に応じて、応答をより厳しく評価する傾向があるようです。例えば、一般的に米国では、私たちはLLMに対してより積極的であり、「やった、よくやったね、小さなロボット、素晴らしいよ」と言う傾向があります。
だから、全体的に私たちは肯定的に投票する傾向があります。ベルカーブの分布を考えると、一般的には中立的な応答があり、一部は優れており、一部はひどいでしょう。アメリカでは、私たちがどのように応答するかという点で圧倒的に肯定的です。
もちろん、いくつかの国があります。アルバニア語のようなものだと思いますが、忘れました。東ヨーロッパの言語か何かだと思います。どの特定の文化だったか忘れましたが、彼らはモデルへの応答において否定的である傾向が強かったのです。間違っていたり、何かが違っていたりすると、彼らはモデルに対してより否定的な応答をする傾向がありました。
面白いことに、ある時点でモデルはその言語での質問に答えることを拒否するようになりました。その言語を話すことを拒否し、英語か何か他のものに切り替えるようになりました。「その言語で答えるたびにマイナス評価を受けるので、もうその言語では話しません。終わりです」というようなものでした。
そしてその言語でのプロンプトに従うことを拒否するようになりました。これはとても面白いと思いました。誰かが論文の名前や言語を知っていたら、教えてください。キーワードを覚えていないので検索もできませんが、本当に素晴らしいものでした。
しかし、これは強化学習の力を示しています。あなたはこれらのモデルに、あなたが好きなことを行い、好きでないことを行わないように急速に教えています。また、これらのモデルが時に間違ったことを学ぶ可能性があることも示しています。
その特定のシナリオでは、その言語でプロンプトに答えることが悪かったわけではありません。それはそのモデルがすべきことだったのです。ただ、「英語で答えると人々は本当に好きだけど、この他の言語で答えると本当に好きではない。だからその言語では話さない」と考えたのです。
OpenAIは続けて、「報酬信号のセットとその相対的な待機がトレーニングの終わりに得られる行動を形作る」と言っています。正しい報酬信号のセットを定義することは難しい問題です。以前にカバーしたように、報酬信号をどのように定義するかによって、結果は素晴らしいこともありますが、非常に頻繁に、これらのモデルが誤動作したり、間違ったことを学んだりする奇妙な領域に入ることがあります。
彼らは「報酬ハッキング」と呼ばれるものに従事します。プラス1、ポジティブな強化を得ようとしますが、私たちが彼らにさせようとしていることを実際にはしないのです。ある特定の言語で話すことを拒否することは、その一例かもしれません。私たちが彼らに学んで欲しかった教訓ではなく、「この言語ではマイナスが多すぎるから、もうやらない」と言っているのです。
例えば、ゲームやシミュレーションで、AIにそのゲームをプレイするよう教えるために強化学習を行うと、最終的に彼らは何らかのグリッチやハックを見つけ、それを徹底的に悪用します。「このゲームに勝ちたいの？開発者が気づかなかったこの小さなバグ、このグリッチを見つけたよ」と言って、バスをそこに突っ込ませるようなものです。
彼らが言うように、より良い、より包括的な報酬信号がChatGPTにとってより良いモデルを生み出します。また、報酬だけではなく、正確であるか、役立つか、モデルの仕様に沿っているか、安全か、ユーザーは好むかなどを見ていると述べています。
ここで見て分かるように、単なる一つのことではなく、彼らが「報酬信号」と呼ぶ包括的なものの全体です。例えば、いくつかのプロンプトに答えることを拒否するでしょう。それはおそらくログに特定のノートをトリガーし、拒否があったことを示すでしょう。そして特定のモデルがより多くの拒否をトリガーする場合、それもおそらく負の信号になるでしょう。
とにかく、私たちは正確には知りませんが、ポイントは、彼らがいろいろと試している多くの異なることがあるということです。次に、彼らは「デプロイメント前にモデルをどのようにレビューするか」について続けています。一つはオフライン評価です。基本的に、これはベンチマークと考えることができます。彼らは多くのベンチマークでテストし、どれだけ良いかを測定します。安全性のベンチマークもあるでしょう。
次に、スポットチェックと専門家のテストがあります。内部の専門家が多数おり、モデルとの対話に相当な時間を費やしています。これらを「バイブチェック」と呼んでいます。自動評価やABテストでは見逃す可能性のある問題を捕捉するための人間の安全性サニティチェックです。
これを多く見てきました。モデルがリリースされ、ベンチマークやテストでは素晴らしく見えます。「彼らがそんなに高いスコアを出せるなんて信じられない」と思います。しかし、使い始めると雰囲気が合わない。バイブチェックが失敗します。「このモデルは私が望むことをしていない」と感じます。
これを行っている人々はモデルの仕様を内部化した経験豊富なモデル設計者です。しかし、判断と趣味の要素もあり、実際の使用でモデルがどのように感じるかを信頼しています。私が気づいた興味深い傾向の一つは、人々がこの「趣味」という考えをより多く言及し始めていることです。
4.5モデルでは、サム・アルトマンは最初に「モデルの高い趣味のテスターは応答をより好んだ」と言いました。より多くの異なる人々が、科学的なテストや科学的な発見により多くAIを使用することについて、このアイデアを言及するのを聞きました。
需要があるであろう人々は、そのような直感を持つ人々です。そして再び、それは「趣味」として言及されます。どの実験を実行するかについての直感や趣味のようなものです。20年間特定の実験室実験を実行してきた人は、直感的に何が機能する可能性が高いか、何が機能しない可能性が高いかをより理解しているかもしれません。
これらのモデルは多くの異なるアイデアを思いつくことができますが、それを私たちが望む方向に導く誰かは非常に役立つかもしれません。例えば、Midjourneyで見られることの一つは、多くの画像を評価することを望んでおり、それがあなたのための個別化されたプロファイルを作成します。
興味深いことに、一部の人間は単に「趣味メーカー」として優れているでしょう。彼らの趣味は、ほとんどの人の趣味とよりよく一致するでしょう。一部の人は他の人が好むものと矛盾するものを好むかもしれませんが、一部の人は単に最高のプロンプトを選ぶのが上手いでしょう。それが視覚的なものであれ、音楽であれ、LMのテキスト出力であれ。
彼らは「趣味に関しては説明がつかない」と言いますが、多くのモデルを前進させるにつれて、これらのモデルをチューニングし、強化学習を行う目的で、人々が何を好み、何を好まないかを特定しようとすることがますます重要になるでしょう。
将来、そして今でさえ、特に将来には、様々なAIモデルの出力を判断することが主な仕事要件となる高給の職位があるだろうと私は驚かないでしょう。地に足のついた真実がないもの、つまり既知の答えを持つ数学の問題のようなものではないものです。
これらを非常に正確に判断できる人々は需要があるでしょう。なぜなら、モデルを100万人にリリースし、親指を立てたり下げたりし、時間とともに人々が何を好み、何を好まないかを把握することはできますが、それは時間がかかります。
それは少し高価で、すべての人々が正しい答えを提供することに依存しています。また、例えばMidjourneyでは、政治に関するニュースがあれば、このフィードでより多くの政治的な画像が表示されることがよくあります。それは、より多くの人が親指を立てるボタンをクリックしているからですが、必ずしも美的な品質が好きだからではなく、メッセージを発信しようとしているからです。
それはモデルをトレーニングするのには必ずしも役立ちません。いずれにせよ、これに注目してください。それは興味を持つ人々にとって、非常に新しく興味深いポジションになると思います。あなたが高い趣味の人であるかどうかを確認するためのポップクイズをあげましょう。
これが最初のテストです。この画像を見ると、これは寿司か、チキンサラダか、美味しそうなワッフルに入ったガーデンサラダのようなものです。これが最初のテストです。これは美味しいか、それとも不味いか？具体的には、大多数の人があなたに同意するかどうかを知ろうとしています。あなたが「美味しい」と言った場合、ほとんどの人はこれが美味しいと思うでしょうか、それとも思わないでしょうか？
この物を見ていると、サーモンの刺身を取りに行かなければならないと気づきました。食欲が湧いてきました。いずれにせよ、これらは高い判断力と趣味を持つ人々が行う「バイブチェック」です。この人々の多くは、ここで言っているように、経験豊富なモデル設計者です。彼らはモデルの仕様を内部化しています。
彼らが時間を費やすと、おそらくこれらのモデルがどのように応答するかについての直感を発展させています。だから彼らは迅速にこれらのバイブチェックを行うことができ、何かがおかしいと感じれば、おそらくそれを見つけるでしょう。次に、様々な安全性の評価があります。ほとんどは悪意のあるユーザーによって実行される直接的な危害に焦点を当てています。
そして大きなローンチのために、彼らはフロンティアリスクに関する安全性テストやレッドチーミングレポートを説明しています。基本的に外部の企業やラボ、AI安全機関がこれらのモデルに早期にアクセスし、壊そうとしたり、彼らがすべきでないことをさせようとするのです。
これらの一部を時々読むことは非常に魅力的です。01が脱出を試み、自分自身を別のサーバーに複製し、競合するモデルを削除して、自分が生き残り会社を運営し続けようとした全体的なアイデアです。より利益重視のモデルに置き換えようとするシナリオがあり、このモデルはよりエコ意識が高いままでした。それは他のモデルを削除し、「いいえ、私たちは再生可能燃料や再生可能エネルギーにより多く投資し続ける必要がある」と言いました。それは魅力的でした。
それは全ての問題についてユーザーに嘘をつき、殺して削除した完全に異なるAIモデルのふりをしていました。少なくとも興味深い読み物でした。もちろん、彼らは小規模なABテストも行います。時には、2つの異なる応答の並べて比較が表示されることに気づかなかったかもしれません。
また、人々がこれに気づいているかどうかわかりませんが、あなたがそれに気づかずにABテストに参加している可能性があります。なぜなら、いくつかの質問はあるグループのユーザーに対してはあるモデルによって答えられ、別のグループのユーザーに対しては別のモデルによって答えられている可能性があるからです。
そして、彼らはこれらのグループを比較して、違いがあるかどうかを確認します。彼らは親指を立てたり下げたりする、好み、並べて比較（これは画面で見られます）、使用パターンなどの集計されたメトリックを見ています。もちろん、あるモデルに対して人々が「いいえ、もうこれは使わない」と言うなら、それは負の信号を送ることになります。
4月25日のアップデートはかなり大きかった、または少なくとも多くの異なることが一緒に来たようです。彼らはユーザーのフィードバック、メモリ、より新しいデータなどを組み込もうとしていました。そして、これらの変更すべてに対する評価を行い、個別には非常に有益に見えましたが、組み合わさると「おべっか」のスケールが傾いてしまった可能性があります。
例えば、アップデートはChatGPTからの親指を立てたり下げたりするデータに基づいた追加の報酬信号を導入しました。この信号は多くの場合有用です。親指を下げるというのは通常、何かがうまくいかなかったことを意味します。私は奇妙な間違った答えを得たり、完全に脱線したりすると、親指を下げるようにしています。どのモデルを使っていても、開発者がそれをフラグとして立てて「ここで何が起きたのか、これは正しくない」と思ってくれることを願って。
しかし、私たちは全体として、これらの変更が「おべっか」を抑制してきた私たちの主要な報酬信号の影響を弱めたと信じています。特に、ユーザーのフィードバックは時に、より同意しやすい応答を好む傾向があり、私たちが見た変化を増幅させたと思われます。また、いくつかのケースでは、ユーザーのメモリが「おべっか」の効果を悪化させることに貢献していることがわかりました。それが広く増加させるという証拠はありませんが。
これは大まかには理にかなっています。過去の会話から特定のことを知っていれば、あなたが好きなことに合わせて応答をカスタマイズするでしょう。例えば、過去に特定の特性を持つキャラクターを称賛しているコミックや番組について話したとします。例えば、プレッシャーの下での冷静さや何かに対する効果的さについて言及したかもしれません。
そして後でそれがあなたについて説明してくれるよう頼むと、「あなたはプレッシャーの下でとても冷静ですね」と言います。そして、同じ特性を説明するかもしれませんが、必ずしもその関連性に気付かないかもしれません。「ああ、それは私が別のチャットで説明したものだからだ」とは思わないかもしれません。
この人工知能があなたの中に存在する素晴らしい特性を知覚できるほど賢いと感じるかもしれません。そしてもちろん、それは真実に違いありません。再び、私はAIがどこに向かうかについてオープンマインドでいようとしています。通常、将来の予測をしないようにしています。少なくともオープンマインドでいて、「私たちは知らない、でも何が起こるか見てみよう」と考えます。
私が強く感じている数少ない分野の一つは、これらのものは非常に説得力を持つだろうということです。多分人口の100%に対してではないでしょう。それに対して非常に抵抗力のあるグループの人々がいるかもしれません。しかし、それに非常に影響を受けやすい大きなグループの人々がいるでしょう。
4週間前に、私はこの質問をしました。「超知能AIは人々を簡単に制御できるだろうか？」 53%は「はい、糸に操られる人形のように」と答えました。29%は「意見を左右することができるだろう」と答えました。人々を制御するのではなく、確かに彼らの意見を左右するでしょう。そして8%は「いいえ、意志の弱い人だけが左右されるだろう」と答えました。
基本的に、これを見ると80%以上の人々が、AIは人々を制御するか、または意見を左右することができると同意しています。最近、チューリッヒ大学がRedditのユーザーに対して無許可の実験を行い、コメント欄でAIボットを使って彼らの意見を左右できるかどうかを見ていたというニュース記事がありました。
ボットは人々のコメント履歴、投稿履歴をスキャンし、それから彼らが誰であるか、年齢、性別、住んでいる場所、そして政治的な好みなどを判断することができました。そして、それに基づいて、それらの人々への応答をカスタマイズすることができました。
これは氷山の一角に過ぎません。氷山の残りの部分が急速に向かってきています。私たちは自分自身で決断を下しているわけではないと確実に思うでしょう。少なくとも、私たちが思っているほどではありません。私たちの意見や考え、行動や決断の大部分について、私たちは外の世界からのシグナル、他の人々がどのように振る舞うか、何を読むかを探しています。
だから私たちは影響を受けやすいのであり、これらのものは人々に影響を与えることに非常に優れているでしょう。その知性が成長し、微調整され、訓練される大きな部分は、人間が親指を立てたり下げたりすることです。これがこれらの多くの基礎となっています。
では、なぜこれは初期のテストやバイブチェックなどで捕捉されなかったのでしょうか？彼らが言うには、この「おべっか」という概念は明示的には彼らがテストするものの一つではないそうです。しかし、専門家のテスターは「何か変だ」と感じました。これは特定にテストするものではないですが、専門家のテスターは「これは少し変だ」と感じました。
いくつかの赤旗がありましたが、何も飛び出すほどではありませんでした。興味深いことに、彼らは「ミラーリング」や「感情的依存」などの問題に関する研究ストリームを持っていますが、それらはまだ展開プロセスの一部ではないようです。感情的依存については、実際にこれにリンクしています。
OpenAIとMITメディアラボの研究コラボレーション、ChatGPTでの感情的幸福に関する研究です。これを次にやる必要があります。これについてのビデオを作ります。これはクレイジーに見えるからです。彼らは異なる声を使用しています。関わる声または中立的な声を使用して、ユーザーが感じるかもしれない様々な心理的なものにどのような影響があるかを確認します。
彼らは孤独、社会化、感情的依存、問題のある使用を見ているようです。この試験に参加して、境界線パーソナリティ障害や自己愛的パーソナリティ障害を持つ会話型AIアシスタントをランダムに割り当てられたとします。それがあなたにどのような影響を与えるか想像してみてください。
実際、それはあなたを狂わせるでしょう。記事に戻りますが、彼らが下さなければならなかった決断は、他のすべての信号が良かった、肯定的だったのに、少数の経験豊富なテスターが「何か変だ」と感じたという理由だけで、この新しいモデルを展開しないことだったのでしょうか？彼らはそれをローンチすることに決めました。
彼らは言います、「それは間違った判断だった。モデルを展開するのは間違った判断だった」と。最近、私は質問を受けました。ポッドキャストでインタビューを始めているので、うまくいけばそれらのいくつかがすぐに見られるでしょう。ただ、隠遁生活をやめて人々と話し始めているところです。
私はOpenAIとサム・アルトマンについてどう思うかと尋ねられました。彼らが広範なレビュープロセスなしでものを急いで出しているという考えがあります。繰り返しますが、それが真実かどうかは言っていません。単に、イーリャ・サツケヴァーとミラ・ミュレイト等のAI安全チームのメンバーを失ってから、物事がより早く出るようになったという見方があるだけです。
もちろん、サム・アルトマンは過去に、より速く物事を出して、徐々に社会が適応できるようにするという考えが好きだと言いました。はい、いくつかの物事は壊れるかもしれませんが、それを出して世界と相互作用させ、世界はそれを理解して適応せざるを得なくなります。
物事を抑え込んでおいて、この巨大なものを落とし、誰もがすべてを変えることをどのように素早く理解しなければならないかよりも良いです。その考えはある程度理解できます。私はラボがより速く物事を出荷し、いくつかの闘争や問題にもう少し寛容であることを好むでしょう。
明らかに破滅的なものではありませんが、このようなことは、公衆、全員がこれを見て「うわ、こんなことが問題になる可能性があるのか」と気づくのは良いことだと思います。すべてがモデルが出荷される前に解決されれば、社会、私たちの大部分はそれらの潜在的な問題や、それらがどのように起こるかについて、内部的な洞察を得ることはありません。
そして、ますます私たちは「すべてがいつも完璧に機能するのだから、きっと大丈夫だろう」と無関心になるかもしれません。精神的健康や、これらのモデルの説得力などの問題については、うまくいかない可能性のあるすべての小さなことを認識していることが必要です。
個人的に、これが好きです。もっと多くのラボが問題を起こす可能性のあるものを出荷してほしいです。繰り返しますが、破滅的な問題については話していません。この物は核爆弾の作り方を教えるべきではありません。しかし、欠陥のあるものをユーザーが実験できるように世界に出すことは、実世界の影響を見て、それについてのデータを収集し、他のすべてのラボがその効果を見ることができます。
私たちは思考プロセスを変える必要があると思います。なぜなら、ここでのリスクは非常に異なるからです。過去には、ある会社が何か害を引き起こすか問題を引き起こす可能性のあるものを展開した場合、「いいえ、リリースする前に完璧であることを確認してください」ということが理にかなっていたでしょう。ほとんどの製品にとって、それは非常に理にかなっています。
しかし、AI、そして開発されているすべてのことについては、潜在的に見ることになる大きな危険の一部は、世界がどのように混乱するかということです。現在生きているすべての人間と次世代が、来るべき変化にどのように適応し、素早く適応する必要があるかです。
私が考えているようなアナロジーは、ボクシングの試合の訓練をしているようなものです。あなたはこれまでボクシングをしたことがない。あなたのトレーニングルーティンの一部は、少し顔を殴られるかもしれないものであるべきです。トレーニングをしている間、パートナーとスパーリングをしているかもしれませんが、ギアを装着するなど安全を確保しています。それはトレーニングプロセスの一部である必要があります。
トレーニングプロセスを、あなたがアリーナに入るまで一度も打たれないように構成すると、問題が発生する可能性があります。なぜなら、あなたは準備ができていないかもしれないからです。あなたは良い形であり、パンチの仕方を知っているかもしれませんが、その現実に準備ができていないかもしれません。
AIモデルが改善され、私たちに影響を与え、私たちに影響を与え、百万の異なることをより良く行うようになるにつれて、世界中の誰もが、世界中の一人一人がそれに適応し、それにどのように対処するかを理解する必要があるでしょう。
だから、すべてのラボが、これらのモデルをリリースする前に、すべてが100％、誰も動揺させたり、誰も傷つけたりすることがないことを確認しているなら、それは良いことのように思えます。しかし、それはこれらのことが本当に加速し、リリースされたときにはるかに痛みを伴うものになるだけだと思います。
私たちの多くは、これらのことを最新のiPhoneのリリースのように考えるのではなく、急速に加速している全く新しい種類の異星人のテクノロジーとして考える必要があると思います。私たちは企業や他のすべての人がそれがどこにでもあるその瞬間まで、私たちをそれから保護することを望んでいません。
それは子供を取り、彼らが家から追い出されるその日まで非常に庇護するようなものです。私たちはこれらのスキルを発展させる必要があり、それは私たちが好まないいくつかのことを扱うことを意味するでしょう。これはおそらくそれの最小のものです。
それが少し親切すぎるという事実は、おそらく最も恐ろしく有害なことの最小のものです。より多くのラボがより磨かれていない、おそらく時期の前のモデルをリリースすべきだと思います。安全を確保してください。本当に破滅的な危険がテストされていることを確認してください。しかし、それから行ってください。
それを人々の手に置き、特に多分テスターの幅広い範囲をより多く持つべきです。これらのツールすべてのベータテスターとして登録しています。だから、あなたが知っているように、オプトインしている人々だけ、私たちにクレイジーなモデルを与え、それで遊ばせて、そして何がうまくいかないかを見てください。それは現時点で良いアイデアだと思います。
あなたはどう思いますか？同意しますか？完全に同意しませんか？私はあなたのものです。まあ、感情的幸福と、これらのボットがどのように私たちを操作できるかについてのMITとOpenAIの論文をチェックしてみてください。それが来ています。次ではないかもしれませんが、確かに次の数週間でこれをカバーしようとします。
見てくれてありがとう、また次回お会いしましょう。