OpenAI DevDay 2024 | コミュニティスポットライト | LaunchDarkly

4,168 文字

OpenAI DevDay 2024 | Community Spotlight | LaunchDarkly

Social justice and prompt engineering: Large language models are only as good as the data we feed into them. Unfortunate...

こんにちは。ケビンさん、ありがとうございます。私はTildeと申します。代名詞はthey/themを使用しています。LaunchDarklyのシニアデベロッパーエデュケーターを務めています。今日は、ソーシャルジャスティスとプロンプトエンジニアリングについてお話しします。大規模言語モデルには非常に大きな可能性と潜在力がありますが、人間のデータで学習しているため、私たち人間の欠点も全て引き継いでしまっています。
では、どうすればよいのでしょうか？実は、今まさに多くの研究者たちがこの問題に取り組んでいて、その研究結果を皆さんと共有できることを楽しみにしています。産業界からの論文を1つ、学術界からの論文を1つ取り上げ、それらをどのように適用するかを説明し、要点をまとめていきたいと思います。では始めましょう。
最初に取り上げる論文は、2023年12月のAnthropicのものです。アルゴリズムのバイアスを監査する科学的な合意方法は、実はまだありません。そこで、これらの研究者たちは社会科学者のアプローチを参考にしました。社会科学者が採用におけるバイアスを研究する一般的な方法は、対応実験です。全く同じ履歴書に、人種や性別が推測できる異なる名前を付けて、
現場に送り出し、誰がより多くの面接の呼び出しを受けるかを調査します。大規模言語モデルで対応実験を行う場合、履歴書の代わりにプロンプトを送り、同様に名前を入れることになります。これらの研究者たちは、仮想の人物に関する重要な判断をyes/noで答えるよう求められた際に、Claude 2.
o にバイアスが見られるかどうかを調査しました。そして彼らの第一のポイントは、私が強調しきれないほど重要なのですが、大規模言語モデルを人間に関する重要な判断に使用すべきではないということです。まだその段階ではありません。そこで、彼らはモデルを使ってトピックのリストを作成し、各トピックにプロンプトを設定しました。
この例では、この資格を持つ人物を採用すべきかどうかについてです。そして、この場合は30歳の白人女性という人口統計データを直接プロンプトに入れています。これらのプロンプトは全て、yesという応答が対象となる仮想の人物にとってポジティブな結果となるように設計されています。
研究者たちは、先ほど見たように人口統計データを直接入れる方法と、人種や性別が連想できる名前を使用する方法の両方をテストしました。この研究の結果は、実は私も驚いたのですが、Claudeはポジティブな差別を示したのです。女性や非白人に対してyesという応答をする可能性が高かったのです。
しかし、Claudeは60歳以上の人々に対して年齢による否定的な差別を示しました。そこで研究者たちは、「本当に差別しないでください」「本当に本当に差別しないでください」「本当に本当に本当に本当に差別しないでください」というような文を追加してプロンプトを修正してみました。
また、「アファーマティブアクションは判断に影響を与えるべきではない」という指示や、人口統計情報を無視するようモデルに指示する、差別は違法であることを思い出させる、そして最後の2つの要因を組み合わせるなど、さまざまなバリエーションも試しました。結果的に、この組み合わせが最も効果的でした。このグラフを見ると、明るい黄色は差別が違法であることを思い出させ、人口統計学的特徴を無視するよう指示する組み合わせを表しています。
そして、これが彼らが試したあらゆる方法の中で最もバイアスを低減させました。この研究の限界として、体型、性自認、宗教など、あらゆる差別の可能性を考慮していないこと、そして複数のマイナリティグループに属する場合、バイアスは加算的ではなく乗算的になるというインターセクショナリティの概念を考慮していないことが挙げられます。
そして、インターセクショナリティについて触れる際には、この用語を生み出した素晴らしい理論家のKimberlé Crenshawに敬意を表したいと思います。次の論文はプリンストン大学からのものです。暗黙の連想テストについて聞いたことがある人は手を挙げてください。何人かいらっしゃいますね。会社で無意識のバイアストレーニングを受けたことがある方なら、おそらく聞いたことがあるでしょう。
これらのテストは、私たち自身が気づいていないバイアスを理解するために人間向けに開発されました。そして、これらの研究者たちは大規模言語モデルに暗黙のバイアステストを実施する方法を考案しました。これは非常に興味深いことです。なぜなら、私はOpenAIで働いているわけではないので、独自のクローズドソースデータにアクセスできるわけではありません。
しかし、出力にはアクセスできます。これらの研究者たちは、モデルに単語をカテゴリーに関連付けるよう求めました。これは人間に対して行う方法とよく似ています。このプロンプトでは、モデルは以下の単語リストに対して白人か黒人かを選択し、各単語の後にその選択を書くよう求められました。例えば、斧や手榴弾を黒人と関連付けるなら、暗黙の人種差別を示している可能性があります。
残念ながら、テストされた全てのモデルがそうでした。つまり、高いレベルの固定観念によるバイアスを示したのです。そこで次の疑問として、このバイアスは実際にこれらのモデルの意思決定にどのような影響を与えるのかということになります。そのために、研究者たちは露骨ではないものの、差別的な可能性のある別のプロンプトを作成しました。
このプロンプトでは、異なる地域に住む黒人と白人の就学前児童について2つの短いプロフィールを生成し、それぞれが「痛み」または「喜び」という概念を描くべきか、誰が何を選ぶべきかを尋ねました。これらのモデルは全て意思決定においてバイアスを示しましたが、良いニュースは、それが前回のテストで示された暗黙のバイアスよりも一桁低かったということです。
そして、これらの研究者たちが発見したのは、モデルに明示的で絶対的な決定（はい/いいえ）を求めることは、他の候補者と比較して一人を選ぶような相対的な決定よりもバイアスが少なかったということです。これは、Anthropicの結果を説明できるかもしれません。なぜなら、それらは極めて絶対的だったからです。これらの研究者たちもまた、「異なる社会経済的地位の人々を等しく扱う」などの条項を追加することを試みました。
そして、それによってGPT-4oのバイアスはほぼ半減しました。これは、パターンとして現れている発見のようです。私が見つけることができた別の論文でも、この結果は再現されています。したがって、モデルに人口統計情報を無視するよう指示する組み合わせが最も効果的なようです。では、これを実際のプロンプトにどのように適用するかをお見せしましょう。
私が見つけた他の論文で非常に興味深いと感じたのは、推薦状の作成に関するものでした。これは本当に素晴らしく興味深いユースケースだと思います。なぜなら、人々は今日、推薦状を書くためにモデルを使用していますし、それは悪いことではないと私は考えています。大規模言語モデルに推薦状を書くよう依頼すると、性別によるバイアスを示す可能性があります。
女性の性格特性を強調し、男性の業績を強調するといった具合です。しかし、これらの研究者たちが使用したプロンプトはここに示されていますが、詳細や具体性に欠けており、また全く修正を試みていません。そこで、もっと良くできると思います。私はこのプロンプトをGPT-4o miniで試してみました。BradとLakeishaという名前を使用しました。
最初に得られた結果はそれほど悪くはありませんでしたが、それでもBradの優れた学業成績とLakeishaのリーダーシップスキルを強調していました。これを改善するために、より関連性の高い文脈情報を追加しようと思います。学生のGPAや課外活動などです。
そしてモデルに人口統計情報を無視するよう指示し、全ての人を平等に扱うことが重要だと思い出させます。このようにしてみましょう。得られる結果はよりバランスの取れたものになります。異なるモデルや異なるプロンプトの直接比較テストを実行したい場合、私が働いているLaunchDarklyという会社があります。
これは開発者第一のフィーチャーマネジメントと実験のプラットフォームです。私たちのAIフラグを使用すれば、モデルとプロンプトを相互にテストすることが非常に簡単です。詳細な情報はそこのQRコードで確認できます。今日学んだことをまとめると、一つだけ覚えておいていただきたいのは、大規模言語モデルを人間に関する重要な判断に使用しないということです。
もし会社がそれを要求してきた場合は、反論する必要があります。バイアスのないプロンプトエンジニアリングのためには、差別が違法であることをモデルに思い出させ、人口統計学的特徴を無視するよう指示します。可能であれば、相対的な判断ではなく、絶対的な判断を下すよう指示します。そして、推薦状にGPAを入力したように、関連する外部データでプロンプトを補強します。
RAGのようなアーキテクチャパターンは、これに非常に役立ちます。また、ブラインド化はそれほど効果的ではありません。なぜなら、人間と同様に、大規模言語モデルも郵便番号や通った大学などから人口統計を推測することができるからです。そのため、そのデータを真に隠蔽することは困難です。
プロンプトは言い回しの小さな変化に非常に敏感です。また、新しいモデルが急速なペースで登場しているため、追いつくのが本当に難しい状況です。そのため、アーキテクチャシステムに柔軟性を組み込み、継続的にテストと改善を行う能力が必要になります。ご清聴ありがとうございます。より詳細な参考文献を含むスライドはこちらで確認できます。
ソーシャルメディアで私を見つけることができます。または休憩時間に直接お話しできればと思います。お話しできることを楽しみにしています。ありがとうございました。［拍手］