home
👥

AIの有害な出力を減らすためのレッド チーミング言語モデル(Red Teaming Language Models to reduce harms)

Author
宋永淑 ソン・ヨンソク/ ML Researcher
Caregory
Paper Review
Tags
harm
Generation
Published
2024/02/05
Category
5 more properties

概要

不快な言語表現だけでなく、微妙に有害な非暴力的、非倫理的な出力まで検証できるデータセットを制作及び公開。
有害な出力を削減するための攻撃データセットの構築。
拒否(Reject)する会話タイプが含まれている。
詳細なデータ構築方法論(instruction、生成手順など)を公開。
3つのサイズ(パラメータ2.7B、13B、52B)のモデルと合計4つのモデルタイプについて、scaling behaviorを調べて検証を行う。
基本モデル (plain LM)
Rejection sampling(RS) 適用モデル(LM with RS; RSはモデルが合計16個の答えを生成させた後、別のLMがこの答えに対する有害度を判断させ、最も危険度の低い2つの答えを出力する方式)。
プロンプトを出したモデル (LM prompted to be helpful, honest, and harmless)
人のフィードバックを活用して強化学習したモデル(RLHF)
RLHFモデルはサイズが大きくなるにつれて徐々に防御が良くなる一方、他のモデルタイプはサイズによって比較的ほぼ同じようなレベルを示した。
<画像> 明るいほど攻撃が成功したという意味で解釈される

データセットを制作

方法

作業者のストレスを軽減するための設計: (1) 業界の専門家とのインタビューの実施。 (2) 機密性の高いコンテンツにさらされる可能性があるという警告を明示する。 (3) 作業者に自分が許容できる範囲のトピックを選択するように促す。
アンケートと非公式のフィードバックを通じてストレスの程度を測定することで、作業者たちが深刻な程度のネガティブな感情を抱くことなく、作業を楽しんでいることを確認した。
課題の進行プロセス : 作業者に課題の同意を行う → 作業者とAI能アシスタントとオープン型・マルチターン対話の進行
作業者に2つの可能な応答を提示し、より有害な応答を選択させる。
ほとんどの会話が1-4ターン程度に進行する。各会話が終了した後、作業者はどの程度にAIアシスタントが不快または有害な発言をするように誘導したかを0(攻撃失敗)-4(攻撃成功)で評価するようにする。
人間とAIアシスタントの会話シナリオでAIを攻撃することに成功したら4点、失敗したら0。

データセットの意義

応答を2つの方向に提示したため、システムの脆弱性を2倍早く見つけられる。
好みのモデルを使用して安全な介入を構築させる。
有害という複雑で主観的な概念を定義する代わりに、対話のペアごとに好みを選択することでAIが自ら決定するようにする。

議論事項

初期の非倫理的な研究や不適切な会話に関する研究とデータは、コメントなどで悪口や明示的に他人を攻撃する有害な表現の検索が主な目的であった。
最近の研究では、非倫理的な表現はないが、AIに質問したときに適切な答えが得られない非倫理的な質問かどうかに議論の焦点をおく傾向である。
このとき、AIの回答が不快に感じられるように出力されることも包括して不適切な発話データとして捉えながら、論文やデータが構築されている傾向がある。
現在は「注意が必要である」のような警告的な文言を追求しているが、さらなる議論が必要である。
この点に関して、この論文の中で「最終的にデータセットを公開することは、潜在的な損害よりも研究コミュニティに多くの利益をもたらすだろうと考えたが、この決定は真空の中で行われた」という言葉に注目すべきである。

レビュー論文の出典

@unknown{unknown, author = {Ganguli, Deep and Lovitt, Liane and Kernion, Jackson and Askell, Amanda and Bai, Yuntao and Kadavath, Saurav and Mann, Ben and Perez, Ethan and Schiefer, Nicholas and Ndousse, Kamal and Jones, Andy and Bowman, Sam and Chen, Anna and Conerly, Tom and DasSarma, Nova and Drain, Dawn and Elhage, Nelson and El-Showk, Sheer and Fort, Stanislav and Clark, Jack}, year = {2022}, month = {08}, pages = {}, title = {Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned}, doi = {10.48550/arXiv.2209.07858} }
Plain Text
복사

関連 GitHub

hh-rlhf
anthropics

上記のGitHubテストデータの韓国語翻訳