🤗

MLの概念を探る：ハードネガティブ問題

Author

宋永淑 / ML Researcher

Caregory

Paper Review

ハードネガティブ(hard negative)

•

対照学習で使用される方法論で、埋め込み空間で質問に該当するクエリと正解文の間の距離は近く、ハードネガティブな文とは遠ざけることがハードネガティブ問題解決の鍵となる

•

結局、最適な分類境界線を見つけようとする取り組みの一つである

•

通常の検索ではキーワードベースの質問を多くするのに対し、自然言語の質問に該当する内容を質問またはクエリとして構築している。

1.一般的な方法論

•

Anchor : 学習対象データ、Positive : 増強データ、Negative : 残りのデータで処理

•

In-Batch sampling : 現在の質問のネガティブとして、バッチ内にある他の質問の正解を再利用する方法

•

Dense Retrievalのような検索器を使用して上位k個の候補文書を抽出し、正解文書として添付された文書を除いた候補文書をネガティブとして使用

•

ハードネガティブサンプリング：正解文書ではないが、正解と類似した情報を持つネガティブを事前に構築して学習に使用

2. ハードネガティブの選別

(1) Training State-of-the-Art Sentence Embedding Models - YouTube

https://github.com/huggingface/blog/blob/main/1b-sentence-embeddings.md

https://www.sbert.net/docs/package_reference/losses.html#multiplenegativesrankingloss

•

n은 p와 비슷하지만  a와는 매치되지 않을 때 좋은 예시가 됨, 즉 질문에 대한 정답과 유사하지만 답을 유추하기 어려운 답들이 하드 네거티브로 취급된다.

•

a 는 질문 또는 Query 에 해당 p와 n은 응답 또는 검색 결과에 해당함

•

nはpと似ているがaとはマッチしないときに良い例になる、つまり、質問の正解と似ているが答えを推測するのが難しい答えがハードネガティブとして扱われる。

•

a は質問または Query に対応し、p と n は回答または検索結果に対応します。

3. 시도해 볼만한 방법

•

검색 결과의 정확도를 향상시키기 위해, 불필요한 검색 결과를 최소화하는 방법을 고민해야 함

◦

주요 키워드와 불필요한 키워드를 구분할 필요성이 있음

◦

검색 쿼리에서 제외할 키워드 목록 작성 및 필터링 알고리즘 개발

◦

사용자가 가장 중요하게 생각하는 키워드에 가중치를 부여하여 결과 순위 조정

◦

Junlei Zhang et al.(2023)에서 제안한 것과 같이 생성 모델을 통해 데이터를 증강하는 것도 고려해 볼만 함

3.試してみるべき方法。

•

検索結果の精度を向上させるために、不要な検索結果を最小化する方法を考える必要がある。

◦

主要キーワードと不要なキーワードを区別する必要がある。

◦

検索クエリから除外するキーワードリストの作成とフィルタリングアルゴリズムの開発

◦

ユーザーが最も重要視するキーワードに重み付けを行い、結果順位調整

◦

Junlei Zhang et al.(2023)が提案したように、生成モデルを通じてデータを増強することも検討に値する

4. 관련 연구.関連研究

•

L. Xiong, C. Xiong, Y. Li, K.-F. Tang, J. Liu, P. N. Bennett, J. Ahmed, and A. Overwijk, “Approximate nearest neighbor negative contrastive learning for dense text retrieval,” International Conference on Learning Representations, 2020

◦

In batch negative의 한계점을 극복하고자 ANN(Approximate nearest neighbor) 방법 사용

◦

Cross Encoder의입력구조는 {[CLS], Query, [SEP], Title Candidate Passage, [SEP]}로, 질문과 후보 문서의 유사도가 0.9보다 높으면 False Negative로 간주

◦

In batch negativeの限界点を克服するために**ANN(Approximate nearest neighbor)**メソッドを使用

▪

Cross Encoderの入力構造は {[CLS], Query, [SEP], Title Candidate Passage, [SEP]} で、質問と候補文書の類似度が0.9より高い場合、False Negativeとみなします。

•

J. Zhan, J. Mao, Y. Liu, J. Guo, M. Zhang, and S. Ma,“Optimizing dense retrieval model training with hard negatives,” Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 1503–1512, 2021.

◦

훈련 방법으로 Stable Training Algorithm for dense Retrieval (STAR)와 query-side training Algorithm for Directly Optimizing Ranking pErformance (ADORE) 제안

◦

두 훈련 방법 중 전자는 훈련 과정의 안정성 향상에 관여하고 후자는 샘플링 방법으로 작용

◦

トレーニング方法としてStable Training Algorithm for dense Retrieval (STAR) と query-side training Algorithm for Directly Optimizing Ranking pErformance (ADORE) を提案。

▪

2つのトレーニング方法のうち、前者はトレーニングプロセスの安定性向上に関与し、後者はサンプリング方法として機能します。

•

Y. Qu, Y. Ding, J. Liu, K. Liu, R. Ren, W. X. Zhao,D. Dong, H. Wu, and H. Wang, “Rocketqa: An optimized training approach to dense passage retrieval for open-domain question answering,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 5835–5847, 2021 (RocketQA)

◦

오픈 도메인의 데이터에 적용했다는 특징이 있음

◦

Dense passage retrieval사용

◦

Negative sample을 늘리거나 hard negatives를 denoised 하는 방법 외에도 augmentation 방법을 제안

◦

ERNIE-large를 사용하여 분류

◦

オープンドメインのデータに適用したという特徴がある。

▪

Dense passage retrievalを使用

▪

Negative sampleを増やしたり、hard negativesをdenoisedする方法のほか、augmentation方法を提案。

▪

ERNIE-largeを使用して分類

•

Y. Cai, J. Guo, Y. Fan, Q. Ai, R. Zhang, and X. Cheng, “Hard negatives or false negatives: Correcting pooling bias in training neural ranking models,” Proceedings of the 31st ACM International Conference on Information & Knowledge Management, pp. 118–127, 2022.

◦

검색에 필요한 문서 중에서 검수자로 하여금  질문에 적합한 상위 k개의 문서에 라벨을 부착하게 함 

◦

検索に必要な文書のうち、検査者に質問に適した上位k個の文書にラベルを付けさせる。

•

K. Zhou, Y. Gong, X. Liu, W. X. Zhao, Y. Shen, A. Dong, J. Lu, R. Majumder, J.-R. Wen, and N. Duan, “Simans: Simple ambiguous negatives sampling for dense text retrieval,” Proceedings of the 2022 Conference on Empirical Methods in Natural Language Pro-
cessing: Industry Track, pp. 548–559, 2022.

◦

Ambiguous Negative 추출 방법 제안

•

Junlei Zhang, Zhenzhong Lan, Junxian He, Contrastive Learning of Sentence Embeddings from Scratch, 2023, arXiv:2305.15077

◦

대규모 언어 모델을 활용하여 합성된 데이터로 문장 임베딩을 학습하는 대조 학습 프레임워크 제안

◦

SynCSE-partial, SynCSE-scratch 의 두 가지로 데이터 구축

◦

SynCSE-partial은 긍정 및 부정의 주석을 생성, SynCSE-scratch는 주석과 함께 문장도 생성

◦

大規模言語モデルを活用して合成データで文の埋め込みを学習する対照学習フレームワークを提案する。

▪

SyncSE-partial、SyncSE-scratchの2つでデータ構築

▪

SyncSE-partialは肯定と否定の注釈を生成、SyncSE-scratchは注釈と一緒に文章も生成