🧭

[論文レビュー]Super-NaturalInstructions

Author

朴宇明 / CDO & Head of Research, 宋永淑 / ML Researcher

Caregory

Paper Review

論文紹介

概要

•

SuperNIはAllen Institute for AI、University of Washington、Arizona State Universityをはじめとする合計21機関所属の研究者が参加し、1600余りのNLP instructionデータを作成し、公開したプロジェクトです。

◦

github : https://github.com/allenai/natural-instructions

◦

関連論文 : https://arxiv.org/abs/2204.07705

•

https://arxiv.org/abs/2104.08773で61個のタスクに関するデータを公開することからスタート。

•

合計88人のコントリビューターが既存の公開されたNLPデータを活用し、クラウドソーシングするなどの方法で作業

•

Tk-Instruct（英語）及びmTk-Instruct（多言語）モデル開発

◦

それぞれT5とmT5モデルをSuperNIデータでfine-tuning

◦

119種類の英語タスクでInstructGPT比ROUGE-Lスコア基準9.9点向上

◦

35種類の英語以外の言語タスクでInstructGPT比13.3点向上

方法論の詳細

•

データ構造

◦

Definition : タスク遂行のためのinstruction

◦

Positive examples : input / correct output / 関連する説明で構成

◦

Negative examples : input / incorrect output / 関連する説明で構成

◦

Evaluation instances : Tk-Instruct及びmTk-Instructモデルの学習には使わず、 evaluationのみに使用するテストデータ. タスク別バランスを合わせるため、最大6500個に制限

•

SuperNIデータセットの簡単な統計分析

•

SuperNIに含まれるTaskの種類と他のinstructionデータセットとの比較

結果

•

全体の結果サマリー

◦

英語：発表当時基準InstructGPT対ROUGE-Lスコア基準で9.9点高い(52.1 vs 66.0)

◦

多言語：発表当時基準InstructGPT対ROUGE-Lスコア基準で13.3点高い(52.8 vs 66.1)

•

タスクのタイプ別性能比較

◦

すべてのタイプでInstructGPTより優れており、一部のタイプではsupervised SOTA性能とほぼ同程度

主要データの紹介

データに最も多く含まれたカテゴリ

•

上位カテゴリーを見ると、上記の論文レビューから分かるように翻訳に該当する課題が最も多く、翻訳以外にも質疑応答、プログラム実行("Generating text that follows simple logical operations such as "repeat", "before", "after" etc."などの課題)、質問文の自動生成、感情分析、カテゴリー分析、文の類似性評価、敏感なテーマ検出、因果関係分類、情報抽出などが多い

•

ソースデータとして最も多く使用されたデータを見ると、次の表で確認できるようにウィキペディアであることが分かる

•

そのほか、ニュースやウィキペディアとニュースを一緒に使うことが多く、数式、会話、一般常識、SNSデータなどが多く使われている

使用言語

言語	データ量	言語	データ量	言語	データ量
English	1243	Urdu	10	Assamese	1
Spanish	27	Galician	9	Burmese	1
Japanese	25	Hebrew	9	Czech	1
Persian	24	Catalan	7	Dutch	1
Hindi	20	Korean	7	Greek	1
Chinese	15	Dutch, English	4	Igbo	1
Gujarati	15	Bulgarian	3	Kannada	1
Telugu	14	Croatian	3	Kurdish	1
Arabic	12	Swedish	3	Lithuanian	1
Bengali	12	Turkish	3	Malay	1
French	12	Central Khmer	2	Nepali	1
Marathi	12	Filipino	2	Norwegian	1
Italian	11	Finnish	2	Romanian	1
Malayalam	11	Indonesian	2	Sinhala	1
Oriya	11	Lao	2	Slovak	1
Panjabi	11	Russian	2	Somali	1
Polish	11	Thai	2	Tagalog	1
Portuguese	11	Vietnamese	2	Xhosa	1
Tamil	11	Yoruba	2	Zhuang	1
German	10			合計	1613

•

英語のデータが最も多く、出力形式が韓国語のデータセットは全部で7個

•

出力だけが韓国語であるデータはすべて翻訳されたデータであり、入出力ともに韓国語であるデータはPawsx(https://github.com/google-research-datasets/paws/tree/master/pawsx) 1つだけである。 Pawsxデータセットは、フランス語、スペイン語、ドイツ語、中国語、日本語、韓国語などタイプが区別される6つの言語を人間が翻訳したPAWS評価ペア23,659個と機械翻訳されたトレーニングペア296,406個が含まれている。翻訳はPAWS-Wikiで確認可能。

Name	Summary	Category	Domain	Input Language	Output Language
task771_pawsx_korean_text_modification	Given a sentence in Korean, provide an equivalent paraphrase in said language	Paraphrasing	Wikipedia	Korean	Korean
task777_pawsx_english_korean_translation	Given a sentence in English, provide an equivalent translation to Korean	Translation	Wikipedia	English	Korean
task790_pawsx_french_korean_translation	Given a sentence in French, provide an equivalent translation to Korean	Translation	Wikipedia	French	Korean
task796_pawsx_spanish_korean_translation	Given a sentence in Spanish, provide an equivalent translation to Korean	Translation	Wikipedia	Spanish	Korean
task802_pawsx_german_korean_translation	Given a sentence in German, provide an equivalent translation to Korean	Translation	Wikipedia	German	Korean
task808_pawsx_chinese_korean_translation	Given a sentence in Chinese, provide an equivalent translation to Korean	Translation	Wikipedia	Chinese	Korean
task814_pawsx_japanese_korean_translation	Given a sentence in Japanese, provide an equivalent translation to Korean	Translation	Wikipedia	Japanese	Korean

•

具体的な例は以下の通りで、ラベル0と1は文の関係が同じ(1で表示)と異なる(0で表示)を意味します。

id	sentence1	sentence2	label
10	2005년과 2009년 사이 그가 스웨덴 Carlstad United BK, 세르비아 FK Borac Čačak, 러시아 FC Terek Grozny에서 뛰었던 것은 제외됩니다.	2005년 후반에서 2009년 사이 그가 스웨덴 Carlstad United BK, 세르비아 FK Borac Čačak, 러시아 FC Terek Grozny에서 뛰었던 기간은 제외입니다.	1
12	타바시 강은 루마니아 류드라 강의 지류이다.	Leurda강은 루마니아에 있는 Tabaci강의 지류입니다.	0-

•

特徴的なのは、固有表現に該当する人名や会社名などはすべて翻訳せずにそのままにしていること。また、ソースデータとして全てWikipediaを使用した特徴がある。

参考

• Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Atharva Naik, Arjun Ashok, Arut Selvan Dhanasekaran, Anjana Arunkumar, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Kuntal Kumar Pal, et al.. 2022. Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 5085–5109, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics.

•

関連GitHubリンク

natural-instructions

allenai

•

 Yinfei Yang, Yuan Zhang, Chris Tar, and Jason Baldridge. 2019. PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3687–3692, Hong Kong, China. Association for Computational Linguistics.

•

データ分析に使用したソースデータ

github.com

https://github.com/allenai/natural-instructions/tree/master/tasks

•

ソースデータ整理