home
🧭

[論文レビュー]Super-NaturalInstructions

Author
朴宇明 / CDO & Head of Research, 宋永淑 / ML Researcher
Caregory
Paper Review
Tags
Instruction
LLM
dataset
Super-NaturalInstructions
Published
2023/12/08
Category
5 more properties
この記事の前半ではSuper-NaturalInstructions(SuperNI)論文を概観した後、後半ではSuperNIに含まれるデータセットのうち、韓国語であったり、興味深いテーマを含んでいるデータセットを紹介します。

論文紹介

概要

SuperNIはAllen Institute for AI、University of Washington、Arizona State Universityをはじめとする合計21機関所属の研究者が参加し、1600余りのNLP instructionデータを作成し、公開したプロジェクトです。
https://arxiv.org/abs/2104.08773で61個のタスクに関するデータを公開することからスタート。
合計88人のコントリビューターが既存の公開されたNLPデータを活用し、クラウドソーシングするなどの方法で作業
Tk-Instruct(英語)及びmTk-Instruct(多言語)モデル開発
それぞれT5とmT5モデルをSuperNIデータでfine-tuning
119種類の英語タスクでInstructGPT比ROUGE-Lスコア基準9.9点向上
35種類の英語以外の言語タスクでInstructGPT比13.3点向上

方法論の詳細

データ構造
Definition : タスク遂行のためのinstruction
Positive examples : input / correct output / 関連する説明で構成
Negative examples : input / incorrect output / 関連する説明で構成
Evaluation instances : Tk-Instruct及びmTk-Instructモデルの学習には使わず、 evaluationのみに使用するテストデータ. タスク別バランスを合わせるため、最大6500個に制限
SuperNIデータセットの簡単な統計分析
SuperNIに含まれるTaskの種類と他のinstructionデータセットとの比較

結果

全体の結果サマリー
英語:発表当時基準InstructGPT対ROUGE-Lスコア基準で9.9点高い(52.1 vs 66.0)
多言語:発表当時基準InstructGPT対ROUGE-Lスコア基準で13.3点高い(52.8 vs 66.1)
タスクのタイプ別性能比較
すべてのタイプでInstructGPTより優れており、一部のタイプではsupervised SOTA性能とほぼ同程度

主要データの紹介

データに最も多く含まれたカテゴリ

上位カテゴリーを見ると、上記の論文レビューから分かるように翻訳に該当する課題が最も多く、翻訳以外にも質疑応答、プログラム実行("Generating text that follows simple logical operations such as "repeat", "before", "after" etc."などの課題)、質問文の自動生成、感情分析、カテゴリー分析、文の類似性評価、敏感なテーマ検出、因果関係分類、情報抽出などが多い
ソースデータとして最も多く使用されたデータを見ると、次の表で確認できるようにウィキペディアであることが分かる
そのほか、ニュースやウィキペディアとニュースを一緒に使うことが多く、数式、会話、一般常識、SNSデータなどが多く使われている

使用言語

言語
データ量
言語
データ量
言語
データ量
English
1243
Urdu
10
Assamese
1
Spanish
27
Galician
9
Burmese
1
Japanese
25
Hebrew
9
Czech
1
Persian
24
Catalan
7
Dutch
1
Hindi
20
Korean
7
Greek
1
Chinese
15
Dutch, English
4
Igbo
1
Gujarati
15
Bulgarian
3
Kannada
1
Telugu
14
Croatian
3
Kurdish
1
Arabic
12
Swedish
3
Lithuanian
1
Bengali
12
Turkish
3
Malay
1
French
12
Central Khmer
2
Nepali
1
Marathi
12
Filipino
2
Norwegian
1
Italian
11
Finnish
2
Romanian
1
Malayalam
11
Indonesian
2
Sinhala
1
Oriya
11
Lao
2
Slovak
1
Panjabi
11
Russian
2
Somali
1
Polish
11
Thai
2
Tagalog
1
Portuguese
11
Vietnamese
2
Xhosa
1
Tamil
11
Yoruba
2
Zhuang
1
German
10
合計
1613
英語のデータが最も多く、出力形式が韓国語のデータセットは全部で7個
出力だけが韓国語であるデータはすべて翻訳されたデータであり、入出力ともに韓国語であるデータはPawsx(https://github.com/google-research-datasets/paws/tree/master/pawsx) 1つだけである。 Pawsxデータセットは、フランス語、スペイン語、ドイツ語、中国語、日本語、韓国語などタイプが区別される6つの言語を人間が翻訳したPAWS評価ペア23,659個と機械翻訳されたトレーニングペア296,406個が含まれている。翻訳はPAWS-Wikiで確認可能。
Name
Summary
Category
Domain
Input Language
Output Language
task771_pawsx_korean_text_modification
Given a sentence in Korean, provide an equivalent paraphrase in said language
Paraphrasing
Wikipedia
Korean
Korean
task777_pawsx_english_korean_translation
Given a sentence in English, provide an equivalent translation to Korean
Translation
Wikipedia
English
Korean
task790_pawsx_french_korean_translation
Given a sentence in French, provide an equivalent translation to Korean
Translation
Wikipedia
French
Korean
task796_pawsx_spanish_korean_translation
Given a sentence in Spanish, provide an equivalent translation to Korean
Translation
Wikipedia
Spanish
Korean
task802_pawsx_german_korean_translation
Given a sentence in German, provide an equivalent translation to Korean
Translation
Wikipedia
German
Korean
task808_pawsx_chinese_korean_translation
Given a sentence in Chinese, provide an equivalent translation to Korean
Translation
Wikipedia
Chinese
Korean
task814_pawsx_japanese_korean_translation
Given a sentence in Japanese, provide an equivalent translation to Korean
Translation
Wikipedia
Japanese
Korean
具体的な例は以下の通りで、ラベル0と1は文の関係が同じ(1で表示)と異なる(0で表示)を意味します。
id
sentence1
sentence2
label
10
2005년과 2009년 사이 그가 스웨덴 Carlstad United BK, 세르비아 FK Borac Čačak, 러시아 FC Terek Grozny에서 뛰었던 것은 제외됩니다.
2005년 후반에서 2009년 사이 그가 스웨덴 Carlstad United BK, 세르비아 FK Borac Čačak, 러시아 FC Terek Grozny에서 뛰었던 기간은 제외입니다.
1
12
타바시 강은 루마니아 류드라 강의 지류이다.
Leurda강은 루마니아에 있는 Tabaci강의 지류입니다.
0-
特徴的なのは、固有表現に該当する人名や会社名などはすべて翻訳せずにそのままにしていること。また、ソースデータとして全てWikipediaを使用した特徴がある。

参考

• Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Atharva Naik, Arjun Ashok, Arut Selvan Dhanasekaran, Anjana Arunkumar, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Kuntal Kumar Pal, et al.. 2022. Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 5085–5109, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics.
関連GitHubリンク
natural-instructions
allenai
Yinfei Yang, Yuan Zhang, Chris Tar, and Jason Baldridge. 2019. PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3687–3692, Hong Kong, China. Association for Computational Linguistics.
データ分析に使用したソースデータ
ソースデータ整理