Paper Review
Search
この記事の前半ではSuper-NaturalInstructions(SuperNI)論文を概観した後、後半ではSuperNIに含まれるデータセットのうち、韓国語であったり、興味深いテーマを含んでいるデータセットを紹介します。

論文紹介
概要
•
SuperNIはAllen Institute for AI、University of Washington、Arizona State Universityをはじめとする合計21機関所属の研究者が参加し、1600余りのNLP instructionデータを作成し、公開したプロジェクトです。
◦
•
https://arxiv.org/abs/2104.08773で61個のタスクに関するデータを公開することからスタート。
[論文レビュー]Super-NaturalInstructions
Super-Natural Instructions(SuperNI)論文・データセットの紹介
朴宇明 / CDO & Head of Research, 宋永淑 / ML Researcher
Instruction
LLM
dataset
Super-NaturalInstructions
導入
•
LLMはzero/few-shot promptingだけでも多くのtaskで優れた性能を発揮するが、回答結果は入力されたpromptの内容によって大きく影響を受ける
•
しかし、taskに合わせて人が直接最適なpromptを作ることは非常に難しく、時間とコストがかかる作業であり、また、promptがどれだけうまく動作するかを事前に確認することは容易ではない
•
この記事では、上記の問題に対する解決策の一つとして、LLMを活用して最適なプロンプトを自動的に生成する最新の研究と関連するreferenceについて紹介する
•
レビューした論文
◦
Automatic Prompt Engineer (APE) : https://arxiv.org/abs/2211.01910 (by Univ. of Toronto, Vector Institute, Univ. of Waterloo)
◦
◦
◦

(画像出典) プレゼンテーションの「Designer」機能を使用して画像を自動生成します。
自動的に最適なPromptを生成する方法
最適なプロンプト方法論の紹介。
朴宇明 / CDO & Head of Research
Prompting
AutoPrompt
導入
•
LLMは単純なプロンプトだけで多くの課題で優れた能力を発揮するが、完璧ではない。
•
その中でも代表的な問題としては、事実でない内容を事実であるかのように生成するハルシネーション問題、そして社会的に問題の余地がある危険な発言を生成する問題などがある。
•
この記事では、biasが存在する、または問題となる内容をLLMが自ら判断し、抑制することに関する論文について紹介する。
•
参考までに、このようなLLMの「self-correction」あるいは「self-refinement」の問題についてもっと詳しく知りたい場合は、このsurvey論文(Pan et al. (2023)および関連referenceを参考
•
レビュー論文
◦
https://arxiv.org/abs/2309.07124 (北京大学、マイクロソフトリサーチ、シドニー大学、ウォータールー大学)

概要
•
LLMが生成した文章をユーザーが望むように'align'させるために、既存の多くの研究ではpreference datasetを構築し、reward modelを学習した後、このスコアに基づいてLLMをRL(e.g., PPO)でチューニングする方法を多く使用。
•
実際のOpenAIのモデル (InstructGPT、ChatGPT、GPT-4など) をはじめ、Google、Meta、Anthropicなどほぼ全てのところでこの方法でチューニングをしてLLMを開発した。
•
しかし、reward modelを学習するためのデータセット制作は非常に時間と費用がかかり、構築難易度が高く、開発が難しい。
•
ここでは、明示的な reward model なしで zero-shot/few-shot prompting を通じて効果的にharmlessnessを高める (つまり、有害なコンテンツ生成を抑制する) 結果を示している。
LLMは自ら回答の危険性を判断できるのか?
超巨大言語モデルの回答の危険性を判断するに関連する論文の紹介
朴宇明 / CDO & Head of Research
Prompting
Alignment
LLM
導入
•
チャットボット、要約、機械翻訳など多くの自然言語生成AIの開発において、正確な評価(evaluation)は非常に重要であるが、苦痛なプロセスである。
•
LLMはpromptingだけで様々な問題解決で良い性能を示しており、最近の論文ではGPT-4を通じてevaluationを自動的に行うなど、人の判断が必要な領域で活用する事例が徐々に増えている。
•
この記事では、LLMを活用して事実検証(fact verification)を行い、自ら誤った情報を修正して幻覚(hallucination)を抑制する内容の論文について紹介する。
•
レビュー論文
◦
https://arxiv.org/abs/2309.11495 (by Meta AI)

概要
プロンプティングで事実確認(Fact Verification)
超巨大言語モデルの発話が事実かどうかを確認する方法論に関連する論文の紹介
朴宇明 / CDO & Head of Research, 김덕현 / Head of Development
Prompting
Fact Verification
導入
•
Promptingは人間が大規模言語モデル(LLM)を制御し、コミュニケーションする手段である。
•
ユーザーは、欲しい結果を得るために、どうすればうまくPromptingを作成できるかという一般的な方法論に対するニーズは今後も増えると思われる。
•
最近、生成だけでなく、自然言語理解(文の分類、シーケンスラベル付け、質疑応答)課題でプロンプトチューニングがファインチューニングよりも性能が良くなったというレポート(Lifu Tu et al. (2022)やCOT(Jason Wei et al. (2022)などのプロンプト方法論、そしてマルチモーダルでの応用(Andy Zeng et al. (2022)などが発表され始めている。
•
この記事では、プロンプティングを通じてzero-shotのパフォーマンスを向上させる興味深い2つの論文を紹介する。

•
レビュー論文
概要
•
COSP : Consistency-based Self-adaptive Prompting
•
USP : Universal Self-adaptive Prompting
•
Unlabeled dataとblack-box LLMを通じてzero-shot in-context learning(ICL)の性能を向上させることを目的とした異なる2つの方法論
効果的なプロンプティング(Prompting)方法論の紹介
効果的なプロンプティング(Prompting)方法論の紹介
朴宇明 / CDO & Head of Research
Prompting
Tuning







