Share
🗄️
Data Curation
Data Curation
Search
Articles_Ja
CICEROデータセット
人工知能モデルの常識的思考に関する会話データ
宋永淑 ソン・ヨンソク / ML Researcher
CICERO
Reasoning
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies
strategyqa
eladsegal
データ概要
概要
多段階の推論質問応答(QA)ベンチマーク
•
暗黙的な質問である「アリストテレスはノートパソコンを使用したか」に答えるために、明示的な質問である「ノートパソコンが発明された時、アリストテレスは生きていたか」に変換する作業が必要ある。そのために、正解を導き出すプロセスを説明するデータの特性を持つ。
•
一、アリストテレスの生年月、二、ノートブックが発明された時期、三、2は1より前に起きたか?のように、正解を導き出すプロセスを明示的に説明するプロセスをデータに含める。
•
上記の質問のような戦略的な質問にはどのようなものがあるかを確認し、マルチホップで分解してデータを構築する。
•
QAデータセットとはいえ、答えは「Yes/No」の選択文に過ぎないため、従来の質疑応答データセットとは区別される。
注釈者バイアスを防ぐためにベンチマークデータの難易度を調整する努力
生成モデルの場合、注釈者バイアスを克服することがデータの難易度を決定する一つの原因になるが、この論文では次のようにデータ収集のパイプラインを構成して注釈者バイアスを克服する。
SuperNI × Clova X韓国語翻訳(1): StrategyQA
StrategyQA論文とデータセット紹介
宋永淑 ソン・ヨンソク / ML Researcher, 朴宇明 パク ウミョン / CDO & Head of Research
StrategyQA
LLM
Embedding
韓国語コーパスの構築(1)
韓国語コーパスの紹介
宋永淑 ソン・ヨンソク/ ML Researcher
data
large language model
corpus
表データベースの文章生成
表のデータ分析方法論の紹介
宋永淑 ソン・ヨンソク / ML Researcher
Table
Generation
Featured
Paper Review
Data Curation
Hands-on
Development Glossary
Company