🗄️

Data Curation

導入

•

"CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues"データセットのようなケースは、人工知能モデルの常識的思考と関連している。常識的思考の形成は人にとっては簡単だが、人工知能にはまだ期待するのは難しい。

•

また、常識的思考は事実的思考とは異なり、行間を読んで解釈する必要があるため、推論の領域に属している。

•

CICEROにはCICERO-v1とCICERO-v2がある。ここではv2のデータと論文を中心に扱う。

•

下の画像は、日常的に起こる様々なこと(人は常識的に知っていること)から、5つの状況(原因、後続事象、前提条件、内的動機、感情反応)を推論して文章を生成する課題である。

•

評価は、人工知能が人間と同じような推論能力を発揮できるかどうかに基づく。

CICEROデータセット

人工知能モデルの常識的思考に関する会話データ

宋永淑ソン・ヨンソク / ML Researcher

CICERO

Reasoning

Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies

strategyqa

eladsegal

データ概要

概要

多段階の推論質問応答（QA）ベンチマーク

•

暗黙的な質問である「アリストテレスはノートパソコンを使用したか」に答えるために、明示的な質問である「ノートパソコンが発明された時、アリストテレスは生きていたか」に変換する作業が必要ある。そのために、正解を導き出すプロセスを説明するデータの特性を持つ。

•

一、アリストテレスの生年月、二、ノートブックが発明された時期、三、2は1より前に起きたか？のように、正解を導き出すプロセスを明示的に説明するプロセスをデータに含める。

SuperNI × Clova X韓国語翻訳(1): StrategyQA

StrategyQA論文とデータセット紹介

宋永淑ソン・ヨンソク / ML Researcher, 朴宇明パク　ウミョン / CDO & Head of Research

StrategyQA

LLM

Embedding

(画像出典) Microsoft Designer - Stunning designs in a flash を使用して自動生成

今回のブログでは、韓国語データキュレーションについて説明します。データキュレーションは、データの構築と生成だけでなく、データの活用価値を高めるすべての活動を含みます。この記事で扱うすべてのデータは、外国人もダウンロードできるデータです。データについてのより詳しい説明は https://github.com/ko-nlp/Open-korean-corpora と https://corpus.korean.go.kr/main/requestMain.do에서 を参照してください。外国人の参加申請については、次の文書の内容を参照してください。

1. 韓国語コーパス構築の変化の様子

韓国語コーパスの構築(1)

韓国語コーパスの紹介

宋永淑ソン・ヨンソク/ ML Researcher

data

large language model

corpus

表データの役割

•

627MBのサイズを持つ表データを公開したGus Eggert(2023) は表を推論の"感覚器官"のような役割をするものとして説明している。

表データの歴史

(1) 特定ドメインに関連するデータが主に構築されたが、バスケットボールに関連するRotowire(Wiseman et al, 2017)データセット、生物学に関連するKBGen(Banik et al, 2013)、Wikibio(Lebret et al, 2016)データセット、レストラン予約などに関連するE2E(Novikova et al, 2016, 2017)などがその例である。(2) 表による文章生成に関しては、Puduppully,R.(2018), Ankur Parikh et al(2020), Jonathan et al(2020) などがある。この記事では、その中でもToTTo:A Controlled Table-To-Text Generation Dataset について説明する。

ToTTo で表ベースの文章生成データを作成するプロセス

表データベースの文章生成

表のデータ分析方法論の紹介

宋永淑ソン・ヨンソク / ML Researcher

Table

Generation