Tech Blogs ( 日本語)

"CICERO: A Dataset for Contextualized Commonsense Inference in Dialogues"データセットのようなケースは、人工知能モデルの常識的思考と関連している。常識的思考の形成は人にとっては簡単だが、人工知能にはまだ期待するのは難しい。

また、常識的思考は事実的思考とは異なり、行間を読んで解釈する必要があるため、推論の領域に属している。

CICEROにはCICERO-v1とCICERO-v2がある。ここではv2のデータと論文を中心に扱う。

下の画像は、日常的に起こる様々なこと(人は常識的に知っていること)から、5つの状況(原因、後続事象、前提条件、内的動機、感情反応)を推論して文章を生成する課題である。

上の画像を他の例で、もう少し具体的にみると、次のようになる。

評価は、人工知能が人間と同じような推論能力を発揮できるかどうかに基づく。

会話の例

A: 何のご用件ですか？ B: オレンジをください。 A: フロリダ・オレンジとカリフォルニア・オレンジの中でどちらにしますか？

B: どちらが良いですか？ A: フロリダオレンジは甘いですが、サイズが小さく、カリフォルニアオレンジには種がありません。 B: じゃあ、カリフォルニアオレンジを5個ください。 A: 他に必要なものはありますか？ B: バナナも食べたいですが、どうやって売っていますか？

A: 1ドルで1ポンドです。何個望みますか？ B:4個もらったらいくらですか？

A: 1ポンドです。 B: わかりました、いくらですか？

CICEROデータセット

宋永淑ソン・ヨンソク / ML Researcher

人工知能モデルの常識的思考に関する会話データ

CICERO

Reasoning

はじめに

推論とは、すでに知られている事実をもとに新たな判断や結論を導き出すことである。推論は知的活動をする上に不可欠な能力である。

したがって、LLMがどのような推論能力を示すかは、人々がAIが本当に「知能」を持っているかを体感する重要な要素といえる。

Scratchpads, Chain of Thoughtsなどをはじめ、LLMが持つ推論能力を最大限に引き出すための研究が継続的に行われている。

この記事では、推論をより効率的に行うために2段階に分けてアプローチしたSelf-Discoverという方法を紹介する。

レビュー論文 : https://arxiv.org/abs/2402.03620 (by USC, Google DeepMind)

概要

一行要約 : 与えられたタスクに合わせて詳細な解法を設計し、各事例別に設計した推論方法を基に解くと効果が良いという内容である。

人が通常問題を解く時、問題タイプによって具体的な推論方法を設計してから、実際の解答をすることをLLMに適用した方法。

複数のLLM、複数のタスクで全体的に性能向上の効果を持つ。

方法論の詳細

LLMの推論能力を高める : Self Discover

推論問題を次の2つのStageに分けてアプローチする。

박우명 / CDO & Head of Research

解法を先に設計した後、実際の問題を解く2段階方式で推論能力を向上させます。

LLMは、複雑な推論能力を必要になるタスクや、様々な文脈を理解して処理しなければならない困難なタスクでも非常に優秀な性能を見せている。最近、モデルが生成した回答を自ら評価し、エラーを修正することで性能を向上させることで、hallucinationを減らす「self-correction方法論」の研究が活発に行われている。この記事では、self-correctionのプロセスを2段階に細分化し、最新のLLMが各段階でどのような面を見せるかについて実験を行う。

超巨大言語モデル

Reasoning

導入

概要

一行要約 : 現在のLLMは、推論過程の中で正確にどこで論理的なエラーが発生したかを見つける能力は劣るが、適度なレベルのフィードバックを受ければ答えを修正する能力はある。

最近、LLMベースの「self-correction方法論」は、AI技術で生成した結果の品質を向上させ、安定性を高める戦略として大きな注目を集めている。

この論文では、self-correction問題を 1) エラーを見つける(mistake finding) 2) 結果を修正する(output correction) 2つのsub-taskに分離し、それぞれの問題に対するLLMの能力を測定する。

﻿しかし、特に推論や論理的な誤りを修正するタスクでは、しばしば正解を誤答に変えてしまい、性能がむしろ低下する現象が頻繁に報告されている。

BIG-Benchデータセットを基に、CoT推論過程での論理エラーを検出するBIG-Bench Mistakeデータセットを構築して公開。様々なLLMに対する性能を測定。

박우명 / CDO & Head of Researcher

エラーに関する情報が与えられたとき、効果的に逆探索して回答を修正する方法論を提案。

LLMは自分でエラーを検出し、修正できるのか？

超巨大言語モデルがエラーを検出し、回答を修正できるかどうかについての実験

Self Correction

概要

不快な言語表現だけでなく、微妙に有害な非暴力的、非倫理的な出力まで検証できるデータセットを制作及び公開。

有害な出力を削減するための攻撃データセットの構築。

詳細なデータ構築方法論（instruction、生成手順など）を公開。

<画像> 明るいほど攻撃が成功したという意味で解釈される

3つのサイズ(パラメータ2.7B、13B、52B)のモデルと合計4つのモデルタイプについて、scaling behaviorを調べて検証を行う。

データセットを制作

方法

作業者のストレスを軽減するための設計：
(1) 業界の専門家とのインタビューの実施。
(2) 機密性の高いコンテンツにさらされる可能性があるという警告を明示する。
(3) 作業者に自分が許容できる範囲のトピックを選択するように促す。

課題の進行プロセス : 
作業者に課題の同意を行う → 作業者とAI能アシスタントとオープン型・マルチターン対話の進行

AIの有害な出力を減らすためのレッドチーミング言語モデル(Red Teaming Language Models to reduce harms)

作業者に2つの可能な応答を提示し、より有害な応答を選択させる。

宋永淑ソン・ヨンソク/ ML Researcher

非暴力的、非倫理的な出力を検証できるデータセット

harm

Generation

害

LLM Compile Process Overview

前回の記事「【極めてプライベートな自分だけのLLM、価値があるのか？[第1回 - ファインチューニング](https://blog.sionic.ai/Finetuning_Llama)では、大規模モデル構築の難しさと破壊的な忘却現象などの代替として登場したRetriever Augmented Generation(RAG)方法を見てみました。 RAGはLLMの強力なテキスト生成能力をベースにして、モデルにユーザーのクエリに合った文書のスニペットを適切に取り込んでプロンプトを通じて応答する方式です。ユーザーがパーソナライズされたLLMを構築し、特定の目的に合わせて調整する方法は、様々な所で有用に使用することができます。

今回はMLC-LLMパッケージを活用したWebGPU Build & Runガイドを共有します。これにより、大規模言語モデル(LLM)がWebGPUを活用して、ビルド＆実行する過程を通じて、自分のデータで大規模言語モデルを構築、実行することができるようになります。

前提条件

LLMビルドのための要件

python3: 普遍的によく使われるConda環境で、python言語を使用して進行します。

conda: Pythonパッケージの衝突を防ぐために環境分離の時に必要です。

Git LFS: weight fileなど大容量ファイルをpullingするために必要です。

TVM Compiler: オープンソースディープラーニングコンパイラ

WebAssembly ビルドのための要件

極めてプライベートな私だけのLLM、作れるのか？[第２弾- WebGPU Build & Run］

Emscripten: LLVMを使う言語(C/C++)をWebAssemblyでコンパイルできるようにするツールチェーン。

ビルド

金德顯キム　ドクヒョン / Head of Development

個人の使い方に合わせた超巨大言語モデルの活用

Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies

compilation

WebGPU

strategyqa

eladsegal

データ概要

概要

多段階の推論質問応答（QA）ベンチマーク

•

暗黙的な質問である「アリストテレスはノートパソコンを使用したか」に答えるために、明示的な質問である「ノートパソコンが発明された時、アリストテレスは生きていたか」に変換する作業が必要ある。そのために、正解を導き出すプロセスを説明するデータの特性を持つ。

•

一、アリストテレスの生年月、二、ノートブックが発明された時期、三、2は1より前に起きたか？のように、正解を導き出すプロセスを明示的に説明するプロセスをデータに含める。

•

上記の質問のような戦略的な質問にはどのようなものがあるかを確認し、マルチホップで分解してデータを構築する。

•

QAデータセットとはいえ、答えは「Yes/No」の選択文に過ぎないため、従来の質疑応答データセットとは区別される。

注釈者バイアスを防ぐためにベンチマークデータの難易度を調整する努力

生成モデルの場合、注釈者バイアスを克服することがデータの難易度を決定する一つの原因になるが、この論文では次のようにデータ収集のパイプラインを構成して注釈者バイアスを克服する。

SuperNI × Clova X韓国語翻訳(1): StrategyQA

宋永淑ソン・ヨンソク / ML Researcher, 朴宇明パク　ウミョン / CDO & Head of Research

StrategyQA論文とデータセット紹介

StrategyQA

LLM

Embedding

導入

LLMの推論能力を向上させるための様々な方法についての研究が活発に行われている。
(以前の記事参照：プロンプトによるLLMの推論能力向上)

この記事では、アルゴリズム問題だけでなく、様々な自然言語タスクでLLMが持つ優れたコード生成能力を適切に活用できる方法論を提示した「chain of code」という論文を紹介する。

参照論文 : https://arxiv.org/abs/2312.04474 (by Google DeepMind, Stanford Univ., UC Berkeley)

概要

•

一行要約 : LLMにcode-driven reasoningをさせたら効果が良い。

•

数学的計算だけでなく、semantic reasoningをしなければならない問題でも、LLMに(pseudo) codeを生成させた後に適切なエミュレータで実行し、結果を得てからそれを活用すれば、より良い性能を達成できることが示された。(例えば、detect_sarcasm(input))

•

CoTより優れた性能が見られた。 : BIG-Bench Hardで84%、CoTに比べ12%向上

•

特にCoTは一定サイズ以上のLMでのみ効果があったのに対し、CoCは小さなLMでも効果があった。

方法論の詳細

•

代表的な既存の方法論との比較

•

Scratchpad : 推論過程をcode形式で生成。LLMがcode interpreterの役割を実行(codeの実行をLLMが自ら実行)

•

アイデアは比較的シンプル。Code generationとcode executionの段階で構成。

Codeを通じてLLMの推論能力を高めることができるのか？

朴宇明パク　ウミョン / CDO & Head of Research

コードを通じた巨大言語モデルの推論能力向上

Prompting

Tuning

導入

Promptingは人間が大規模言語モデル(LLM)を制御し、コミュニケーションする手段である。

ユーザーは、欲しい結果を得るために、どうすればうまくPromptingを作成できるかという一般的な方法論に対するニーズは今後も増えると思われる。

この記事の前半ではSuper-NaturalInstructions(SuperNI)論文を概観した後、後半ではSuperNIに含まれるデータセットのうち、韓国語であったり、興味深いテーマを含んでいるデータセットを紹介します。

最近、生成だけでなく、自然言語理解（文の分類、シーケンスラベル付け、質疑応答）課題でプロンプトチューニングがファインチューニングよりも性能が良くなったというレポート(Lifu Tu et al. (2022)やCOT(Jason Wei et al. (2022)などのプロンプト方法論、そしてマルチモーダルでの応用(Andy Zeng et al. (2022)などが発表され始めている。

•

この記事では、プロンプティングを通じてzero-shotのパフォーマンスを向上させる興味深い2つの論文を紹介する。

•

レビュー論文

概要

•

COSP : Consistency-based Self-adaptive Prompting

•

USP : Universal Self-adaptive Prompting

•

Unlabeled dataとblack-box LLMを通じてzero-shot in-context learning(ICL)の性能を向上させることを目的とした異なる2つの方法論

効果的なプロンプティング(Prompting)方法論の紹介

朴宇明 / CDO & Head of Research

効果的なプロンプティング(Prompting)方法論の紹介

Prompting

Tuning

論文紹介

概要

SuperNIはAllen Institute for AI、University of Washington、Arizona State Universityをはじめとする合計21機関所属の研究者が参加し、1600余りのNLP instructionデータを作成し、公開したプロジェクトです。

https://arxiv.org/abs/2104.08773で61個のタスクに関するデータを公開することからスタート。

合計88人のコントリビューターが既存の公開されたNLPデータを活用し、クラウドソーシングするなどの方法で作業

Tk-Instruct（英語）及びmTk-Instruct（多言語）モデル開発

方法論の詳細

データ構造

[論文レビュー]Super-NaturalInstructions

SuperNIデータセットの簡単な統計分析

朴宇明 / CDO & Head of Research, 宋永淑 / ML Researcher

Super-Natural　Instructions(SuperNI)論文・データセットの紹介

Instruction

Super-NaturalInstructions

dataset

導入

LLMは単純なプロンプトだけで多くの課題で優れた能力を発揮するが、完璧ではない。

その中でも代表的な問題としては、事実でない内容を事実であるかのように生成するハルシネーション問題、そして社会的に問題の余地がある危険な発言を生成する問題などがある。

この記事では、biasが存在する、または問題となる内容をLLMが自ら判断し、抑制することに関する論文について紹介する。

参考までに、このようなLLMの「self-correction」あるいは「self-refinement」の問題についてもっと詳しく知りたい場合は、このsurvey論文(Pan et al. (2023)および関連referenceを参考

レビュー論文

概要

LLMが生成した文章をユーザーが望むように'align'させるために、既存の多くの研究ではpreference datasetを構築し、reward modelを学習した後、このスコアに基づいてLLMをRL(e.g., PPO)でチューニングする方法を多く使用。

実際のOpenAIのモデル (InstructGPT、ChatGPT、GPT-4など) をはじめ、Google、Meta、Anthropicなどほぼ全てのところでこの方法でチューニングをしてLLMを開発した。

しかし、reward modelを学習するためのデータセット制作は非常に時間と費用がかかり、構築難易度が高く、開発が難しい。

朴宇明 / CDO & Head of Research

ここでは、明示的な reward model なしで zero-shot/few-shot prompting を通じて効果的にharmlessnessを高める (つまり、有害なコンテンツ生成を抑制する) 結果を示している。

LLMは自ら回答の危険性を判断できるのか？

超巨大言語モデルの回答の危険性を判断するに関連する論文の紹介

Alignment

表データの役割

大規模言語モデル(Large language model, LLM)は、一般的な課題をうまく処理する利点があります。私たちがChatGPTに熱狂する理由も、一般的な知識に関する質問や推論に対して必要な答えをうまく生成するためだと思います。しかし、日常生活での大規模言語モデルの有効活用には、個人や組織レベルで特定のデータを学習させることが不可欠です。

627MBのサイズを持つ表データを公開したGus Eggert(2023) は表を推論の"感覚器官"のような役割をするものとして説明している。

表データの歴史

ToTTo で表ベースの文章生成データを作成するプロセス

•

(1) 様々な形式のフォーマットからタイトル、サブタイトル、表情報を抽出した後、主要な表情報を黄褐色で強調表示(highlight)する。

•

(2) 表と一緒に収集した文章(下の画像でOriginal text)から表の内容と関係ないものは削除(text after deletion)した後、最終的に文章を作成し、文章生成の精度を高めた。

表データベースの文章生成

宋永淑ソン・ヨンソク / ML Researcher

表のデータ分析方法論の紹介

Table

Generation

RAG(Retrieval Augmented Generation)とファインチューニング

本稿では、RAGとファインチューニングという2つの方法を取り上げます。これらはいずれも、大規模言語モデルをベースにしてカスタマイズを行う手法ですが、それぞれにコストと性能の面で異なる特徴があります。

まず、言語モデルをプライベートなLLMとして使用できる方法として、ファインチューニングがあります。事前学習された大規模言語モデルに小さなデータセットを追加で学習させ、特定の作業に合わせて微調整して性能を改善する方法です。伝統的に、ファインチューニングは巨大な単位のウェブデータを事前学習し、小さな分野の課題に応じてチューニングを行う方法でしたが、モデルのパラメータ数がどんどん大きくなり、企業や研究者がモデル全体をファインチューニングすることが難しくなり、ファインチューニングしたモデルの保存とコストも非常に大きくなりました。この他にも、新しい情報を学習する際、以前に学習した情報を突然急激に忘れる現象、つまり破壊的忘却(Catastrophic forgetting)と呼ばれる現象も解決に困難がありました。

ChatGPTなどのLLMモデルが産業的に台頭し始めてからちょうど1年が経ち、各企業が見つけた費用対効果の高い代替手段がRAGと言えます。RAG手法は、LLMの強力なテキスト生成力をベースに、ユーザーのクエリに合った必要な文書スニペットを適切に取り出し、モデルにプロンプトを提供して応答する方法です。LlamaIndexやLangchainのような開発者ツールやunstructured.ioのような前処理SDK、そしてMilvusのような複数の商用のベクターサーチDBが最近1年間に誘致した投資額とバリュエーションを見ると、業界におけるRAGに対する関心度は容易に推測できると思います。

写真出典: OpenAI - A Survey of Techniques for Maximizing LLM Performance https://youtu.be/ahnGLM-RC1Y

しかし、モデルの目的そのものをより自由に変えられるという点で、ファインチューニングが持つ魅力も無視できません。モデルが応答するスタイルやトーンやマナー、フォーマットのような質的な面を変えたり、希望する形のアウトプットが出ることを保証したり、TextをSQLに変えるなどのプロンプトだけでは説明しにくい特定のタスクに特化する必要がある場合は、ファインチューニングが有利な場合もあります。

OpenAIは前回のDevDayでファインチューニングとRAGが必要な場合を2つの軸で整理して紹介しました。モデルの知識的な側面を修正したい場合にはRAGを、モデルがどのように答えて推論するかを修正したい場合にはファインチューニングが適していると紹介しました。

過去には簡単ではなかったベースモデルのファインチューニングが、2つの側面から、一般開発者にとってアクセスしやすい形になってきていると思います。一つは、商用化されたモデルのクラウドサービスとしての「ファインチューニング用のAPI」(https://platform.openai.com/docs/guides/fine-tuning/fine-tuning-examples)を提供していることと、もう一つは、ファインチューニングのプロセス全般の難易度が下がり、少しの知識さえあれば、公開モデルを利用して独自のデータセットを持ってプライベートな環境でファインチューニングができるようになったことです。今回の記事シリーズでは、このように独自のデータセットでファインチューニングするプロセスを実習してみたいと思います。

オープンソースベースの大規模言語モデルを基に、独自のデータセットでファインチューニングする。

当該モデルのインファレンスをWebGPUを活用してローカルで行うことで、機密性の高い情報を外部に公開することなく、ローカルで自分だけのLLMを駆動できる。

今回の記事では、Meta AIが公開したLLaMA 7B Chatモデルを基に、QLoRAを活用して自分だけのデータをファインチューニングし、Hugging Faceに配布してみたいと思います。

極めて私的な私だけのLLM、作れるのか? [第１弾ーファインチューニング]

朴ジンヒョン(Sigrid Jin) / Software Engineer, Sionic AI

非暴力的、非倫理的な出力を検証できるデータセット

목차

利用原則 🫡

スラック(https://slack.com/intl/ko-kr/)は、コミュニケーションのスピードを上げるための業務ツールに過ぎません! そのため、組織に適したルールを作り続け、変化していく必要があります。つまり、皆さんが不便な点や改善すべき点があれば、いつでも提案して反映していことが重要です！

Slackの「メッセージ」は一つのメールと理解しましょう!

そのため、Slackのメッセージには自分の考えを全部入れて一つのメッセージで送るのが良いです。

メッセージへの返信は個人のメッセージではなく、「スレッド」でしましょう。

スレッドを積極的に活用すれば、

一つのテーマについて、他のメッセージに邪魔されることなく、体系的に議論することができます。

私の議論の過程がトピックと関係のない人に通知で伝わらないため、不必要なノイズを塞げることができます。

金慧元 /CPO, 金德顯 / Head of Development

自分が関連しているテーマのスレッドのみ選んで参加することができます。

Slack 使用ガイド

効果的なスラックの使用ガイド

Culture

Slack

Database構築

(画像出典) Microsoft Designer - Stunning designs in a flash を使用して自動生成後編集

ハンズオンの環境構成

qdrant DB

milvus DB

postgres (pgvector)

Datasetのダウンロード

Libraryのインストール

実習する前にインストールするパッケージは下記の通りです。

transformers

Vector Database構築のハンズオン

Generative AIのための最近の技術動向

WebAssemblyやWebGPUなど、トレンディな技術についての話

WebGPU

WebAssemblyなど比較的最近使われ始め、JavaScriptの代替品ではなく補完材として機能

GPGPUベースの汎用演算加速が強み

2023年5月Chrome113から試験的に動作

WebGPUによるプライベート生成AIのHybrid Inference

Microsoft DirectX、クロノスグループのバルカン、アップルのメタルなど

高錫賢 / CEO

WebGPUによるパーソナライズ生成人工知能の推論方法論の紹介

WebGPU

Hybrid Inference

導入

Promptingは人間が大規模言語モデル(LLM)を制御し、コミュニケーションする手段であると言える。

別途パラメータを更新することなく、プロンプトだけ入力する in-context learning(ICL) 方式により、LLMが様々な問題で優れた性能を発揮している。

この記事では、複雑な推論(reasoning)問題において、最新の方法論である diversity of thought に関連する主な reference について紹介する。

レビュー論文

概要

一般的な Prompting はディレクティブと例文 (zero-shotの場合はディレクティブのみ)で構成され、最終結果をすぐに生成させる方式です。

ここで紹介する論文が提案する方法は大きく2つに分けられる。

これは、例えば人が数学の問題を解くときに、解く過程を書き留めて、何度も検算するのと同じような感覚で解釈できる。

方法論

朴宇明 / CDO & Head of Research

Method 1：解答プロセスをLLMが自ら作成する

プロンプティングを通じたLLMの推論能力向上

超巨大言語モデルの推論能力向上のためのプロンプトの方法論

(画像出典) Microsoft Designer - Stunning designs in a flash を使用して自動生成

Tuning

今回のブログでは、韓国語データキュレーションについて説明します。データキュレーションは、データの構築と生成だけでなく、データの活用価値を高めるすべての活動を含みます。この記事で扱うすべてのデータは、外国人もダウンロードできるデータです。データについてのより詳しい説明は https://github.com/ko-nlp/Open-korean-corpora と https://corpus.korean.go.kr/main/requestMain.do에서 を参照してください。外国人の参加申請については、次の文書の内容を参照してください。

1. 韓国語コーパス構築の変化の様子

Open-korean-corporaを通じて1次韓国語データキュレーションを行った2019年には、構文解析データと類似文、並列コーパスなどが多数ありました。

<図1> データの一般的な使用と提供機関

これは、次の画像のように、形態素や文章の特性を抽出し、必要な情報を処理するデータが主に構築されたためです。

<図2>テキストデータの分析方法と自然言語処理課題の細分化

2020年から現在(2023年)まで、嫌悪表現とともに様々なテーマ(その他のテーマに含まれる)のデータが増加しました。全体的に意味分類に関連するデータが研究や産業で多く使われていることが確認できます。

韓国語コーパスの構築(1)

宋永淑ソン・ヨンソク/ ML Researcher

韓国語コーパスの紹介

data

large language model

corpus

導入

チャットボット、要約、機械翻訳など多くの自然言語生成AIの開発において、正確な評価(evaluation)は非常に重要であるが、苦痛なプロセスである。

LLMはpromptingだけで様々な問題解決で良い性能を示しており、最近の論文ではGPT-4を通じてevaluationを自動的に行うなど、人の判断が必要な領域で活用する事例が徐々に増えている。

この記事では、LLMを活用して事実検証(fact verification)を行い、自ら誤った情報を修正して幻覚(hallucination)を抑制する内容の論文について紹介する。

レビュー論文

概要

質問に対してすぐに答えを生成するのではなく、LLMが自ら推論の流れを生成させると性能がより高くなるという現象は、いくつかの論文で観察(Chain of Thought)

この論文では、回答ドラフトを生成した後、自ら回答の信頼性を検証できる質問を生成して確認した後、最終回答を生成するChain-of-Verification(CoVe)方法を提案します。

List-based questionとlong-form text generation問題でhallucinationが減少し、パフォーマンスがより向上する結果を観察。

方法論

以下の手順でユーザーの質問に対する回答を生成する。

プロンプティングで事実確認(Fact Verification)

回答ドラフトを作成

朴宇明 / CDO & Head of Research, 김덕현 / Head of Development

超巨大言語モデルの発話が事実かどうかを確認する方法論に関連する論文の紹介

Fact Verification

導入

LLMはzero/few-shot promptingだけでも多くのtaskで優れた性能を発揮するが、回答結果は入力されたpromptの内容によって大きく影響を受ける

しかし、taskに合わせて人が直接最適なpromptを作ることは非常に難しく、時間とコストがかかる作業であり、また、promptがどれだけうまく動作するかを事前に確認することは容易ではない

この記事では、上記の問題に対する解決策の一つとして、LLMを活用して最適なプロンプトを自動的に生成する最新の研究と関連するreferenceについて紹介する

(画像出典) プレゼンテーションの「Designer」機能を使用して画像を自動生成します。

レビューした論文

概要

Promptを自動的に生成するためには下記のような問題が存在する

要約

方法論の詳細

APE

朴宇明 / CDO & Head of Research

iPrompt

自動的に最適なPromptを生成する方法

最適なプロンプト方法論の紹介。

MTEB(Massive Text Embedding Benchmark)

AutoPrompt

MTEBとは

様々な埋め込み作業でテキスト埋め込みモデルの性能を測定するために作成した大規模なベンチマークです。

2023年10月10日現在のデータセット、言語、スコア、モデルの数

総データセット数: 129

総言語数113

総得点14667