💻

Hands-on

Articles_Ja

CUDA Cレベルで韓国語と日本語のトークナイザーを実装する。

韓国語と日本語のトークナイザーを実装

高錫賢 / CEO

OOV

CUDA

Tokenizer

LLM Compile Process Overview

前回の記事「【極めてプライベートな自分だけのLLM、価値があるのか？[第1回 - ファインチューニング](https://blog.sionic.ai/Finetuning_Llama)では、大規模モデル構築の難しさと破壊的な忘却現象などの代替として登場したRetriever Augmented Generation(RAG)方法を見てみました。 RAGはLLMの強力なテキスト生成能力をベースにして、モデルにユーザーのクエリに合った文書のスニペットを適切に取り込んでプロンプトを通じて応答する方式です。ユーザーがパーソナライズされたLLMを構築し、特定の目的に合わせて調整する方法は、様々な所で有用に使用することができます。

今回はMLC-LLMパッケージを活用したWebGPU Build & Runガイドを共有します。これにより、大規模言語モデル(LLM)がWebGPUを活用して、ビルド＆実行する過程を通じて、自分のデータで大規模言語モデルを構築、実行することができるようになります。

前提条件

LLMビルドのための要件

極めてプライベートな私だけのLLM、作れるのか？[第２弾- WebGPU Build & Run］

個人の使い方に合わせた超巨大言語モデルの活用

金德顯キム　ドクヒョン / Head of Development

LLM

compilation

WebGPU

RAG(Retrieval Augmented Generation)とファインチューニング

大規模言語モデル(Large language model, LLM)は、一般的な課題をうまく処理する利点があります。私たちがChatGPTに熱狂する理由も、一般的な知識に関する質問や推論に対して必要な答えをうまく生成するためだと思います。しかし、日常生活での大規模言語モデルの有効活用には、個人や組織レベルで特定のデータを学習させることが不可欠です。

本稿では、RAGとファインチューニングという2つの方法を取り上げます。これらはいずれも、大規模言語モデルをベースにしてカスタマイズを行う手法ですが、それぞれにコストと性能の面で異なる特徴があります。

まず、言語モデルをプライベートなLLMとして使用できる方法として、ファインチューニングがあります。事前学習された大規模言語モデルに小さなデータセットを追加で学習させ、特定の作業に合わせて微調整して性能を改善する方法です。伝統的に、ファインチューニングは巨大な単位のウェブデータを事前学習し、小さな分野の課題に応じてチューニングを行う方法でしたが、モデルのパラメータ数がどんどん大きくなり、企業や研究者がモデル全体をファインチューニングすることが難しくなり、ファインチューニングしたモデルの保存とコストも非常に大きくなりました。この他にも、新しい情報を学習する際、以前に学習した情報を突然急激に忘れる現象、つまり破壊的忘却(Catastrophic forgetting)と呼ばれる現象も解決に困難がありました。

ChatGPTなどのLLMモデルが産業的に台頭し始めてからちょうど1年が経ち、各企業が見つけた費用対効果の高い代替手段がRAGと言えます。RAG手法は、LLMの強力なテキスト生成力をベースに、ユーザーのクエリに合った必要な文書スニペットを適切に取り出し、モデルにプロンプトを提供して応答する方法です。LlamaIndexやLangchainのような開発者ツールやunstructured.ioのような前処理SDK、そしてMilvusのような複数の商用のベクターサーチDBが最近1年間に誘致した投資額とバリュエーションを見ると、業界におけるRAGに対する関心度は容易に推測できると思います。

写真出典: OpenAI - A Survey of Techniques for Maximizing LLM Performance https://youtu.be/ahnGLM-RC1Y

極めて私的な私だけのLLM、作れるのか? [第１弾ーファインチューニング]

非暴力的、非倫理的な出力を検証できるデータセット

朴ジンヒョン(Sigrid Jin) / Software Engineer, Sionic AI

Finetuning

Llama

ファインチューニング

大規模言語モデル

LLM

Database構築

(画像出典) Microsoft Designer - Stunning designs in a flash を使用して自動生成後編集

ハンズオンの環境構成

qdrant DB

milvus DB

Vector Database構築のハンズオン

Vector Database構築実習

宋明河 / MLOps Engineer

Vector Database

NLP

Generative AIのための最近の技術動向

WebAssemblyやWebGPUなど、トレンディな技術についての話

WebGPU

•

WebAssemblyなど比較的最近使われ始め、JavaScriptの代替品ではなく補完材として機能

•

GPGPUベースの汎用演算加速が強み

WebGPUによるプライベート生成AIのHybrid Inference

WebGPUによるパーソナライズ生成人工知能の推論方法論の紹介

高錫賢 / CEO

WebGPU

Hybrid Inference