LLM における外部データ活用入門

令和５年度　第２回　生成AIの機械システム設計開発への活用フォーラム　講演サマリー
講師：江上周作産業技術総合研究所人工知能研究センター主任研究員

1. コンテンツ

[1] ChatGPTの使い方
– ChatGPT Plugins
– ChatGPT Advanced Data Analysis
– OpenAI/Azure API

[2] 外部データの活用
– LangChain
– Retrieval-Augmented Generation (RAG)
– LlamaIndex

[3] 知識の活用
– 知識グラフ
– 研究動向

2. ChatGPT Plugins

[1] 概要
– 第三者が開発したアプリケーションで動作する
– プラグインが実行されるとプロンプトはプラグイン側に送信される

[2] 使用方法
– チャット開始時に使用するプラグインを選択する（複数選択可）
– プラグインを実行するかどうかをプロンプトごとにChatGPTが自動的に判断する

3. ChatGPT Advanced Data Analysis

– 旧Code Interpreter
– ファイルのアップロードとダウンロード、コードの実行が可能

4. Retrieval-Augmented Generation (RAG)

– 外部データを取り込んでLLMを利用する手法として、Retrieval-Augmented Generation (RAG)^{[Lewis et al. 2020]}が注目されている．
– LangChain, LlamaIndexなどのフレームワークが有名

LlamaIndexの概略図
_{[Lewis et al. 2020] P. Lewis, et al.: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS, 2020}

5. LlamaIndexにおけるインデックス

[1] 用語
– Chunk（チャンク）：トークンの塊
– Node（ノード）：チャンクに対応。LlamaIndexはDocumentオブジェクトを受け取り、内部でそれらをNodeオブジェクトに分割する
– Response Synthesis（レスポンス合成）：取得したノードを指定してレスポンスを合成するモジュール

[2] インデックス方法
– List, Vector Store, Tree, Keyword Table

パラメータ

チャンクサイズ：この値を下回るようにチャンクを作成
区切り文字：チャンク分割の切れ目
チャンクオーバーラップ：前のチャンクとオーバーラップするトークン数

6. LlamaIndexで外部データに関する質問

[1] 使用するテキスト
– まだらのひも『シャーロック・ホームズの冒険』
– 青空文庫よりダウンロード

[2] サンプルコード設定
– LLM：GPT-3.5-turbo
– 埋込モデル：text-embeddinng-ada-002

[3] 質問
– ロイロットは義理の娘の結婚を邪魔することでどのような得がありますか？

[上図] ChatGPT (GPT-3.5-turbo)

– 上図のように外部データを使用しない場合には、詳細な情報の提供ができないとの応答。
– 以下のように、外部データとしてテキスト文を与えた場合には、LlamaIndexにより具体的な回答が得られる。

ロイロットが義理の娘の結婚を邪魔することで得るものは、年収の増加です。結婚すると、娘一人につき年収二五〇ポンドずつ受け取れるようになっています。したがって、娘が結婚してしまうと、ロイロットの年収が少なくなるため、彼にとっては損失となります。

[上図] LlamaIndex

7. LlamaIndexでデータベースに接続

LlamaIndexでデータベース（RDB，NoSQL等）に接続し、直接データベース検索を行う機能を提供
– Text-to-SQL：テキストを元にSQLクエリ文を生成する

8. 知識グラフ（ナレッジグラフ）

– LLMの課題の一つ：Hallucination（幻覚）
– LLMに、明示化されたファクトデータや論理的知識を接続することで解決できないか
　⇒ 知識グラフ

[上図] 知識グラフ

知識グラフ（ナレッジグラフ：KG）
– 主語，述語，目的語の三つ組みにより様々な知識をグラフ構造で表現する

9. Knowledge Graph Question Answering

KGQA：KGに対して自然言語による質問応答を行う技術であり，LLMのHallucinationの解決策の一つとしても期待されている

[上図] Text-to-SPARQL(*)の基本的なアプローチ（図引用^{[Soru et al. 2017]}）
(*)補足：SPARQLは知識グラフ用のクエリ言語
[Soru et al. 2017] SORU, Tommaso, et al: SPARQL as a Foreign Language. In: SEMANTiCS Posters & Demos, 2017

[上図] T5を用いたクエリ生成とエンティティの埋め込みを利用したKGQAシステム（図引用^{[Banerjee et al. 2023]}）
[Banerjee et al. 2023] D. Banerjee, et al. GETT-QA: Graph Embedding Based T2T Transformer for Knowledge Graph Question Answering. In: European Semantic Web Conference, pp. 279-297, 2023

[上図] POS-tag埋め込みと係り受け関係の埋め込みをTransformerでエンコードし、位置埋め込みと単語埋め込みを加えてGPT-2でデコード（図引用^{[Rony et al. 2022]}）
[Rony et al. 2022] M. R. A. H. Rony, et al. SGPT: a generative approach for SPARQL query generation from natural language questions. IEEE Access, 10: 70712-70723, 2022

[上図] SPARQLを直接生成する代わりに制御された自然言語（CNL）をLLMで生成する手法
BLOOM, GPT Neo, GPT-2, GPT-3, T5, Llama2でファインチューニング
（図引用^{[Lehmann et al. 2023]}）
[Lehmann et al. 2023] J. Lehmann, et al. Language Models as Controlled Natural Language Semantic Parsers for Knowledge Graph Question Answering. In: European Conference on Artificial Intelligence, pp. 1348-1356, 2023

10. ナレッジグラフ推論チャレンジ　〜生成AI時代のナレッジグラフ構築技術〜 (1)

[1] ChatGPTを始めとした大規模言語モデルを用いた生成AIの開発・利用は、知識工学、セマンティックWeb分野への応用においても大きな可能性がある

[2] 課題
– 正確性が保証されない
　- 誤った内容が出力される場合がある
– 根拠となる情報（出典）が暗黙的である
　- どのような情報を基にして出力されたのかが分からない
– 再現性が担保されない場合がある
　- Webサービスとして提供されているモデルを使用した場合には，毎回，同様の内容が生成されるとは限らない

[3] これらは、2018年からナレッジグラフ推論チャレンジにおいて、KGを用いた説明可能なAI技術の開発・共有に取り組んできた理由でもある

11. ナレッジグラフ推論チャレンジ　〜生成AI時代のナレッジグラフ構築技術〜 (2)

ナレッジグラフ(KG)と大規模言語モデルの双方を用いたチャレンジ(*)を実施
(*)本チャレンジでは、応募要件に記載のナレッジグラフの構築手法を応募対象として応募を受け付けます。

今年度は、上述の課題への対策と評価に関する知見をコミュニティで蓄積するために

大規模言語モデルを用いたナレッジグラフの構築

というタスクを課題として設定

生成AI時代の新しいKG構築技術の開発を目指したチャレンジとして開催
https://challenge.knowledge-graph.jp/2023/

講師プロフィール

江上周作 (Shusaku Egami) 博⼠(⼯学)

[所属]
産業技術総合研究所主任研究員
電気通信⼤学連携准教授
法政⼤学兼任講師

[経歴]
2020.10 – 現在︓産業技術総合研究所
2019.4 – 2020.9︓電⼦航法研究所
2019.3︓電気通信⼤学博⼠後期課程修了
2018.3 – 2019.3︓⽇本学術振興会特別研究員(DC2)

[専⾨分野]
知能情報学，ウェブ情報学，知識⼯学，データ⼯学

[主な委員会活動]
⼈⼯知能学会セマンティックウェブとオントロジー研究会幹事
国際会議 ISWC、ESWC、CIKM各プログラム委員、IJCKGワークショップ委員⻑
LODチャレンジ実⾏委員

[主な受賞]
⼈⼯知能学会研究会優秀賞(2019, 2023)
⼈⼯知能学会全国⼤会優秀賞(2022)
ISWC Best Poster Award (2021)
LODチャレンジ最優秀賞(2014, 2016, 2023)