Microsoft Research が開発した GraphRAG: 企業の非公開データ分析を革新する LLM 技術

AI・機械学習
Your request has been blocked. This could be due to several reasons.

近年の AI の進化は目覚ましく、特に大規模言語モデル (LLM) は目覚ましい発展を遂げています。しかし、LLM には、学習したデータの範囲を超えた問題を解決することが難しいという課題がありました。

そこで、Microsoft Research は、LLM の能力を拡張する画期的な技術 GraphRAG を開発しました。GraphRAG は、LLM を使って非公開データから知識グラフを生成し、複雑な質問への回答精度を大幅に向上させます。

LLM が抱える課題と RAG 技術の登場

LLM は大量のデータを使って学習しますが、学習データに含まれない情報を含む質問にはうまく回答できません。例えば、「最新の科学論文に基づいて、この病気の新しい治療法を提案してください」といった質問に対して、LLM は学習データに含まれていない最新の科学論文の内容を理解することができません。

この問題を解決するために、Retrieval-Augmented Generation (RAG) 技術が登場しました。RAG は、ユーザーの質問に基づいて関連情報を検索し、その結果を LLM への入力として使用することで、より正確な回答を生成します。

従来の RAG では、検索にベクトル類似度が用いられてきました。しかし、Microsoft Research の最新の研究では、非公開データの分析において、プロンプト拡張が有効であることが示唆されました。

GraphRAG: 知識グラフで LLM の可能性を解き放つ

GraphRAG は、LLM を使用して非公開データから知識グラフを生成し、検索技術として活用することで、従来の RAG の問題点を克服します。知識グラフとは、 entities と relationships を用いて情報を構造化したものです。

GraphRAG の仕組み

  1. 知識グラフの生成: LLM は非公開データセット全体を処理し、 entities(人物、場所、組織など)と relationships(entities 間の関係)を抽出し、知識グラフを生成します。

  2. ボトムアップクラスタリング: 生成された知識グラフは、ボトムアップクラスタリングを用いて意味的に関連する entities をグループ化します。これにより、データセット全体をテーマごとに整理し、要約することができます。

  3. 質問応答: ユーザーからの質問に対して、GraphRAG は知識グラフとクラスタリング結果を用いて関連情報を検索し、LLM に入力として与えます。LLM はこれらの情報を基に、より正確で詳細な回答を生成します。

GraphRAG の利点

GraphRAG は、従来の RAG と比較して、以下の利点があります。

  1. 点と点を結ぶ能力: GraphRAG は、知識グラフを用いることで、複数の情報を関係性に基づいて結びつけ、新しい洞察を導き出すことができます。

  2. 全体的な理解: GraphRAG は、データセット全体を意味的なクラスタに整理することで、データセット全体のテーマを把握し、質問に対してより包括的な回答を生成することができます。

  3. 情報源の追跡: GraphRAG は、回答の根拠となる情報源を明示するため、ユーザーは回答の信頼性を確認することができます。

実用例:ウクライナ紛争に関するニュース記事の分析

GraphRAG の有効性を示すために、Microsoft Research は、ウクライナ紛争に関する2023年6月のロシアとウクライナのニュース記事数千件をデータセットとして使用し、GraphRAG と従来の RAG の性能を比較しました。

例1: 「ノヴォロシアとは何か?」

  • 従来の RAG: ノヴォロシアに関する情報は提供されませんでした。

  • GraphRAG: ノヴォロシアは、歴史的にウクライナ南部に位置し、18世紀にロシア帝国に征服された地域を指します。近年では、ウクライナ東部のロシア系分離主義者が、自分たちが主張する領土を指すためにこの用語を復活させています。

例2: 「ノヴォロシアは何をしたのか?」

  • 従来の RAG: ノヴォロシアが何をしたかについての具体的な情報は提供されませんでした。

  • GraphRAG: ノヴォロシアは、ウクライナの政治運動であり、ウクライナの様々な entities を標的にした一連の破壊活動に関与してきました。この運動は、ローゼン、オデッサ缶詰工場、オデッサ地域ラジオテレビ送信センター、ウクライナ国立テレビ会社など、いくつかのウクライナ entities の施設を破壊する計画に関連付けられています。

この例では、従来の RAG は「ノヴォロシア」と具体的な行動を結びつけることができませんでした。一方、GraphRAG は、知識グラフを用いることで、ノヴォロシアが行った具体的な行動を特定し、その情報源となるニュース記事を提示することができました。

まとめ

GraphRAG は、LLM の能力を拡張し、従来の RAG では不可能だった複雑な質問への回答を可能にする画期的な技術です。Microsoft Research は、今後、GraphRAG を様々な分野のデータ分析に応用し、その有効性を検証していく予定です。

コメント

タイトルとURLをコピーしました