OpenToM: 大規模言語モデルのTheory-of-Mind推論能力を評価する包括的ベンチマーク
OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models
はじめに (Introduction)
Theory-of-Mind (ToM) とは、他者が自分とは異なる認識を持っていることを理解し、そのような違いを把握する能力のことです。ToMは社会的な相互作用の中核をなすものです。
研究者たちは、人間のToMテストをベンチマークとして言語モデル(LLMs)に適用してきました。しかし、人間のToMテストをLLMsの評価に使うのには問題があります。それは、人間のToMテストの物語には、実生活のシナリオにある要素が欠けているためです。
そこで、私たちはOpenbook-QA dataset for ToM (OpenToM) を紹介します。OpenToMは、(1)より長く明確なストーリー、(2)明確な性格特性を持つキャラクター、(3)キャラクターの意図によって引き起こされる行動、(4)物理的・心理的な世界におけるキャラクターのメンタルステートをモデル化するLLMの能力を問う質問、といった特徴を持っています。
OpenToMを使って、最先端のLLMsが物理的世界でのメンタルステートのモデル化では優れているものの、心理的世界でのメンタルステートの把握では課題があることを明らかにしました。
OpenToMデータセット (The OpenToM Dataset)
OpenToMの構成 (OpenToM Construction)
典型的なOpenToMストーリーは、2人の主人公、興味の対象となるエンティティ(以下「エンティティ」)、そしていくつかの場所とコンテナから構成されます。2人の主人公のうち1人はムーバー(mover)の役割を担い、エンティティに対して行動を起こします。もう1人はオブザーバー(observer)で、これらの行動を目撃する場合とそうでない場合があります(図1参照)。
OpenToMは合計696の物語を含んでいます。私たちは、4段階の人間参加型生成パイプラインに従って、GPT-3.5-Turboを用いて596の物語を生成しました(図2参照)。さらに、既存のOpenToMプロットから100個のサンプルを抽出し、GPT-4-Turboを用いて超長編の物語(OpenToM-L)を作成しました。
OpenToMのベンチマークが引き出す独自のN-ToMの課題を明らかにするために、OpenToMを確立されたN-ToMベンチマークと比較しました(表1参照)。
タスクの定式化 (Task Formulation)
OpenToMのすべての質問を、2値または3値の分類タスクとして定式化しました(ラベル空間とラベル分布の詳細は図A3参照)。形式的には、完全な物語(N_comp)、答えの集合(A)、キャラクター(c)、キャラクター中心の質問(q_c)が与えられたとき、モデルはまずキャラクターcがアクセスできる情報(N_c)を推論し、その後、質問に答えます。
質問のジャンル (Question Genres)
OpenToMの各ストーリーには、一次のToMと二次のToMの両方をカバーする23の質問が付随しています。一次のToM質問は、キャラクターの世界の認識について直接尋ねるものです(図1下部参照)。二次のToM質問は、あるキャラクターの他のキャラクターのメンタルステートに関する信念を尋ねるものです。
OpenToMの質問は、以下の3つのジャンルにまとめることができます:
-
位置(Location, Loc)に関する質問は、キャラクターのエンティティの位置に関する認識に関するものです。
-
マルチホップ(Multi-Hop, MHop)質問は、Loc質問の上に推論のホップを追加して構成されています。
-
態度(Attitude, Att)質問は、キャラクターの心理的メンタルステートを解釈するLLMの能力に挑戦するために設計されています。
見せかけの相関の軽減 (Mitigating Spurious Correlation)
私たちは、すべての質問において見せかけの相関を軽減するための対策を講じています。Locおよび質問を修正するには、キーワードに基づいて物語を改訂することができます。MHop態度(Att)質問への潜在的な見せかけの手がかりを引き出すために、まずエナクション(enaction)プロセス(図3)を定義しました。
データセットの検証 (Dataset Validation)
OpenToMデータセットの人間のパフォーマンスと一致度を検証するために、100の物語をサンプリングし、それぞれ一次と二次の両方のToMに対して3つの質問ジャンルすべてをカバーする5つの質問をサンプリングしました(データ注釈インターフェースのデモは図A4参照)。このOpenToMデータのセットは、3人のアノテーターによって独立に注釈付けされました。アノテーター間の一致度は、マクロ平均F1スコア(表2)によって反映されており、これはペアワイズ一致スコアの算術平均として計算されます。
実験 (Experiments)
ベースラインモデル (Baseline Models)
私たちは、6つの代表的なLLMを使ってOpenToMタスクを評価しました。具体的には、Llama2-Chatモデル(7B、13B、70B)(Touvronら、2023)、Mixtral-8x7B-Instructモデル(Jiangら、2024)、GPT-3.5-TurboおよびGPT-4-Turboモデル(OpenAI, 2022, 2023)です。これらのモデルはすべて、デコーダーのみのTransformerアーキテクチャを使用しています(Vaswaniら、2017)。
また、Llama2-Chat 13Bモデルをファインチューニングして、ファインチューニングのベースラインとしても使用しました(付録D.3)。
プロンプト手法 (Prompting Techniques)
バニラプロンプトに加えて、Chain-of-Thought(CoT)(Weiら、2022)とSimulatedToM(SimTom)(Wilfら、2023)の2つのプロンプト手法も試しました。CoTプロンプトは推論タスクで広く使われており、LLMsに明示的にステップバイステップの推論プロセスを生成するよう要求します。SimToMプロンプトは、N-ToMタスクを支援するために特別に設計されたもので、LLMsにまずキャラクター中心の物語(N_c)を生成させ、次にキャラクター固有の質問に答えさせます。
全体的な結果 (Overall Results)
OpenToMの質問はすべて2値または3値の分類タスクとして定式化されており、ラベルが一様に分布していないことを考慮して(図A3)、モデルのパフォーマンスをマクロ平均F1スコア(以下、F1スコア)で評価しました。
LLMsのパフォーマンスの一貫性を評価するために、各評価ラウンドで50の物語をランダムにサンプリングし、このプロセスを各モデルで5回繰り返しました。F1スコアの平均と標準偏差を計算し、表2に報告しました(詳細な結果は表A8参照。MHop質問に対するLLMsのパフォーマンスの内訳は表A7参照)。
全体的に見ると、GPT-4-TurboがLoc_coarse(一次)、MHop、Att質問で他のモデルを大きく上回っていることがわかります。しかし、Llama2-Chat-7Bが二次のLoc_coarseで最高のスコアを達成していることは驚きでした。ただし、後の研究(§4.1および表A9)で示された高い不誠実率を考慮すると、最高スコアを達成したからといって、必ずしもLlama2-Chat-7BがN-ToMにより優れているとは言えません。
さらに、GPT-4-Turboはほとんどの質問ジャンルで大きくリードしているにもかかわらず、Loc_fineの質問に答える能力は、Llama2-Chat-13B、70B、GPT-3.5-Turboに及ばないことも興味深い点です。
微調整(fine-tuning)モデルを見ると、Loc_coarseとMHop質問は学習が容易で、F1スコアが大幅に向上していることがわかります。一方、Loc_fineとAtt質問はより大きな課題を提示しており、微調整モデルのF1スコアの改善は限定的でした。
CoTプロンプトは、Loc_coarseとMHop質問のすべてのモデルのパフォーマンスを大幅に向上させました。しかし、Att質問に答える際の改善はわずかで、Loc_fine質問のパフォーマンスは低下しました。SimToMプロンプトの場合、Mixtralモデルの結果は混在していました。SimToMはMHop質問のf1スコアを改善しましたが、他の質問タイプでのパフォーマンスは低下するか、ほとんど変化がありませんでした。GPTモデルでは、SimToMはLoc_coarse質問で一貫してパフォーマンスの向上をもたらしました。しかし、他の質問ジャンルについては、SimToMの効果はまちまちでした。
物語の長さに関しては、OpenToM-Lの結果から、長い物語でのToMは一般的により難しいことがわかりました(詳細な結果と分析は付録D.5参照)。
詳細な結果分析 (Detailed Result Analysis)
LLMsのN-ToM能力をさらに調査するために、Loc_coarseとLoc_fineの質問に答える際のLLMsの忠実性(§4.1)、異なるキャラクターの役割のメンタルステートをモデル化する際のパフォーマンスの違い(§4.2)、心理的世界におけるキャラクターのメンタルステートをモデル化する能力の欠如(§4.3)について、詳細な分析を行いました。
Loc質問における忠実性 (Faithfulness in Loc Questions)
§2.3で述べたように、粒度の異なる2種類のLoc質問を作成しました。原則として、Loc_coarseはLoc_fineの質問に答えるための前提条件となります。例えば、エンティティがその初期位置にないと信じている人(つまりLoc_coarse)は、その正確な位置を推定する際にもこの信念を維持するはずです(つまりLoc_fine)。
Loc質問に答える際のLLMsの忠実性を調べるために、2つの実験を行いました。Jointアプローチでは、同じセッションでLoc_coarseの直後にLoc_fineが続くようにLLMsにプロンプトを与えました。Separateアプローチでは、各Loc質問を個別にLLMsにプロンプトしました。
モデルが(Loc_fine, Loc_coarse)の質問ペアで矛盾する答えを出した場合、そのモデルは不誠実(Unfaithful)であるとみなします。これを定量化するために、各モデルの不誠実率(Unfaithful Rate)を計算しました。これは、不誠実なペアの数を全ペアの数で割ったものです(図4)。
各モデルの不誠実率は、一次のToM質問に答える際の方が低いことがわかります。これは、二次の質問に比べて相対的に単純であることが理由だと考えられます。さらに、GPTモデルでは、Jointアプローチの方がSeparateアプローチよりも不誠実率が低いことがわかります。この改善は、コンテキストで以前の回答にアクセスできることが理由かもしれません。しかし、Mixtralモデルでは、同じ傾向は一次の質問についてのみ観察されました。この傾向の理由を掘り下げることは本稿の範囲を超えているため、今後の課題とします。詳細な評価結果は付録D.6に示します。
キャラクターの役割による性能差 (Performance Gap in Character Roles)
先行研究では、LLMsは主人公に関連する質問に答える方が得意であることが明らかになっています(Sapら、2022; Shapiraら、2023a)。これは、主人公のメンタルステートに関する記述をより多く受け取るためだと考えられます(Groszら、1995)。OpenToMでは、このようなレポートバイアスを意識的に避けています(§2.4)。しかし、主人公に対するバイアスとは別に、役割の違うキャラクターの心をモデル化する際の性能の不一致が存在することを私たちは観察しました。OpenToMでは、役割はムーバー(mover)とオブザーバー(observer)の2つです。
ムーバーとオブザーバーの認識の性能差を示すために、ムーバー中心の質問とオブザーバー中心の質問に対するモデルのパフォーマンスのF1スコアの差を計算しました(表4)。
二次のLoc質問では、LLMsの大半がムーバーのメンタルステートをモデル化する際の性能が悪くなっています。これは、ムーバーのアクションの記述とオブザーバーがそのアクションを目撃したかどうかとの間の距離が長いためだと考えられます(付録Eの例を参照)。このような遠距離の情報は、LLMsが関連付けを確立するのを難しくしています。そのため、オブザーバーのメンタルステートに対するムーバーの認識を推論するのがより難しくなっています。
MHop質問では、すべてのLLMsがムーバーのメンタルステートをモデル化する際の性能が良くなっています。一次のMhop質問に答える際、ムーバーが自分の行動を観察したかどうかを決定するモデルの負担が軽減されます。二次のMHop質問の場合、性能の不一致は、ムーバーの意図が明示的に言及されていることが原因だと考えられます。これらの意図には、多くの場合、オブザーバーに対するムーバーの行動の結果に関するムーバーの認識が含まれており、オブザーバーのメンタルステートに対するムーバーの認識をモデル化する複雑さが大幅に軽減されます。
社会常識と態度 (Social Commonsense and Attitude)
GPT-4-TurboはMHop質問で他のモデルを大きく上回っており(表2、3、A7)、社会常識を用いた推論能力を示しています。しかし、他のLLMsのMHop質問に対するパフォーマンスは、この点で不足していることを示しています。
Att質問ではすべてのLLMsの性能が芳しくないため、Self-Askプロンプト(付録D.2)を追加で試しました。Self-Askプロンプトは、一連のフォローアップ質問を明示的に提案し、回答することで最終的な答えを導き出すようLLMsに求めるものです(Pressら、2023)。Self-Askプロンプトによって、LLMsのF1スコアは改善されましたが(表A10)、依然として人間のパフォーマンスには及ばず、キャラクターの心理状態を認識するN-ToM能力の欠如を示しています。
Mixtral、GPTモデルのAtt回答を深く分析したところ、(1)中立的な態度の特定と(2)肯定的な態度の特定の2つのエラーモードを発見しました。
上記の両方のエラーモードは、LLMsがムーバーの性格特性とオブザーバーの態度を誤って関連付けていることに起因しています。表5では、性格と関連付けられている誤って分類された中立的な態度の割合を計算しています。具体的には、誤った予測がキャラクターの性格と一致している場合、そのエラーと性格は関連していると見なします。
OpenToMのストーリーでは、思慮深いムーバーが必ずしもオブザーバーに良い行動をとるとは限りません。そのため、このような見せかけの相関関係を利用すると、LLMsは失敗してしまいます。詳細な結果は付録D.7をご覧ください。
今後の方向性 (Future Directions)
忠実性(Faithfulness): 物理的世界におけるキャラクターのメンタルステートの推論の忠実性を強化するために、ニューロシンボリックシステムを導入することが考えられます。
役割間のパフォーマンス差(Performance Gap Between Roles): 役割を考慮した推論フレームワークが必要です。
社会常識と心理的N-ToM (Social Commonsense and Psychological N-ToM): キャラクター中心の世界の状態を文書化するための効率的なフレームワークと、感情推論プロセスをインスタンス化することが求められます。
結論 (Conclusion)
私たちは、現実的なキャラクターとイベントを持つ長い物語と、N-ToMの物理的側面と心理的側面の両方をカバーする多様な質問を特徴とする包括的なN-ToMベンチマークであるOpenToMを紹介しました。OpenToMでのLLMsのN-ToM能力の評価は、最先端のLLMsがいくつかのN-ToMタスクではうまくいくものの、感情推論を必要とするタスクでは依然として人間レベルのパフォーマンスには及ばないことを明らかにしました。
コメント