大規模マルチモーダルモデル（Large Multi-Modal Models、以下LMMs）における視覚言語調整を促進するための足場座標（Scaffolding Coordinates）

AI・機械学習

2024.03.162024.06.24

概要
はじめに
関連研究
- GPT-4Vの評価：
- マルチモーダルプロンプティング手法：
方法論
その他の要因：
- SCAFFOLDのテキスト的観点：説明とガイドライン
実験
アブレーション研究
他の手法との統合
- SCAFFOLD＋能動知覚
- SCAFFOLD＋Chain-of-Thought
結論
制限事項

概要

最先端の大規模マルチモーダルモデル（LMMs）は、視覚言語タスクで優れた能力を示してきました。しかし、高度な機能にもかかわらず、複数レベルの視覚情報を用いた複雑な推論が必要とされる難しいシナリオでは、LMMsのパフォーマンスはまだ限られています。

LMMsの既存のプロンプト技術は、テキストの推論を改善するか、画像前処理のためのツールを活用することに焦点を当てており、LMMsにおける視覚言語調整を促進するシンプルで汎用的な視覚プロンプト手法が欠けています。

本研究では、視覚言語調整を促進するための足場となる座標をスキャフォールドするSCAFFOLDプロンプトを提案します。具体的には、SCAFFOLDは画像内にドットマトリックスを視覚情報のアンカーとして重ね合わせ、多次元座標をテキストの位置参照として活用します。

様々な難しい視覚言語タスクでの広範な実験により、テキストのCoTプロンプトを用いたGPT-4Vに対するSCAFFOLDの優位性が実証されました。私たちのコードは以下で公開されています。

GitHub - THUNLP-MT/Scaffold: Scaffold Prompting to promote LMMs

Scaffold Prompting to promote LMMs. Contribute to THUNLP-MT/Scaffold development by creating an account on GitHub.

Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models

State-of-the-art Large Multi-Modal Models (LMMs) have demonstrated exceptional capabilities in vision-language tasks. De...

こちらの記事もおすすめ

PCを初期化してからLLMのリモート開発環境（LLaMA-Factory）を構築するまで

PCの初期化から始まり、LLM(大規模言語モデル)の開発環境を構築する過程は、初心者にとっても分かりやすいように段階を追って説明します。このプロセスには、必要なソフトウェアのインストールからSSH環境のリモート開発構築、そしてセキュリティ対...

「PokéLLMon」をAIで実況してみた【Style-Bert-VITS2】

近年、ゲームの実況はただの趣味から一つのカルチャーへと進化しました。特に、AI技術を駆使してゲームの実況を行うことは、視聴者に新鮮な体験を提供します。この記事では、戦術バトルゲームで人間並みのパフォーマンスを達成した最初のLLM体現エージェ...

はじめに

大規模マルチモーダルモデル（LMMs）は、多様な視覚言語タスクを処理する際の優れたゼロショット能力を示してきました。言語モデルコンポーネントの高度な推論能力を活用し、自律走行や異常検知など、現実のシナリオにLMMsを展開する初期の試みがなされています。

しかし、現在のLMMsは、複数レベルの視覚情報に対して複雑な推論を行う際には限定的なパフォーマンスを示します。例えば、空間推論タスクでは、LMMは異なる視覚情報のソース間の関係を解明し、内部動作をテキスト表現と整合させる必要があります。LMMsにとっての課題は、正確な視覚認識と正確な言語理解・生成を調整することにあります。

視覚言語調整を強化するために、LMMsに対する従来の取り組みは、指示チューニング（instruction tuning）とプロンプティング（prompting）の2つのカテゴリに分けられます。

指示チューニングでは、汎用目的または特定ドメイン向けの高品質な画像-テキストペアを使用して、パフォーマンス向上のためにLMMsの追加学習を促進します。しかし、指示チューニングは多大な計算リソースを消費するため、方法論の柔軟性を犠牲にします。

一方、LMMsのプロンプティングは、非パラメトリックな方法でLMMsの機能向上を導きます。言語モデルのプロンプティング技術（Chain-of-Thought など）はLMMsにも適用できますが、引き出された中間的な推論ステップは主にテキストプロンプトの条件下で行われます。

テキストプロンプティング技術が積極的に活用されている一方で、LMMsの正確な視覚認識を導き、視覚言語調整のための視覚プロンプティングに取り組む試みはほとんどありませんでした。

LMMsに対する視覚プロンプティングの課題は、視覚情報とテキスト情報のセマンティック粒度のミスマッチにあります。テキスト文では各単語が明示的に分離されているのに対し、画像内の異なるアイデンティティは明確な境界で分離されていません。

視覚プロンプティングに関する最近の研究には、視覚入力とテキスト入力の間のセマンティック粒度のギャップを狭めるためのツールの活用が含まれます。Yangらは高度な画像セグメンテーションモデルを活用して、入力画像上にオブジェクトセグメンテーションオーバーレイを構築しました。Mitraらは、LMM自体をシーングラフ抽出器として扱い、視覚情報をテキスト形式で生成しました。しかし、ツールの使用は必然的に追加のリソース負担と潜在的な誤情報をもたらします。

最近の取り組みのもう一つの方向性は視覚検索で、複雑な視覚タスクの解決策は、画像の複数の側面を考慮した反復検索プロセスとして扱われます。しかし、視覚検索プロセス全体でのLMMsの反復的なクエリは多大な費用を要するため、実用的な価値が制限されます。

したがって、LMMsにおける視覚言語調整を促進するシンプルで汎用的な視覚プロンプティング手法の存在は未だに明らかではありません。

本研究では、視覚言語調整を促進するための足場となる座標（Scaffolding Coordinates）を活用する、シンプルで汎用的な視覚プロンプティング手法SCAFFOLDを提案します。SCAFFOLDは、入力画像にドットマトリックスを重ね合わせ、各ドットに多次元デカルト座標をラベル付けします。画像上のドットマトリックスはLMMsに相対的な視覚位置を示す足場を形成します。重ね合わせられた座標はテキストプロンプトにも含まれ、LMMsの視覚情報とテキスト情報の関連性を明示的に強化します。これにより、LMMsは座標を利用して様々な視覚言語タスクを解決するよう導かれます。このようにして、SCAFFOLDはLMMsにおける視覚言語調整を促進するための足場を提供します。

空間推論、構成的推論、細粒度のグラウンディング、幻覚に関する複数のベンチマークでの広範な実験により、テキストのCoTプロンプトを用いたGPT-4Vに対するSCAFFOLDの優位性が示されました。また、領域のクロッピングによりSCAFFOLDのパフォーマンスがさらに向上することを示し、SCAFFOLDによって可能になる能動知覚の将来性を明らかにしました。

方法論

本セクションでは、LMMsにおける視覚言語調整のためのSCAFFOLDプロンプティングを紹介します。

SCAFFOLDの視覚的観点：ドットマトリックスと座標

視覚的には、各入力画像に均一に分布した長方形のドットマトリックスを重ね合わせ、各ドットに多次元座標をラベル付けします。これらのドットは視覚的な位置アンカーとして機能し、その座標はテキスト応答におけるテキストの参照として利用されます。

視覚アンカーの実装：

視覚アンカーとして長方形のドットマトリックスを選択した理由は、シンプルで、テキストでの記述が柔軟で、画像シーケンスへの適応性が高いためです。グリッドとは異なり、ドットマトリックスは画像を分離した領域に分割せず、連続した視覚コンテンツを乱すことがありません。さらに、元の情報を保持するために、単一画像タスクでは元の画像と座標を重ね合わせた画像の両方を入力として提供します。

座標の実装：

本アプローチでは、シンプルで明確な多次元デカルト座標を使用します。サイズh×wのドットマトリックスが重ね合わせられた単一画像の場合、各ドットに2次元座標(x, y)を割り当て、その相対的な視覚位置を表します。ここで、x座標は各列内で1からhまで上昇し、y座標は各行内で1からwまで上昇します。画像シーケンスの場合、これらの座標を3次元(t, x, y)に拡張します。t座標は各画像内で一定ですが、シーケンス全体で順次増加し、画像間の区別と時間知覚の強化を可能にします。

比較として、他の座標オプションも検討し、その限界を特定しました。例えば、絶対ピクセル座標は過剰なスペースを消費し、正確に認識して適用するのが複雑です。さらに、1次元のデカルト座標やアルファベット座標では、十分な位置情報を提供できません。

その他の要因：

マトリックスサイズ：

マトリックスは視覚的に明確で、多次元座標のための十分なスペースを提供する必要があります。シンプルさのために、一般的な視覚言語タスクには6×6のマトリックスを採用しています。

マトリックス密度：

事前の視覚知識がない場合、一般的な視覚言語タスクには、均一な密度の長方形ドットマトリックスを選択し、異なる領域にまたがる推論の際に、LMMsに等しい支援を提供します。

マトリックスの色：

座標は、LMMsのOCR能力を使用して認識可能であるように設計されています。したがって、各ドットの色は、背景に対するコントラストに応じて、黒または白のいずれかに着色されます。

SCAFFOLDのテキスト的観点：説明とガイドライン

座標を重ね合わせた視覚入力を補完するために、LMMsへのタスク指示の前にテキストガイダンスを付加します。これには、ドットマトリックスと座標の簡単な説明と、それらを効果的に使用するためのいくつかの一般的なガイドラインが含まれます（付録A.1.1を参照）。これらの説明とガイドラインの特徴は次のとおりです。

(1) 簡潔さ：

テキストガイダンスは意図的に簡潔で明確なものとし、理解しやすいようにしています。

(2) 一般性：

普遍的に適用可能なように設計されたこれらのガイドラインは、特定のシナリオに特化したものではなく、幅広い視覚言語タスクに適しています。

(3) 拡張性：

ガイドラインは意味的に独立しているため、異なるシナリオに基づいてより適切な指示を追加することができます。

(4) 構成可能性：

前置きのテキストは、ゼロショットやCompositional CoTなどの他のプロンプティング手法と簡単に組み合わせることができます。

実験

SCAFFOLDの有効性を実証するために、空間推論、構成的推論、細粒度の視覚的理解、幻覚など、様々な難しい視覚言語タスクにおいて、GPT-4Vを用いた広範な実験を行いました。具体的には、11のベンチマークで体系的な評価を行いました（詳細は付録A.1.2を参照）。実験では、GPT-4Vの温度をゼロに設定しています。

ベンチマーク

このサブセクションでは、評価に使用したベンチマークを簡単に紹介します。予算が限られているため、一部のデータセットでは実験用のサブセットをサンプリングしています。

空間推論（Spatial Reasoning）：

LMMの能力を評価し、オブジェクト間の空間関係を推論します。選択したベンチマークは以下の通りです。

MME（Position split）：LMMsのオブジェクト位置推論を評価するための、MME総合評価スイートのサブセットです。
Visual Spatial Reasoning（VSR）：66種類の空間関係を用いて、空間命題を検証するLMMsに挑戦します。
EgoThink（Spatial split）：一人称視点からLMMsの空間推論能力をテストします。

構成的推論（Compositional Reasoning）：

LMMsがオブジェクトの属性とそれらの相互関係を特定することを要求します。選択したベンチマークは以下の通りです。

Winoground：LMMsの構成的推論を必要とする、イメージとキャプションのマッチングの難しいベンチマークです。二者択一の質問として再構成して評価しました。
WHOOPS! VQA：常識に反する画像に対する構成的推論を含みます。
CLEVR：プログラム生成されたシーンにおける構成的推論の評価を目的としています。

細粒度の視覚的理解（Fine-Grained Visual Understanding）：

LMMsが視覚的検索を行い、細粒度の視覚的詳細を正確に知覚することを要求します。選択したベンチマークは以下の通りです。

V* Bench：高解像度画像における細粒度の視覚的詳細を特定し、推論するためにLMMsに挑戦します。
Spotting Differences：2つの類似画像の違いを見つけ、ピンポイントで指摘することをLMMsに挑戦する、新たに収集したデータセットです（詳細は付録A.2.3を参照）。

幻覚（Hallucination）：

LMMsが幻覚的または錯覚的な知覚を生成する傾向を測定します。選択したベンチマークは以下の通りです。

POPE（Adversarial Subset）：特定のオブジェクトの存在を問うことで、オブジェクトの幻覚を評価します。
HallusionBench：LMMsにおける幻覚と視覚的錯覚を測定するために、入念に作成された画像で構成されています。
Mementos：LMMsが画像シーケンスに対して正確な推論を行い、オブジェクトと行動の点でそのパフォーマンスを測定します。

ベースライン

このセクションでは、実験で使用したベースラインとしてのプロンプティング手法を紹介します。

Naive Prompting：元の画像とユーザー指示をLMMsへの入力として利用し、プロンプト最適化なしで直感的なベースラインを確立します。
CoT：LMMsに最終的な答えを出力する前に、ステップバイステップの推論を行うよう導きます。プロンプトテキスト "Let's think step by step." をタスクの説明の前に付加します。

結果と分析

表1に示すように、結果はSCAFFOLDがLMMsの視覚能力を大幅に向上させ、ほとんどの評価ベンチマークでCoTを上回ることを示しています。Naive PromptingとCoT Promptingがそれぞれ平均45.7と48.8であるのに対し、SCAFFOLDは9.6の全体的な改善を成功裏に達成しています。

空間推論：

SCAFFOLDは3つのベンチマークにおいて、平均13.3の改善で、LLMsの空間推論能力を著しく向上させました。図3は、SCAFFOLDがどのようにしてGPT-4Vに重要なオブジェクトを巧みに特定させ、2次元座標を用いて正確な位置情報を記録させ、x座標の数値解析により空間関係の正しい評価につなげたかを示しています。

構成的推論：

SCAFFOLDにより、GPT-4Vは平均8.2の改善を示し、構成的推論の能力が向上しました。重要な視覚要素の知覚が向上し、推論プロセスがスムーズになりました。付録A.3の図9に示すように、SCAFFOLDは重要なオブジェクトをテキストの位置と関連付け、GPT-4Vが重要な視覚的詳細を正確に特定し、局在化するのを助けます。

細粒度の視覚的理解：

V* BenchやSpotting Differencesなどのベンチマークにおいて、SCAFFOLDはLMMsの視覚的検索を行い、細粒度の視覚的詳細を局在化する能力を平均11.7向上させました。図4を例に取ると、座標の支援により、GPT-4Vはターゲットの視覚要素の正確な位置を効果的にピンポイントで指摘し、記録することができ、ターゲットの属性の正確な知覚に貢献しています。さらに、座標がない場合、GPT-4Vは検索を諦め、失敗を謝罪する傾向が高いことも注目されます。

幻覚：

座標を足場として利用することで、GPT-4Vはシーン内のオブジェクトを認識し、その位置をさらに正確に記述することができ、テキストの推論を正確な視覚情報に集中させることができました。平均で5.7の改善が見られました。付録A.3の図11の例に示すように、座標を用いたGPT-4Vは、視覚的な詳細を正確に捉え、存在しないオブジェクトを幻視することを防ぐことができ、正確な視覚的グラウンディングを促進しています。

アブレーション研究

SCAFFOLDを検証し、さらに探求するために、マトリックスサイズや座標の色などの重要な要因に関する広範なアブレーション研究を行いました。

実験設定

GPT-4Vのアクセス枠が限られているため、Visual Spatial Reasoning（VSR）、Winoground、POPE（Adversarial Subset）からそれぞれ50問ずつサンプリングし、150サンプルのアブレーションサブセットを作成しました。メトリックとしては、問題ごとの全体的な精度を採用し、GPT-4Vを使って実験を行いました。さらに、安定した結果を得るために、各実験を2回実行し、平均精度を報告しています。

マトリックスサイズの影響

マトリックスサイズhとwは、テキスト参照の精度と視覚情報の粒度に影響を与える可能性があります。そこで、3×3から7×7までのさまざまなサイズのマトリックスを組み込み、そのパフォーマンスを測定しました。

図5は、さまざまなマトリックスサイズでのパフォーマンスの変化を示しており、アブレーションデータセットでは6×6が最適なサイズであることを示唆しています。さらに、右上のセクションのサイズは、左下のセクションのサイズよりも優れたパフォーマンスを示す傾向があります。これは、サンプリングされた画像は通常、高さ以上の幅を持つため、マトリックスサイズは理想的には画像サイズに合わせる必要があることを示唆しています。

さらに、6×6サイズはすべてのサブセットで最良の結果を出したわけではなく、特定のタスクに合わせてマトリックスサイズをカスタマイズすることでパフォーマンスが向上する可能性があることを示唆しています。マトリックスサイズの自動的かつ動的な調整は将来の研究課題として残されています。

マトリックスの色の影響

マトリックスの色に関しては、さまざまな色付け戦略を設計し、そのパフォーマンスを比較しました。

図6に示すように、均一な色付け戦略では、さまざまなシーンに同じ色を採用するため、時には周囲に溶け込んでしまうことがあります。補色は大量の色を導入し、モデルの注意をそらす可能性があります。したがって、シンプルさと視認性のために、各ドットの位置で黒と白の中から最もコントラストの高い色を選択しました。この手法の有効性を評価するために、均一の黒、均一の白、補色の各ベースラインの色付け戦略と比較しました。表2に示すように、私たちのバイナリ色付け戦略は、パフォーマンスにおいてわずかに他の選択肢を上回りました。

座標形式の影響

ドットのテキスト参照としての座標は、視覚入力とテキスト出力の整合性にとって重要です。私たちの実装の有効性を評価するために、アルファベット、1次元数値、ピクセル絶対座標など、さまざまな座標形式を試しました。これらの形式の例は、付録A.3の図12に示されています。

表3に示す結果から、私たちのアプローチは他の座標設計よりもパフォーマンスが優れていることがわかります。さらに、座標設計はすべて、座標なしのベースラインよりも優れたパフォーマンスを示しており、座標設計の柔軟性とさまざまなシナリオへの適応性を示唆しています。

5.5 ドット摂動の影響

SCAFFOLDの回復力を評価するために、ドットにガウス雑音を導入し、相対的な配置を大きく変えることなく、その位置を微調整しました（図7参照）。元のドットの位置を(X, Y)とし、x軸とy軸に沿った隣接ドット間の距離をそれぞれl_h、l_wとします。摂動された座標(X_new, Y_new)は次のようになります。

X_new X N(0,(1/4・l_h)^2)
= +
Y_new Y N(0,(1/4・l_w)^2)

図7に示す結果によると、ノイズで摂動された座標は、標準座標による改善を保持するだけでなく、VSRサブセットではそのパフォーマンスを上回っています。これは、座標の摂動に対する実質的なロバスト性を示しており、その配置をさらに最適化する可能性を示唆しています。

他の手法との統合

このセクションでは、SCAFFOLDと能動知覚およびChain-of-Thought（CoT）を組み合わせた統合実験について説明します。

SCAFFOLD＋能動知覚

複雑な視覚環境では、人間はシーンの理解を高めるために、ズームインしたり視点を変えたりと、周囲に能動的に働きかけます。同様に、LMMsも現実のシナリオでそのような能力を持つべきだと認識し、SCAFFOLDが効果的な能動知覚のための足場として機能できることを提案します。

これを検証するために、V* Benchの direct_attributes サブセットの実験でSCAFFOLDと能動知覚を統合しました。このサブセットは、高解像度の画像で細粒度の詳細を知覚するようLMMsに挑戦するものです。この課題には、ターゲットオブジェクトの局在化とその属性の特定の両方が含まれ、解像度の制約下でそれらを行う必要があります。そこで、無効な応答の割合を表すNot Found Rate（NFR）と、正しい応答の割合を表すSuccess Rate（SR）の2つのメトリックを採用し、LMMのパフォーマンスを測定しました。

図8に示すように、私たちの統合手法は2つのフェーズで展開します。最初にターゲットの詳細を見つけるための視覚的検索を行い、次にピンポイントで指定された座標周辺の画像をクロッピングして、ターゲットの属性を詳しく調べて特定します。

結果は表4に示されており、SCAFFOLDだけの場合と比較して14.1％のパフォーマンス向上が見られ、能動知覚を促進する上での座標の有用性が強調されています。さらに、結果から2つの顕著なパフォーマンスの飛躍が明らかになりました。最初の改善（CoT→SCAFFOLD）は座標の使用によるもので、Not Found Rateを大幅に減らし、視覚検索プロセスを支援しました。次の向上（SCAFFOLD→SCAFFOLD＋A.P.）は、能動知覚の統合実装によるもので、LMMsがクロップされた領域内のターゲット属性を正確に識別できるようになりました。

SCAFFOLD＋Chain-of-Thought

私たちのプロンプティング手法は、シンプルさを特徴としており、"Let's think step by step."をユーザー指示に追加することで、ゼロショットCoTとシームレスに統合できます。その有効性を検証するために、Winoground と V* Bench で実験を行いました。表5の結果は、私たちの手法をCoTと組み合わせることで、どちらかの手法を単独で使用した場合よりもLMMのパフォーマンスが向上することを示しています。これらの結果は、私たちの手法の実質的な互換性と、他の手法と組み合わせた場合のパフォーマンス向上の可能性を強調しています。

結論

本研究では、LMMsにおける視覚言語調整を促進するための足場となる座標を活用する、シンプルで汎用的な視覚プロンプティング手法SCAFFOLDを提案しました。広範な実験により、SCAFFOLDがいくつかの難しい視覚言語タスクでLMMの能力を引き出すことに成功したことが示されました。

制限事項

ここでは、本研究の2つの制限事項について議論します。

(1) ドットマトリックス属性の自動調整について：

本研究では、シンプルさと明確さのために、実装では6×6のマトリックスを採用しました。しかし、セクション5のアブレーション研究では、すべてのデータセットで最良の結果を出すわけではないものの、ワンサイズフィットオールのマトリックスサイズで良好な結果が得られることが示唆されています。視覚的タスクの多様性と異なるシーンにおける情報の粒度の違いを考えると、マトリックス属性（サイズや座標形式など）を各タスクや各サンプルの特定の要件に合わせて調整することでパフォーマンスが向上する可能性があります。これらの属性を動的かつ自動的に調整し、さまざまなシナリオにより適合させることは、今後の探求領域として残されています。

(2) 視覚的局在化の精度向上：

ドットマトリックスと座標を画像に重ね合わせることで、主要なオブジェクトを最も近い座標と関連付けることにより、視覚言語調整の改善を目指しました。しかし、観察によると、特に複雑またはクラスター化されたシーンでは、GPT-4Vがテキストの推論を最も近い座標と正確に関連付けることに苦労することがあります。この課題は、LMMsが複雑な環境でより優れた視覚的局在化とグラウンディング能力を達成する必要性を浮き彫りにしています。SCAFFOLDを用いることで、視覚的局在化の点でLMMsと視覚プロンプティング技術の将来がさらに改善されることを期待しています。