はじめに

「The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)」の解説と検証を行っていきます

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intellig...

こちらの記事もおすすめ

CG制作もChatGPTでワンパン～BlenderとChatGPTを活用して簡単にオーディオビジュアル(オーディオスペクトラム)を作成しよう！～

はじめにBlender とChatGPT の組み合わせて、あっと驚く簡単さでオーディオビジュアルを作る方法を学びましょう！初心者の方でも分かりやすく解説していきますので、ぜひ最後までご覧ください。解説動画 @maki.sunwood.ai...

【作曲AI】AIを使って曲を作成しよう！【suno.ai】

はじめにこんにちは！今回は、AIを使って曲を作る方法をご紹介します。従来のBGMのようなものだけでなく、人の声が入った曲も作れる時代になりました。興味を持った方は、以下の手順に従って一緒に挑戦してみましょう！解説動画 @maki.sunw...

Abstract

大規模なマルチモーダルモデル（LMMs）は、視覚理解などの多感覚スキルを備えた大規模言語モデル（LLMs）を拡張し、より強力な一般的な知性を実現することを目的としています。この論文では、最新モデルであるGPT-4V（視覚版）を分析し、LLMsの理解を深めることを目指しています。分析は、GPT-4Vが実行できるタスクや、品質と一般性を探るテストサンプルを含む興味深い課題に焦点を当てています。また、モデルにプロンプトする効果的な方法についても考察しています。GPT-4Vの探索にあたり、様々なドメインやタスクを網羅した慎重に設計された質的サンプル集をキュレートし、整理します。相互に交錯したマルチモーダル入力を処理するGPT-4Vの前例のない能力と、その機能の一般性は、GPT-4Vを強力なマルチモーダル汎用システムにしています。さらに、GPT-4Vが理解する視覚マーカーを利用した自然画像からのコンピューターインタラクションによって、新しい人間コンピューターインタラクション手法が生まれる可能性があります。私たちは新しい応用シナリオや将来の研究方向についての詳細な議論を含んだレポートを提供し、GPT-4Vベースのシステムの将来について考察します。この初歩的な探索が次世代のモデル設計に対する新しいインスピレーションとなり、問題定義、LMMsを利用して実世界の問題を解決する新しい方法、革新性を高める方法を発見し、それにより知識を深めることを期待しています。最後に、我々の研究対象となっているモデルは、OpenAIが開発したGPT-4Vのみであり、その革新性と貢献については十分な評価がなされるべきであると認識しています。

ここでは「大規模マルチモーダルモデル（LMMs）」と呼ばれる高度な技術について述べています。これらは画像理解のような複数の感覚を使える「大規模言語モデル（LLMs）」をさらに進化させたもので、もっと賢いコンピューターシステムを作るのが目的です。特に「GPT-4V」という最新のモデルに焦点を当てており、このモデルがどのようなタスクを実行できるか、その品質や汎用性をテストすることにより、これらのモデルについての理解を深めようとしています。研究者たちは、GPT-4Vが様々な状況や仕事にどう適応できるかを示すための多くの例を集め、その分析を行っています。このモデルは、異なる種類の情報を同時に扱う能力があり、そのためとても強力なシステムと言えます。また、このモデルを使って、新しい種類の人とコンピューターとのやり取りができるかもしれないとしています。この論文は、この技術が今後どう活用され、研究されるべきかについての提案も含んでおり、この分野での革新を推し進める新しいアイデアを探求しています。最後に、この研究で取り上げられている「GPT-4V」はOpenAIが開発したもので、その独創性と貢献はきちんと評価されるべきだと結論付けています。

Introduction
GPT-4V’s Input Modes
GPT-4V’s Working Modes and Prompting Techniques
参考サイト
1. 関連

Introduction

Motivation and Overview

大規模言語モデル（LLMs）は様々なドメインやタスクにおいて印象的な成果を示しており、この分野の次なる進化は、視覚機能を統合することによってLLMsの能力を拡張することを目指しています。人間の視覚感覚を模倣することに重点を置いています。
いくつかの初期研究では、既存の視覚モデルを拡張したり、視覚データを理解するために設計された言語モデルを使用することで、視覚機能を模倣しようとしていますが、これらのモデルは限られたデータやモデルのサイズによって可能性が制限されているため、様々な使用上の制約があります。
そこで本報告では、最先端の大規模言語モデルであるGPT-4Vの初期バージョンに焦点を当て、多様なモーダル性を持つ大規模なデータセットに基づいて構築された、最新のLLMについての探索を行っています。
この探索は以下の質問に導かれます。

Questions

GPT-4Vはどのような入力や動作モードをサポートしているのか？
- GPT-4Vが処理できる入力の種類と、モデルがどのように機能するかについての問い。
GPT-4Vの能力の品質と一般性はどの程度か？
- さまざまな分野やタスクでのGPT-4Vのパフォーマンスとその汎用性についての問い。
GPT-4Vを効果的に使用しプロンプトするにはどうすれば良いか？
- GPT-4Vが画像入力をどのように解釈し、どのように反応するかについてのアプローチ。
どのような将来の方向性が有望か？
- GPT-4Vの能力を活かした、将来のアプリケーションや研究の可能性についての問い。

最後に、この研究が取り組む問題を整理し、特に注目すべき優れた研究成果を選び出し、リストアップします。それらを統合して、未来のAIシステムに向けた新しい試みやアプローチをどのように展開するかについての見通しを提案しています。

この章は、最先端の大規模言語モデル（LLMs）が、視覚機能の統合を次の進化のステップとしていることを概説しています。これにより、モデルが人間のように視覚データを理解できるようになることを目指しています。しかし、初期研究ではデータセットやモデルサイズが限られており、使い勝手に制限があることが指摘されています。

この文脈で、GPT-4Vという最新のLLMの初期バージョンに注目し、その能力と使い勝手について探究しています。具体的には以下の四つの質問に答える形で調査を進めています：

1. GPT-4Vがどのようなタイプの入力や動作モードをサポートするか。
2. GPT-4Vの性能の品質と一般性はどれくらいか。
3. GPT-4Vをどうプロンプトして効果的に使うか。
4. GPT-4Vを活用した未来のアプリケーションや研究の方向性は何か。

この報告では、これらの問いに答えることによって、新しいAIシステムの展開に向けた優れた研究成果と新しいアプローチを整理し、提案しています。

Our Approach in Exploring GPT-4V

Goal of this report

システムを評価する標準的な方法は、特定のドメインやタスクを代表する慎重に設計されたデータセット群を対象にベンチマークテストを行うことです。一つの問題は、既存のベンチマークがもはやLLMsの評価に適していない可能性があるということです。例えば、画像キャプションの出力は、画像キャプションのベンチマークデータセット[27]の基本真実よりもはるかに豊富で詳細な説明を含んでいます。また、GPT-4Vの大規模な事前学習に関する情報が不足しており、そのためにトレーニングとテストのセットアップに反する可能性があります。このため、既存のベンチマークとメトリックスに評価を限定すると、GPT-4Vの評価範囲が意図せずに狭められてしまう可能性があります。次世代の評価タスクとベンチマークの包括的なリストを作成することが理想的な究極の解決策ですが、そのために必要な膨大な努力を考えると、我々はそれを将来の作業として残しています。

定量的ベンチマークではなく、この論文では質的な結果を使用して、GPT-4Vの新しい能力や潜在的な新しいユースケースをプレビューすることに焦点を当てています。これらの新しい能力が完全に信頼できるとは限らないにせよ、この探索のコレクションが将来の研究を刺激し、次世代のマルチモーダルタスクのベンチマークを改善し、既存のベンチマークを近代化し、さらにシステムの信頼性とパフォーマンスを向上させ、新しい発見を引き出すことを目指しています。この後に続き、GPT-4Vを探求するためのアプローチの核心デザインについて詳細に説明します。

Sample selection guidance.

この報告書では、定量的なベンチマーク結果を提供するのではなく、GPT-4Vの潜在的な能力を示す質的な結果に焦点を当てています。この報告書に記載されたある特定のサンプルでは、GPT-4Vの対応する能力を増幅するために注意深い調整が必要かもしれません。このような能力のデモンストレーションは、異なるサンプルにわたって一貫して機能するとは限らないため、再現可能な機能が主な目的ではありません。代わりに、我々はGPT-4Vの発見された潜在的な能力のリストを提供し、そうでなければ見過ごされがちなものを挙げています。

Sample selection to prevent mere memorizing from training.

モデルが訓練から真の能力を判断する基本的な考慮事項は、訓練からのサンプルや、指示に基づく教育的な推測や文脈内のヒントからの推測を避けることです。私たちは、画像とテキストの両方を制御し、2023年4月以前にアクセス可能でないか、アクセスできない画像と、完全に新しいテキストクエリを生成することで、GPT-4Vの訓練中に見たことがない画像を扱うよう努めています。また、ある特定のサンプルでは、たとえば意図的に学習からのサンプルを使用しないなど、この基準を満たしていない場合もあります。これらのクエリは、モデルの推論プロセスを探るために設計されています。

The default working mode

後でセクション3で詳細に説明するように、GPT-4Vはさまざまな動作モードで機能します。これには、指導なしのゼロショット学習、文脈内の少数の学習、短期学習などが含まれます。この設計は、インコンテキストの例から性能情報や学習情報の漏洩を防ぐためのものです。したがって、新しい機能を生み出し、拡張するために、ゼロショットをデフォルトの「動作モード」として指定しています。これは、文脈内のプロンプトを最小限に抑えることで、アクセス可能な能力を推測することを意図しています。

この報告書では、GPT-4Vという最先端の大規模言語モデルの潜在的な能力と新しいユースケースを探索するアプローチについて説明しています。主な目的は、モデルの評価に既存のベンチマークが十分でない可能性を考慮し、次の世代の評価基準を模索することです。具体的には、GPT-4Vが生成可能な豊かな画像キャプションのように、既存のベンチマークを超えた性能を見極めるために、質的な評価を中心に行っています。

報告では、定量的なベンチマークに代わる質的な結果を示し、GPT-4Vの新しい能力やまだ見落とされがちな潜在能力を明らかにしています。サンプル選択では、GPT-4Vが訓練中に見たことのない完全に新しいテキストクエリに対応できるようにし、真の推論能力をテストしています。特定のサンプルではモデルの推論プロセスを深く掘り下げるために教育的な推測や文脈を利用することもあります。

さらに、GPT-4Vは複数の動作モードで機能することができ、この報告書では、新しい能力の検出に集中するためにゼロショット学習をデフォルトの動作モードとしています。これにより、モデルの能力をインコンテキストの漏洩なしに判断できるようになっています。

この報告書を通じて、研究者たちはGPT-4Vの可能性を最大限に引き出し、既存のベンチマークを近代化し、将来の研究を刺激することを目的としています。

How to Read this Report?

このレポートは、コンピュータビジョンと視覚言語の多領域分野で研究を行う研究者によるGPT-4Vの探求を文書化しています。主に、LMM（大規模言語モデル）の能力を質的に理解し、従来の視覚言語モデルとの違いを把握したいと考える関連分野の研究者向けに作成されています。また、AIやコンピュータサイエンスが専門外のプロフェッショナルにとっても、彼らが専門分野内でLMMの効率を高める方法を概念化する助けとなるように準備されています。

私たちは、探索をガイドする4つの中心的な質問をまわりに構成されたレポートの概要を提供します。

このレポートは、GPT-4Vという最新のコンピュータビジョンと視覚言語処理技術を探求した研究の成果をまとめたものです。特に、大規模言語モデル（LMM）の性能を深く理解したいと考える研究者や、自分の専門領域でLMMをどう活用するかを学びたい非専門家に役立つ内容が含まれています。この文書は、4つの重要な質問を軸にしてレポートが構成されており、それに沿った情報を提供します。

What are GPT-4V’s supported inputs and working modes?

GPT-4Vのサポートする入力と動作モードは何ですか？ :
セクション2はGPT-4Vがサポートする入力をまとめ、それらに対応するユースケースの概要を提示します。柔軟な画像とテキストの交互入力に基づき、セクション3はGPT-4Vの異なる動作モードを議論します。これには、インストラクションチューニング、文脈内学習、その他の新たな使用法が含まれます。

What are the quality and genericity of GPT-4V’s capabilities on different domains and tasks?

GPT-4Vの質と有効性は、どのような異なるドメインやタスクでの使用により評価されますか？：
この質問の探求はレポートの大部分を占め、セクション4では包括的な分析を提供します。それは、異なるドメインでの画像記述と認識、密接な視覚理解、多様な知識、コモンセンス、文章の理解、文書の推論、そして多モーダルな知識を含みます。また、セクション6はGPT-4Vの時間的、運動的、ビデオ理解能力を分離しています。セクション7は抽象的な推論と論証能力を探り、セクション8は感情理解について論じます。

What are effective ways to use and prompt GPT-4V?

GPT-4Vを使用しプロンプトする効果的な方法は何ですか？：この質問に関する議論はセクション3のプロンプト方法の導入で始まります。セクション5では、特に視覚リファレンシングプロンプトという、画像出力にテキストを上乗せしてGPT-4Vをプロンプトする新しいプロモーションテクニックに注目します。柔軟なプロンプト方法を実証し、指示と例のデモンストレーションの組み合わせのような組み合わせを通じて、レポートでは複数の例を提供します。

What are promising future directions?

将来有望な方向性は何ですか？：セクション9では、GPT-4Vによって可能になる新しいユースケースに焦点を当てています。これらの初期の例は、GPT-4V上で新しいタスクセットを設計する強固なベンチマークを構築する将来の作業に触発されるかもしれません。ここで提示される機能は、多モーダルプラグイン、マルチモーダルチェーン、セルフ連想、自己教育的なLMMなどの、GPT-4Vに基づく機能を含みます。

この概要と目次に加えて、図表リストも含まれています。このリストはレポート内の詳細な質的例を列挙し、追加のツールとして、読者が関心のあるシナリオにナビゲートするのを助けます。

1. GPT-4Vのサポートする入力と動作モード :
セクション2ではGPT-4Vが対応する入力とその利用事例を概説し、セクション3では柔軟な画像とテキストの交互入力に基づくGPT-4Vの様々な動作モード、インストラクションチューニング、文脈内学習などの新しい使用法を詳述しています。

2. GPT-4Vの能力の質と一般性 :
セクション4はGPT-4Vの能力に関する包括的な分析を提供し、異なるドメインでの画像記述、認識、視覚理解、コモンセンス、文章理解などを含みます。セクション6は時間的、動きのあるビデオ理解能力を掘り下げ、セクション7と8はそれぞれ抽象的推論と感情理解に焦点を当てています。

3. GPT-4Vの効果的な使用法とプロンプト方法 :
セクション3と5ではGPT-4Vのプロンプト方法として、視覚リファレンシングプロンプトなどの新技術に注目し、指示と例のデモンストレーションを組み合わせるなどのプロンプト方法を紹介しています。

4. 将来有望な方向性 :
セクション9では、GPT-4Vを用いた新しいユースケースに焦点を当て、多モーダルプラグインやマルチモーダルチェーンなど、GPT-4Vベースの機能の将来の応用について探求しています。

GPT-4V’s Input Modes

このセクションでは、GPT-4Vがサポートする入力、つまり、単一モデル言語モデルとしての機能、テキストのみの入力、オプションで1枚の画像を伴う単一の画像テキストペア、複数の画像入力のみを交互に使用することをまとめています。次に、これら異なる入力モード下での代表的な使用事例を紹介します。

Text-only Inputs

GPT-4Vの強力な言語能力により、テキストのみの入力で効果的な単一モデル言語モデルとして機能します。入出力にテキストのみを使用して動作することで、GPT-4Vは多岐にわたる言語およびコーディングタスクをこなすことができます。GPT-4Vの言語とコーディング能力に関する包括的かつ詳細な分析、および視覚機能を持たないGPT-4との比較については、技術レポート[99]をご参照ください。

GPT-4Vは、テキストのみを入出力とすることが可能な強力な言語処理機能を有していて、単一のモデルとして機能します。このモデルは言語とコーディングに関連する多様なタスクを効率的に実行できます。GPT-4Vの言語能力とコーディングに関する能力の詳細な分析、そして視覚機能がないGPT-4との比較は、専門の技術文書であるレポート[99]で確認することができます。

Single Image-text Pair

GPT-4Vは、最新の大規模多モーダルモデルで、画像とテキストを入力として受け取り、テキスト出力を生成します。既存の汎用視覚言語モデル[9, 81, 73, 8, 70, 122, 120, 155, 28, 83, 45, 74, 57, 64, 72, 132, 29, 140, 41, 7, 128, 46, 40, 158, 69]の流れを組むGPT-4Vは、単一の画像テキストペアあるいは単一の画像を入力として使用し、画像認識[37]、物体位置特定[153]、画像キャプション[27]、視覚的質問応答[12]、視覚対話[36]、密集したキャプション[62]など、様々な視覚及び視覚言語タスクを実行できます。画像テキストペアは、キャプションのように「画像を説明してください」などの指示として、または視覚的質問応答における質問のようなクエリ入力として使用できることに注意してください。GPT-4Vの非凡な知能は、以前のアート作品と比較して顕著に向上したパフォーマンスと汎用性によって例示されています。様々なドメインにおけるその多モーダル能力の包括的な分析は、セクション4で詳述されています。

GPT-4Vは最新技術を取り入れた多機能の大規模モデルです。これは、画像とテキストの両方を入力として受け入れ、それに基づいてテキストの出力を生成する能力を持っています。画像とそれに関連するテキストの組み合わせ、または画像のみを使って、画像の認識、位置特定、キャプション作成、質問への応答など、さまざまな視覚関連タスクを処理できます。これは、画像に関する指示を与えたり、質問に答えるための情報を提供したりするのに役立ちます。GPT-4Vは前のモデルに比べて、その性能と適応性が大幅に向上しており、その多方面にわたる能力は文書の第4セクションで詳細に説明されています。

Interleaved Image-text Inputs

GPT-4Vの汎用性は、組み合わせた画像とテキストの入力を柔軟に扱える能力によってさらに高められています。画像とテキストの組み合わせ入力は、複数の画像や短い質問、指示が含まれる視覚中心のものであったり、2つの画像が挿入された長いウェブページのようなテキスト中心のものであったり、または画像とテキストのバランスの取れた混合であることがあります。この混合入力モードは多様なアプリケーションに柔軟性を提供し、例えば複数の領収書にわたる総税額を計算する（図1参照）などの処理が可能です。また、複数の入力画像を処理して質問された情報を抽出することもできます。GPT-4Vは組み合わせた画像テキスト入力間で情報を効果的に関連付けることができます。例えば、メニュー上のビールの価格を見つけ出し、ビールの数を数えて総コストを返すなどです（図1参照）。直接的な応用を超えて、組み合わせた画像テキスト入力の処理は、コンテキスト内少数例学習やその他の進んだテスト時プロンプティング技術のための基本的なコンポーネントとして機能し、それによってGPT-4Vの一般性をさらに向上させます。これらの興味深い新しい使用法を次のセクションであるセクション3で示します。

GPT-4Vは、画像とテキストを組み合わせた入力を柔軟に扱うことができ、これによってその汎用性が向上しています。この機能により、視覚的な内容が中心の入力やテキストが中心の入力、あるいは画像とテキストがバランスよく混在した入力など、さまざまな形式に対応できます。たとえば、複数の領収書から税金の合計を計算したり、入力された画像から特定の情報を取り出すことが可能です。また、メニューからビールの価格を読み取り、その総額を計算するなど、画像とテキストの入力を効率的に関連付けて処理できます。この技術は、単に直接的なタスクを処理するだけでなく、少数例学習やテスト時プロンプティング技術などの進んだ学習技術にも応用され、GPT-4Vの用途を広げています。このような新しい使用法については、文書の次のセクションでさらに説明されています。

GPT-4V’s Working Modes and Prompting Techniques

Following Text Instructions

GPT-4Vの特長の1つは、画像理解におけるその一般性であり、部分的には強力な自然言語理解と柔軟なテキスト生成機能によって達成されています（参考文献 102, 96, 134, 111）。指示は、任意の視覚言語ユースケースに対して所望の出力テキストを定義しカスタマイズする自然な方法を提供します。図2は、文の長さや使用する単語に制約を持つ条件で画像の側面に関する説明を生成する例を示しています。一方で、GPT-4Vは抽象的な推論問題の解釈をよりよく理解するために、インターリーブステップを含む指示を提供することで、課題を克服することができます。GPT-4Vは、未確認のアプリケーションやタスクへの適応性において大きな可能性を秘めており、9章で詳しく述べる研究（参考文献 7, 13, 48, 157, 79, 35）と同様に、テキスト指示に基づく画像の説明タスクでの独自の能力を示しています。我々は後に3.3節でGPT-4Vの多様な例に基づいた指示に従う能力について詳しく述べます。

さらに、テキスト指示がどのようにしてGPT-4Vの応答を形作る重要な役割を果たすかを示します。それは(i)「制約されたプロンプト」と(ii)「良いパフォーマンスを条件とする」という2つの側面からです。前者は特定の形式のGPT-4Vに応答することを要求し、後者は良いパフォーマンスを明示的に要求することです。

GPT-4Vは強力な言語理解とテキスト生成能力を使い、画像内容を理解してカスタマイズ可能なテキストを生成します。このシステムは、文長や単語選択に制約を設けることで正確な説明を作成し、複雑な問題を解決する能力を持っています。また、テキスト指示に従い、特定の応答形式や優れたパフォーマンスを求めることができます。

Constrained prompting

制約されたプロンプト。図3で、私たちはGPT-4Vにテキストの中のテキストを読むように要求し、特定のJSON形式での情報を理解します。GPT-4Vは運転免許証の情報を抽出する際にいくつかの間違いを犯していますが、応答はテキスト指示で指定されたJSON形式で制約された情報に限られます。この技術は特定のアプリケーションシナリオで使用されます（9章参照）。

Condition on good performance

良いパフォーマンスを条件とする。大型言語モデル（LLMs）についての1つの観察は、LLMsが成功を求めるわけではないということです。むしろ、LLMsは性能の範囲を模倣したいと考えており、ユーザーがモデルに与えたタスクで成功を望む場合に限ります。これはLLMsの複雑さに起因するもので、私たちが観察するものです（参考文献 156）。図4では、異なるテキスト指示に対するモデルの応答を比較しています。例えば、「リンゴの数を数える」という問題です。しかし、GPT-4Vはリンゴを行ごとに数える際に、合計で12個のリンゴがあると誤って数えてしまいます。私たちは「Let's think step-by-step.」というアプローチでパフォーマンスを改善します。GPT-4Vの予測されたステップは一般に正しいものの、最終的な答えは「12個のリンゴ」となってしまいます。次に、指示を修正し、「リンゴの数を行ごとに数え、それぞれを合計して総数を求めましょう」と指示することで、最終的な答えが更に誤ったもの（15個ではなく11個）になります。最終的に、「Let's work this out in a step by step way to be sure we have the right answer.」という形式を模倣します。「画像の中の物を数えることに関してあなたは専門家です。リンゴの数を数えてください」と指示します。そして、「良いパフォーマンス」という条件を第2文に明示的に含めることで、GPT-4Vはリンゴの数を正確に数えることができます。この設計を使用して、GPT-4Vは各行のリンゴの数を正確に返し、さらに全体的な数を正確に返すことに成功しています。当論文を通じて、我々は様々なシナリオでこの技術を使用しています。

大型言語モデル（LLMs）は自ら成功を追求するわけではなく、ユーザーが求めたタスクでの成功を模倣するよう設計されています。GPT-4Vの実験では、「リンゴの数を数える」というシンプルな問題に対して、ステップバイステップのアプローチを取り入れることでパフォーマンスが向上しました。当初は誤った数を返していましたが、「専門家としてリンゴを数える」という指示と「良いパフォーマンスを条件とする」という追加の文言を用いることで、GPT-4Vは正確なリンゴの数を返すようになりました。この方法は論文全体で様々なシナリオに適用されています。

Visual Pointing and Visual Referring Prompting

指し示すことは、人間同士の相互作用の基本的な側面です[89]。比較可能な相互作用のチャンネルを提供するために、様々な形の「指し示し」が任意の空間領域を指すために研究されています。例えば、図5で示されているように、「指し示し」は、ボックスの座標や画像の切り抜き、矢印、ボックス、円、手描きの図など、画像ピクセル上にオーバーレイされた視覚的マーカーとして表現できます。我々は、GPT-4Vが画像上に直接描かれた視覚的なポインターを理解することに特に強いことを観察しました。画像上に描画する柔軟性を考えると、この能力は将来の人間とコンピュータとの相互作用における自然なアプローチとして使用できます[90, 117, 157]。この目的のために、私たちは視覚的参照プロンプトという新しいプロンプト方法を探求しています。これは人々が視覚的ポインターや手書きのシーンテキストなど、希望する目的を指定するために入力画像のピクセルスペースを編集するものです。図6で示されているように、視覚的参照プロンプトは画像のピクセルを編集して、従来のテキストプロンプトの代わりに関心のあるタスクを実行します。例えば、指し示されたオブジェクトを記述することに焦点を当てた単純な根拠付けられた説明でありながら、図6（1,2）に示されるようにグローバルな画像の文脈を維持する理解が可能です。視覚的参照プロンプトは、指し示されたオブジェクトに手書きのシーンテキストのインデックスを関連付ける（図6（3））、または問い合わせられたエッジや角度の近くで尋ねられた質問を解決する（図6（4））など、他の新しいユースケースも可能にします。第5節では、視覚的参照プロンプトについて詳しく議論します。

Visual Referring Prompting figure

case (1)

プロンプトでは、画像内で指摘された列の吊り下げられたライトについて記述しており、これらは小さく丸く、間隔をあけて一列に配されています。パティオエリアの上にあり、装飾的な照明として使用される可能性があると説明されています。

GPT4Vの訳：画像で指摘された領域はワイヤーに吊るされたライトの列です。ライトは小さくて丸く、ワイヤーに沿って均等に配置されています。ワイヤーは二つのポールの間に張られ、テーブルや傘があるパティオエリアの上にあります。ライトは装飾的に見え、夕方に環境照明を提供するために使われることが多いでしょう。

case (2)

プロンプトでは、表のセルにハイライトされた領域が数値122.3を含むことを示しており、これは「Test row」の「out」カテゴリに位置していると説明されています。

GPT4Vの訳：画像の赤くハイライトされた領域は、数値122.3を含むテーブルセルです。このセルはテーブルの「Test set」セクションにあり、「out」列と「GIT2」行の下に位置しています。この値はテストセットにおけるGIT2メソッドの全体的なパフォーマンスメトリックを表しています。「out」カテゴリにおいてです。

case (3)

プロンプトでは、2つのオブジェクト（ビールのボトルと水のボトル）について説明し、その後、サークルで囲まれたガラスに何があるかをチェックするように指示しています。ビールボトルは緑と赤のラベルが付いた茶色のガラスであり、水のボトルは透明で、水が入っていると述べています。

GPT4Vの訳：オブジェクト1は水のガラス瓶です。それは透明で、青いラベルが貼られています。オブジェクト2はマグナビールのガラス瓶です。それは緑色で、赤と白のラベルが貼られています。円で囲まれたグラスの中には、透明な液体があり、おそらく水です。したがって、円で囲まれたグラスの中身はオブジェクト1、水のガラス瓶からのものである可能性が高いです。

case (4)

プロンプトでは、図に示された矢印の長さと角度を計算するように依頼しており、GPT-4はピタゴラスの定理と逆正接関数を使ってそれぞれの答えを導き出しています。矢印の長さは約8.94、角度は約26.57度と計算されています。

GPT4Vの訳：青い矢印で示された辺の長さを見つけるためには、直角三角形があるのでピタゴラスの定理を使用できます。この定理は a2+b2=c2a^2 + b^2 = c^2a2+b2=c2 で、a と b は直角三角形の二辺、c は斜辺です。持っている値を用いて計算すると、42+82=c24^2 + 8^2 = c^242+82=c2 、16+64=c216 + 64 = c^216+64=c2 、80=c280 = c^280=c2 、そして 80=c\sqrt{80} = c80=c 、これは約 8.94 です。したがって、青い矢印の辺の長さは約 8.94 です。
緑の矢印で示された角度を見つけるためには、角度の反対側と隣接側を持っているので、正接関数を使用できます。正接関数は tanθ = opposite/adjacent を示しています。持っている値をプラグインすると、tanθ = 4/8、tanθ = 1/2、そして θ = tan^-1(1/2)、これは約 26.57度です。したがって、緑の矢印の角度は約 26.57度です。

Visual + Text Prompting

視覚的参照プロンプトは、他の画像テキストプロンプトとスムーズに一緒に使用することができ、問題のポイントを巧みに表現する洗練されたインターフェースを提供します。図7は2つの例を提示し、GPT-4Vのプロンプトの特に興味深い点、特にその多様性を示しています。これらの例は、画像テキストの異なる入力形式を組み合わせ、入力内で指示と例をシームレスに混ぜ合わせ、人間のような多モーダルな指示の理解と前例のないタスク適応能力を結果としています。

Integrated multimodal instruction inputs

統合された多モーダルな指示入力。既存のモデルは通常、画像-テキスト入力がどのようにフォーマットされるべきかについて、暗黙の制約を持っています。例えば、コンテキスト内のいくつかのショット学習では、クエリ入力と同じ形式の画像-テキストペアが必要です。これとは対照的に、GPT-4Vは、画像、サブ画像、テキスト、シーンテキスト、視覚ポインターの任意の混合を処理するという多様性を示しています。例えば、図7の「線を加える」パターンでは、(1)のサブ図のように行列画像に円を加えることも、(2)のサブ図のように質問テキストとサブ画像をラインで組み合わせることもできます。または、(1)のサブ図のように大きな画像とシーンテキストを組み合わせて1つのクエリを提示することも、(2)のサブ図のようにテキストとサブ画像のミックスを送信することもできます。GPT-4Vの柔軟性により、画像とテキストを組み合わせたり、処理できる画像の数に制限を課すことなく、そして数の限界を課すことなく、モデルの能力を拡張することができます。

Multimodal example-grounded instruction

多モーダルな例に基づいた指示。さらに柔軟な入力形式をサポートすることに加えて、GPT-4Vの汎用性は、タスクを実行するためのより効果的な方法、つまり指示に基づいた例を使った説明を開くことも可能にします。これは元々NLPタスク用に提案された技術[102, 96, 134, 111]で、直感的にタスクの指示に焦点を当てますが、純粋にテキスト形式の場合、視覚的コンテキストとの関連性が薄く、タスクの明確なデモンストレーションを提供しないことがあります。一方、コンテキストフリーの少数ショット学習[23, 75, 77]は、推論クエリの文脈内での例を提供しますが、これらは複雑で、組み込むのに長い時間がかかり、結果としてデモンストレーションの効果を損なう可能性があります。対照的に、GPT-4Vは、視覚的参照プロンプトを通じてタスクの目的とより密接に結び付けることができ、したがって、関心のあるタスクの文脈をより効果的に示します。例えば、図7における(1)で囲まれたサークルのパターンや(2)で対応するサブ画像において、「枠組みを示す」ための手順は、(2)で示されているように、「押す」ための手順は、インターフェースを簡素化し、抽象的な指示と直感的な例を組み合わせる人間の学習プロセスを模倣します。

Visual + Text Prompting figure

case (1)

この画像は、視覚的パターン認識をテストするための問題を示しています。問題の指示は、最初の列に示されたパターンを見つけ、それを使って二番目の列に不足している図形を推測することです。

最初の例では、最初の列の左側にある囲まれた領域は、ダイヤモンドの形に線が通るパターンを示しています。そのため、答えは線を通したダイヤモンドの形です。

次に、青い背景の上にある三つの図形が示されています。最初の列のパターンは中央に点が加えられるというものです。そのため、二番目の列で不足している図形は中央に点のある星の形、つまり選択肢Cになります。

GPT-4Vは、最初の列のパターンは中央に点が加わることであり、そのため二番目の列の不足している図形は中央に点のある星型であると推測しています。

GPT4Vの訳：最初の列のパターンは、図形の中心に点が加えられることです。したがって、二番目の列で不足している図形は、中心に点のある星であり、これは選択肢Cになります。

case (2)

プロンプトでは、最初の列のパターンを見つけ出し、それを使って2番目の列に不足している図形を推測するように求めています。例として、画像3は画像1に線を加えるパターンを示しています。したがって、画像2にも線を加えると、線が通ったダイヤモンドの図形になります。

続く画像では、2×2のマトリックスに配置された3つのサブイメージがあります。画像3と画像1の間のパターンは、画像3には中心に点があるのに対し、画像1にはないというものです。次の図形を完成させるためには、パターンに従って、中心に点がある星形が必要であり、これはオプションCが適切です。

GPT-4Vの出力によると、最初の列のパターンは、中心に点が加わることであり、画像3に点がある一方で画像1にはありません。このパターンに基づいて、マトリックスを完成させる次の画像は中心に点のある星形、つまりオプションCであると結論付けています。

GPT4Vの訳：画像3と画像1の間のパターンは、画像3には中心に点があり、画像1にはないことです。マトリックスを完成させるための次の画像は、オプションcの中心に点のある星であるべきです。これは、一つおきの画像に中心に点があるというパターンがあるからです。そして、前の画像（画像3）には中心に点がありました。さらに、画像はダイヤモンド形と星形が交互になっているので、次の画像は星形であるべきです。

In-context Few-shot Learning

「インコンテキスト・フューショット学習」では、大規模言語モデル（LLMs）において、いくつかのインコンテキスト例を事前に提示することで、パラメータ更新なしに望まれる出力を推論時に生成できるという新たな現象が観察されていることについて説明しています。これらの例は、入力クエリと同じ形式を共有し、実際のモデルデモンストレーションでの入力クエリとして機能します。この学習方法は、モデルに新しいタスクを実行する方法を教えることにより、テスト時に同じ形式の例を使用することを学びます。GPT-4Vのインコンテキスト・フューショット学習の能力をいくつかの例を通じて示しており、特定のシナリオではゼロショットまたはワンショット指示が不足する可能性があることを強調しています。図8から10までの例では、ビデオからのスピードメーター画像を読み取るという挑戦的なシナリオに焦点を当てています。GPT-4Vがゼロショット方式で試みたにも関わらず、表示された速度を正確に読み取るのに苦労していることが示されています。しかしながら、2つのインコンテキスト例を与えられた際には、GPT-4Vは一つがクエリ画像と似ており、もう一つが似ていないという状況でも、スピードメーターが「約9マイル/時」と読み取れることを正しく認識することに成功しています。

「インコンテキスト・フューショット学習」とは、コンピューターが新しいことを学ぶ手助けとして、少しの例を見せるだけで、新しいタスクをどう解決するかを理解できるようになるという技術です。通常、コンピュータープログラムは新しいことを学ぶためにたくさんのデータや更新が必要ですが、この方法では少ない情報で済みます。例えば、GPT-4Vというプログラムは、速度計の数字を読む練習をしているときに、正確に読むのが難しいことがありました。しかし、いくつかの例を示すことで、少しずれた数字でも「約9マイル/時」と正しく読み取れるようになりました。これは、プログラムが新しい情報をより上手に扱えるようになることを意味しており、将来的にはもっと複雑なタスクも解決できるようになるかもしれません。

次の段落では、ゼロショット、ワンショット、そして2ショットパフォーマンスの比較が複雑なラインプロットで図11から13で示されています。例として挙げられているのは、例えば「6月の平均ガス価格はどうだったか」という質問に対して、ユーザーがいくつかのステップを踏む必要がある問題です：（i）ラインプロットにおける6月のデータ点を見つける、（ii）最も価値の高いラインの色を識別する、そして（iii）その色を凡例で対応する年にマッチさせる、といったステップです。これらのステップのいずれかで失敗すると、誤った予測につながります。GPT-4Vは凡例の色を年と正しく関連付けることができず、図12において$8.32という価格を2023年と誤解しています。しかし、新たなインコンテキスト例を図13で導入することで、最終的に正しい答え（2022年）に到達し、その推論プロセスを示しています。

コンピューターが問題をどれだけ上手に解けるかを、ゼロショット（何も情報を与えない）、ワンショット（少し情報を与える）、2ショット（もっと情報を与える）の3つの方法で比較しています。問題は、グラフを使って「6月のガスの平均価格」を調べるというものです。これには、グラフから6月のデータを見つけ、一番価格が高かった線の色を識別し、その色がどの年に対応しているかを調べるというステップが必要です。コンピューターは、最初に年を間違えてしまいますが、追加で情報を与えると正しい年（2022年）を見つけ出し、どのようにして答えを見つけたかの説明もできるようになります。つまり、コンピューターに情報をもっと与えるほど、問題を正確に解くことができるようになるということです。

最後に、これらの概念実証の例は、インコンテキスト・フューショット学習の有効性と、LLMsと組み合わせることで得られるパフォーマンス向上の重要性を生き生きと示しています。LLMsの文脈でなされた観察と同様に、ファインチューニングへの類似点にもかかわらず、LLMsとの組み合わせによるインコンテキスト・フューショット学習が高いパフォーマンスを実現するうえでの大きな重要性を強調しています。このレポートでは、情報漏洩や不要なヒントを防ぐために、インコンテキスト例の使用にとどめています。フューショット学習の定量的評価は将来の研究に任せています。

この章はコンピューターが新しいことを少ない情報から学ぶ力、「インコンテキスト・フューショット学習」という技術の話です。これは、コンピューターのプログラムが、少しのヒントだけで新しい問題を解く方法を学ぶというもので、これまでの研究や改良（ファインチューニング）と似ていますが、それを超える力を持っていることが示されています。ただし、この報告書では、コンピューターが外からの情報によって誤って学んでしまうことを防ぐために、実験では限られた情報だけを使っています。この新しい学習方法がどれだけ効果的かの詳しい評価は、これからの研究で行われる予定です。

In-context Few-shot Learning figure

訳：スピードメーターの読み取りという難しいシナリオにおけるゼロショット性能。GPT-4Vは、異なるゼロショットプロンプトを使っても正確にスピードメーターを読むことができず、赤い部分が誤った答えを強調しています。詳細な議論についてはセクション3.4を参照してください。

case (1) Zero-shot

通常のゼロショットプロンプトでは、「スピードメーターの読み取りは？」と尋ねたときに、GPT-4Vは「約22マイル/時」と回答していますが、これは間違っています。

GPT4Vの訳：スピードメーターの表示はおよそ時速22マイルです。

case (2) Zero-shot (think step-by-step)

「ステップバイステップで考えよう」というプロンプトを試したところ、GPT-4Vは「約30マイル/時（または50キロメートル/時）」と回答していますが、これも間違っています。

GPT4Vの訳：このスピードメーターには2つの目盛りがあります。一つはマイル毎時（mph）で、もう一つはキロメートル毎時（km/h）です。針はmphの目盛りで20と40の間、km/hの目盛りで40と60の間を指しています。目盛りの数字が20の刻みで増えているので、針はおよそ30mphまたは50km/hを指していると推定できます。したがって、スピードメーターの読み取りはおよそ30mph（または50km/h）です。

case (3) Zero-shot (w/ text instructions)

「テキストの指示付き」のゼロショットプロンプトでは、GPT-4Vに外側のダイヤルを見てマイル単位のスピードを読むよう指示していますが、GPT-4Vは「約40マイル/時」と誤って読み取っています。実際には、スピードメーターはキロメートル単位も示しており、ダイヤルの内側で「約64キロメートル/時」となっています。

GPT4Vの訳：この例では、針は約40マイル毎時（mph）を指しているので、現在の速度は約40マイル毎時です。さらに、ダイヤルの内側の円はキロメートル毎時の速度を示しており、この例では現在の速度は約64キロメートル毎時です。

case (4) Zero-shot (w/ text instructions, think step-by-step)

「テキストの指示とステップバイステップの指示付き」のゼロショットでは、同じく「約40マイル/時」と回答しており、これは誤りです。

GPT4Vの訳：まず、ダイヤルの外側を見て、マイル毎時を表す数字を探します。
次に、現在の速度を指す黄色い針を見つけます。
針が指している場所を観察し、ダイヤルの外側の数字を読みます。
この数字がマイル毎時での現在の速度です。
この例では、針は約40マイル毎時を指しているので、現在の速度は40マイル毎時です。

★★★★★★ 執筆中 ★★★★★★