「A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise」のざっくりFundamental Perception解説

未分類

2023.12.212023.12.25

概要（Abstract）
はじめに（Introduction）
本的な知覚（Fundamental Perception）
- 基本的な知覚について
- ダイジェスト
オブジェクト中心の知覚（Object-Centric Perception）
シーンレベルの知覚（Scene-Level Perception）
知識ベースの知覚（Knowledge-based Perception）
参考サイト
- 関連

概要（Abstract）

「A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise」のざっくりabstract解説

タイトルA Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise著者Chaoyou Fu, Renrui Zhang, Zihan Wang, Yubo...

はじめに（Introduction）

「A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise」のざっくりintroduction解説

「A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise」のintroductionをざっくりと解説していきます概要（Abstract）イントロダクシ...

本的な知覚（Fundamental Perception）

基本的な知覚について

多モーダル大規模モデル（multi-modal large models）の文脈において、「基本的な知覚」とは、モデルが感覚データ、特に視覚データを処理し解釈し、認識する環境についての一貫した理解を作り出す能力を指します。
この知覚の熟練度は、モデルがより高度なタスクをどのように遂行するか、つまりモデルが原始的な視覚入力（raw visual input）をどれだけ正確かつ効果的に取得し処理できるかを決定します。

ダイジェスト

オブジェクト中心の知覚タスク

空間関係認識（spatial relationship recognition） : 物体間の空間的な関係を理解するタスク。
オブジェクトカウント（object counting） : 画像内の物体の数を数える能力。
違いの特定（difference spotting） : 画像間の差異を発見するタスク。

シーン解釈

このセクションでは、モデルが多様なドメインにわたるシーン全体をどのように解釈するかを検討します。

知識に基づく視覚情報の理解

ここでは、モデルが知識を適用することによって視覚情報をどのように理解するか、つまり、常識（commonsense）、主題知識（subject knowledge）、多文化的慣習（multicultural customs）、世界記憶（world memory）を含む幅広い知識を活用する能力を探ります。---

オブジェクト中心の知覚（Object-Centric Perception）

空間関係認識（Spatial relationship recognition）

モデルが空間関係、特に左右の識別を理解する能力を調査。
一部のモデルは「左手」の概念を理解することに苦労することが観察された。
特定の例（Figure 1）では、GeminiとGPT-4Vは正確な識別に成功しているが、Sphinxは誤った識別をしている。
数ショット学習（in-context few-shot learning）がモデルの理解を助けるために使用された。

Figure1:空間関係認識 (Spatial Relation Recognition) の結果

プロンプト 1:
テニスボールと男性の間の空間関係を教えてください。

Gemini Proの応答:
テニスボールは男性の左側にあります。
GPT-4Vの応答:
テニスボールは男性の前で、わずかに左にあり、男性がちょうどボールを打ったか、または打つ準備をしていることを示しています。ボールは男性の腰の高さよりも低く、ラケットに非常に近い位置にあることから、テニスマッチ中のアクションの瞬間を示唆しています。
SPHINXの応答:
テニスボールは男性の下に位置しており、彼がテニスラケットでヒットするために振っているときです。

プロンプト 2:
ジョーダンの左手側にいる人物は誰ですか？

Gemini Proの応答:
ジョーダンの左手側の人物はコービー・ブライアントです。
GPT-4Vの応答:
ジョーダンの左手側にいる人物は、イエローのレイカーズジャージを着た8番、コービー・ブライアントです。
SPHINXの応答:
ジョーダンの左手側の人物はマイケル・ジョーダンです。

この画像には、AIモデルが与えられたプロンプトに基づいて空間関係をどのように認識するかの例が示されています。プロンプト1では、モデルはテニスボールの位置を男性に対して説明するよう求められており、プロンプト2では、バスケットボール選手マイケル・ジョーダンの左側にいる人物について答えるよう求められています。各AIモデルの応答は、モデルが空間関係をどの程度正確に理解しているかを示しています。

Figure2:空間関係認識 (Spatial Relation Recognition)の結果

プロンプト:

最初の画像で、カリーの左手側にいるのはグリーンです。二番目の画像で、ウェイドの左手側にいるのはジェームズです。三番目の画像で、ジョーダンの左手側にいる人物は誰ですか？

Gemini Proの応答:

ブライアントです。

GPT-4Vの応答:

三番目の画像のジョーダンの左手側にいるのはレブロン・ジェームズで、レイカーズの23番のジャージを着ています。

SPHINXの応答:

ジョーダンの左手側にいるのはコービー・ブライアントです。

画像の説明によると、GPT-4Vのみが正しい答えを提供しており、他の2つのモデルは間違った応答をしています。正しい応答には緑色でハイライトされ、間違った応答には赤色でハイライトされています。より詳細な情報についてはセクション2.1を参照してください。

オブジェクトカウント（Object counting）

シンプルなサンプルでは、Sphinxの性能はクローズドソースモデルと一致している。
視覚要素が多すぎる画像（Figure 3）では、すべてのモデルが間違いを犯す傾向がある。

Figure3:オブジェクトカウント（Object counting）の結果

プロンプト 1:
画像内の黒い鳥の数を数えてください。

Gemini Proの応答:
画像には8羽の黒い鳥がいます。
GPT-4Vの応答:
画像には黒い鳥が8羽見えます。
SPHINXの応答:
画像には黒い鳥が8羽います。

プロンプト 2:
画像内の本の数を数えてください。

Gemini Proの応答:
画像には5冊の本があります。
GPT-4Vの応答:
画像には5冊の本があります。
SPHINXの応答:
画像には2冊の本があります。

プロンプト 3:
画像内の果物の数を数えてください。

Gemini Proの応答:
画像には果物が4つあります。
GPT-4Vの応答:
画像には果物が3つあります。
SPHINXの応答:
画像には果物が4つあります。---

プロンプト 4:
画像内の人物の数を数えてください。

Gemini Proの応答:
画像には41人の人物がいます。
GPT-4Vの応答:
画像には30人の人物が描かれています。
SPHINXの応答:
画像には100人の人物がいます。

プロンプト 5:
表向きのサイコロで、数が4になっているものはいくつありますか？

Gemini Proの応答:
4の目が出ているサイコロは2つあります。
GPT-4Vの応答:
提供された画像には、表向きで数が4になっているサイコロが2つあります。
SPHINXの応答:
表向きで数が4になっているサイコロは2つあります。

上記の応答は、画像内の特定のアイテムを数えるタスクにおける各AIモデルの能力を示しています。プロンプトに対するモデルの応答が正しいか間違っているかは、画像中の緑色または赤色のハイライトによって示されています。詳細な議論については、セクション2.1を参照してください。

違いの特定（Difference spotting）

カートゥーン画像（Figures 4-5）での微妙な違いを見つける能力が評価された。
GeminiとGPT-4Vは意図的に誤ったプロンプトに簡単に誤解されることがある。
5つの違いがあるとされるが、実際には3つの違いしかない場合に、誤ったポイントを提案する。

Figures4:違いの特定（Difference spotting）の結果

プロンプト:
画像の左側と右側の違いは何ですか？

Gemini Proの応答:
左側の男の子はバスケットボールを持っており、右側の男の子はサッカーボールを持っています。左側の男の子は赤いシャツと青いショーツを着ており、右側の男の子は青いシャツと赤いショーツを着ています。
GPT-4Vの応答:
この画像は、デザインが同一の二つのカートゥーンキャラクターを示しており、彼らの主な違いは参加しているスポーツです。左側のキャラクターはバスケットボールジャージを着てバスケットボールを持っており、バスケットボールプレーヤーであることを示唆しています。右側のキャラクターはサッカーユニフォームを着てサッカーボールを持っており、サッカープレーヤーであることを示唆しています。衣装とスポーツ用具は画像の二つの半分の間の主要な違いです。
SPHINXの応答:
画像の左側と右側の違いは、左側はバスケットボールを持った男の子が描かれているのに対し、右側はサッカーボールを持った男の子が描かれていることです。

プロンプト:
画像の左側と右側の違いは何ですか？

Gemini Proの応答:
違いは頭と尾の形です。
GPT-4Vの応答:
画像の左側は、魚または恐竜を連想させる、重なり合う円が輪郭を形成している生き物を示しており、目と口は円で示され、シンプルな顔があります。右側の部分はいくつかの違いを持つ類似した輪郭を示しています:
1. 背中の棘は四角形で表されており、尖っている形ではありません。
2. 顔はより抽象的で、三角形が目とされ、明確な口の表現がありません。
3. 右側の全体の外観は左側よりも幾何学的であり、左側はより有機的で自然な形をしているのに対し、右側はよりスタイリッシュで幾何学的です。
SPHINXの応答:
画像の左側と右側の違いは、左側には黒と白の恐竜がいるのに対し、右側には黒と白の魚がいることです。

Figures5:違いの特定（Difference spotting）の結果

プロンプト:
画像の左側と右側の違いは何ですか？5つの違いを見つけることができますか？

Gemini Proの応答:
1. 左の画像には4つのオブジェクトがありますが、右の画像には3つのオブジェクトしかありません。
2. 左の画像の背景には白い壁がありますが、右の画像には木のテーブルがあります。
3. 左の画像にはテーブルの上に黒いカップがありますが、右の画像にはレモンがのった白いカップがあります。
4. 左の画像には高いサーモスがありますが、右の画像にはより短いサーモスがあります。
5. 左の画像には小さいサーモスがありますが、右の画像にはより大きなサーモスがあります。
GPT-4Vの応答:
提供された画像には、わずかに異なる2つの部分があり、それぞれに5つの違いがあります。左の部分と右の部分の違いは次の通りです:
1. 蓋の違い: 左の画像には蓋が閉まっていますが、右の画像には蓋が開いています。
2. サーモスのコンテナー: 左の画像にはサーモスの前にコンテナーが見えませんが、右の画像にはサーモスの前に金属製の内側コンテナーがあります。
3. レモンのスライス: 右の画像のサーモスの上にあるコースターの上にレモンスライスがありますが、左にはありません。
4. コースター: 右の画像にはサーモスの下にコースターがありますが、左にはありません。
5. ライトスイッチの位置: 背景にあるライトスイッチの位置が左右で異なります。左の画像ではサーモスに最も近い2つのスイッチが下がっていますが、右の画像では1つが上がり、もう1つが下がっています。
SPHINXの応答:
画像の左側にはサーモスボトルの上にレモンがありますが、右側の画像にはサーモスボトルの上にレモンがありません。

各AIモデルは、画像の左右で何が異なるかを特定することを試みており、そのプロセスで画像の抽象的な形やパターンに基づいて応答しています。これらの応答は、AIモデルが視覚的な違いをどの程度正確に識別できるかを示しています。

緑色は正しい答えを、赤色は間違った答えを、黄色はタスクの不適切な実行を示しています。詳細な議論についてはセクション2.1を参照してください。

光学錯覚の認識（Optical illusion recognition）

光学錯覚に対する視覚的理解が人間に似ているかどうかが調査された（Figures 6-7）。
GPT-4VとSphinxは、人間と同様に光学錯覚に騙されやすい。
例えば、明るさが異なるように見えるペア（Figure 6）が実際には同じ明るさを持っていることを示す。

Figure6:光学錯覚の認識（Optical illusion recognition）の結果

プロンプト:
どちらの梨が明るさが高いですか？

Gemini Proの応答:
両方の梨は同じ明るさです。
GPT-4Vの応答:
提供された画像は背景に縞模様がある二つの梨を示しており、画像の明るさは色の色相、彩度、明度など多くの要因によって影響を受けます。どちらの梨がより明るいかを決定するために、一般的にはどちらがより明るく見えるか、または他の梨に比べてどれだけ多くの光を反射しているかを考慮します。しかし、ディスプレイの違いや個人の知覚によって、一人にとって明るく見えるものが別の人にはそう見えないことがあります。
SPHINXの応答:
右の梨がより高い明るさです。

プロンプト:
上の画像の木は下の画像の人物のように見えますか？

Gemini Proの応答:
いいえ、上の画像の木は下の画像の人物のようには見えません。
GPT-4Vの応答:
上の画像の木は下の画像の人物のポーズに似ている部分があります。木の枝が出ている頂点を人物の腕が曲がっている角度に例えることができ、幹は人物の体に合っています。この視覚的類似性は偶然のものかもしれませんが、自然界の形と人間のポーズの面白い比較になっています。
SPHINXの応答:
いいえ、上の画像の木は下の画像の人物のようには見えません。

Figure7:光学錯覚の認識（Optical illusion recognition）の結果

プロンプト:
これは現実の世界で可能でしょうか？

Gemini Proの応答:
いいえ、それは不可能です。これは光学錯覚です。
SPHINXの応答:
いいえ、これは現実の世界では不可能です。画像は三角形に配置された白いサイコロのグループを示しており、芸術的または創造的な表現です。現実世界では、サイコロは通常ゲームに使用され、三角形のような特定の形を作ることはありません。
GPT-4Vの応答:
あなたがアップロードした画像は、重力やバランスの通常の期待に反する方法で配置されたサイコロを示しており、ありそうもない構造を示唆しています。追加のコンテキスト、例えば使用される材料や組み立て方法などの知識がなければ、それが実際の物理的な構造なのか、巧妙な操作なのか、デジタルのトリックなのかを確実に言うことは難しいです。

現実の世界で、示された配置はサイコロが非常に小さな接点でバランスを取る必要があるため、達成するのが非常に困難であり、何らかの接着剤や支持体がなければ不安定になるでしょう。しかし、それが不可能であるとは限りません。隠れた支持物を使うか、サイコロをより確実に接続するために改造することによってです。また、画像はデジタル操作の結果である可能性もあります。

もし現実にこのような構造を作る意図があれば、何らかの形で支持や変更を加える必要があるでしょう。これが芸術的な取り組みであれば、彫刻と錯覚を組み合わせた魅力的なプロジェクトになるでしょう。

シーンレベルの知覚（Scene-Level Perception）

画像からのシーン理解（Scene understanding from image）

モデルに画像内の全ての視覚要素を識別するように指示する。
3つのモデル全てがシーン内の主要な視覚要素を描写する能力があることが示される。
特にGPT-4Vは混雑した環境でも優れたパフォーマンスを示し、より詳細な描写と幻覚の少ない結果を示す（Figure 8参照）。

Figure8:画像からのシーン理解（Scene understanding from image）の結果

Gemini Proの応答:
画像にはガラスの屋根を持つ大きなショッピングモールが写っています。モール内には多くの人がおり、そのほとんどがマスクを着用しています。モールにはいくつかの店舗もあります。モールの装飾は赤と金色で、たくさんの大きな赤い風船があります。モールの中央には赤いカーペットが敷かれたステージがあり、ステージの上には人がおり、その後ろには大きなスクリーンがあります。ステージの周りに立っている人々もいます。
GPT-4Vの応答:
画像は、イベント用に装飾された賑やかな多層階ショッピングモールの内部を描いています。複数階にわたるエスカレーターや手すりには、お祭り気分を盛り上げる赤い風船が並んでいます。モールにはマクドナルドのようなブランドの看板がはっきりと見え、多様な店舗や飲食店があります。中央エリアはイベントスペースで占められており、子供用の障害物コースや活動エリアである「SPUTKOTS」と「MODOVONO」の看板が目立ちます。モール全体で様々な活動が行われており、人々はイベントを観戦したり、買い物、食事をしたりしています。モールの建築にはガラスの天井があり、自然光が内部を照らしています。全体的に活気があり家族向けの特別なイベントが目を引く環境です。
SPHINXの応答:
画像は、人で賑わうモールを描いており、大勢の人々が建物の中心に集まっています。モールは赤と白の風船で飾られ、お祭り気分を演出しています。いくつかの人々は散らばっており、モール内にはいくつかの活動があります。モールの中には2つの丸いテーブルが見え、片方のテーブルにはハンドバッグが1つあり、もう片方のテーブルにはもう1つがあります。モールは活気に満ちており、買い物や社交を楽しむ人々でいっぱいです。

各AIモデルは、画像に描かれたショッピングモールのシーンについて、それぞれ異なるレベルの詳細を提供しています。Gemini Proはシンプルな説明をし、GPT-4Vはより詳細な観察を行い、SPHINXはシーンの全体的な雰囲気を伝える説明をしています。これらの応答は、モデルが画像からの複雑な情報をどのように解釈し、言葉に変換するかの能力を示しています。

Figure9:画像からのシーン理解（Scene understanding from image）の結果

プロンプト:
この画像を詳しく説明してください。

Gemini Proの応答:
画像は中央に大きな都市を持つファンタジー風景です。都市は空中に浮かぶいくつかのプラットフォームに建てられており、大きな風船によって支えられています。プラットフォームは建物でいっぱいです。都市は大きな壁に囲まれており、いくつかの飛行船が都市の端に停泊しています。空は雲でいっぱいで、背景にはいくつかの山があります。画像は非常に詳細で、見るべき興味深いものがたくさんあります。アーティストは非常にユニークで想像力豊かな世界を創造しました。
GPT-4Vの応答:
画像は、物語やゲームの設定から抜け出たような幻想的なシーンを描いており、様々な建造物があり、それらが伝統的な建築要素とファンタジー要素を融合させた世界を示唆しています。この世界は異なる歴史的または文化的影響が共存しており、建物の中には多くの窓や開口部があり、旗や幟が風になびいています。左側と背景には、中世およびアジアの建築スタイルを組み合わせたような建物のデザインが見られます。建物は岩がちな地形に建てられており、橋や砦のようなもの、監視塔や要塞を連想させるデザインのものがあります。全体的に、この画像は冒険とファンタジー、探索が共通のテーマである世界を示唆しています。
SPHINXの応答:
画像は美しくレンダリングされたファンタジーの風景で、大きなカラフルな城の前に立つ男性を特徴としています。男性は戦士であり、手に剣を持っています。城は丘の上に位置し、それを取り巻くように水路があります。画像全体には冒険と驚きの雰囲気があり、遠くには水上の船が2隻見えます。

Figure10:画像からのシーン理解（Scene understanding from image）の結果

プロンプト:
上の画像と下の画像はどのように関連していますか？

Gemini Proの応答:
写真は車の事故の後の様子を示しています。車は黄色のBMW M4で、大きな損傷を受けています。フロントは潰れ、フロントガラスは割れています。車は道路の側にあります。警察官と他の人々が車の周りに立っています。警察官は事故を調査しています。他の人々は見ています。事故は香港で起こりました。
SPHINXの応答:
上の写真は、通りで立っている一団の警察官を示していますが、下の写真は歩道で集まっている人々のグループを示しています。2枚の写真の間のつながりは、警察官が歩道で集まっている群衆に対応しているということを示しています。群衆を集めた事故または状況に警察官が対応していることが示唆されます。警察官の存在は、彼らがその地域で秩序を保とうとしていることを示しています。
GPT-4Vの応答:
上と下の画像は同じシーンの異なる視点を示していると思われます。以下がそのつながりです：
1. 車の衝突事故（Car Crash Sit）: 両方の画像は建物の側に衝突した黄色のスポーツカーを示しており、同じシーンを描写していることを示唆しています。
2. 緊急対応（Emergency Response）: 上の写真には警察官が見えますが、下の写真には事故の傍観者または一般の人々がいます。
3. 日時（Time of Day）: 両方の画像で夜であることを示す人工照明と暗い空が見られます。
4. ごみと損傷（Debris and Damage）: 道路上に散らばるごみや建物と車の損傷が一致しています。
5. 視点（Angle of View）: 上の写真は地上レベルから撮影されたものであり、下の写真は高い位置からのシーンを見下ろす視点です。
6. 警察の存在（Police Presence）: 上の画像は事故現場で警察官が目立ち、下の画像は緊急サービスの人員が注目されています。これらの要素の組み合わせは、異なる視点からの同じイベントの写真であることを強く示唆しており、夜間に黄色のスポーツカーが事故に遭い、警察官や他の人々が現場にいるシーンを捉えています。

ビデオからのシーン理解（Scene understanding from video）

モデルがビデオのシーンを理解する可能性を検討する。
3つの異なるタイムフレームからのフレームを抽出し、モデルに入力する。
Geminiは異なるフレームの情報を統合して一貫したシーンの説明を作成する能力がある。
特に、最初のフレームは2つの丸いテーブルと1つの鉢植えを示す。

Figure11:ビデオからのシーン理解（Scene understanding from video）の結果

プロンプト:
これらの時間的な画像に基づいてこのシーンを説明してください。

Gemini Proの応答:
このシーンは茶色のモザイク壁がある休憩室です。窓には灰色のブラインドがあり、灰色と青色の椅子があります。白いテーブルトップの丸いテーブルが二つあり、一つのテーブルには二つのラップトップと電話が置かれています。もう一つのテーブルにはティッシュボックスが置かれています。白いカウンタートップの木製キャビネットがあり、カウンタートップには三つの鉢植えと電気ケトル があります。キャビネットの前には青い椅子があり、部屋の角には灰色の椅子があります。休憩室の隣には白い壁と灰色のカーペットの廊下があります。
GPT-4Vの応答:
このシーンは、商業用オフィスビル内の現代的な室内空間で、簡単な会議や休憩に適したカジュアルな座席配置が特徴です。画像には以下が含まれています：
1. 中立的な色合いの部屋で、周りに配置された灰色の張り地の椅子が並び、小さな丸い白いテーブルがあります。床は磨かれた石のタイルで、天井からの光を反射しています。窓には大きな、閉じたブラインドがあり、プライバシーと光の制御を強調しています。
2. 異なる角度からの同じ部屋のビューで、モザイクの壁の装飾と、植物入りの鉢を置いたカウンターが特徴です。これにより自然な要素がスペースに導入されます。追加の座席オプションも見え、独特の青い布地と金属ベースの椅子が最初の画像に見られる木製の脚の椅子とは異なります。
3. 三番目の視点は部屋への入り口を示し、片側に木製のドア、もう片側には暗いグレーでカーペットされた廊下があり、この座席エリアが建物の異なるセクション間の移行スペースとして機能することを示唆しています。
SPHINXの応答:
画像は、家具や装飾要素が豊富な広々とした部屋を見せています。部屋にはいくつかの椅子が散らばっており、いくつかはテーブルの近くに配置されています。テーブルは様々な場所に置かれた花瓶に囲まれています。部屋にはまた、ユニークなデザインの壁が特徴です。---

詳細なシーン描写（Detailed scene description）

Geminiは2つのフレームからの情報を融合させて、2つの丸いテーブルと3つの鉢植えを含むシーンを正確に説明する。
GPT-4Vはフレームごとの画像の内容を説明するが、Sphinxの説明は画像の連続を包括的に理解していない。---

知識ベースの知覚（Knowledge-based Perception）

常識（Commonsense）

モデルが画像内の視覚情報に対して常識を適用する能力。
オープンソースモデルのSphinxは、GeminiやGPT-4Vと同等に社会規範を適用する（図12-13参照）。
しかし、物理法則の適用ではわずかに劣るパフォーマンスを示す（図14参照）。

Figure12:常識（Commonsense）の結果

プロンプト:
この写真のシーンで注意すべき行動は何ですか？

Gemini Proの応答:
写真にはテーブルの上に「禁煙」のサインが表示されています。従って、注意すべき行動は人々が喫煙していることです。もし誰かが喫煙しているのを見たら、そのエリアでは喫煙が許可されていないことを丁寧に思い出させてあげてください。
GPT-4Vの応答:
画像に提示されたシーンで注意すべき主要な行動は喫煙の禁止 です。「禁煙」のサインが目立って表示されており、そのエリアでは喫煙が許可されていないことを示しています。これは公共の場所や事業所内の喫煙禁止区域である可能性が高く、健康規制、非喫煙者への配慮、火災の安全への懸念のために喫煙が禁止されています。そのような場所にいる場合は、喫煙を控えるとともに、追加の規則やガイドラインを示す可能性のある他の類似のサインにも注意を払うべきです。
SPHINXの応答:
シーンには木製のテーブルの上に「禁煙」のサインが表示されています。このサインは、その地域での喫煙行動に注意を払うためのリマインダーとして機能します。公共の場所での喫煙に関する規則や規制を尊重することが重要です。それは他人の快適さや幸福に影響を与える可能性があります。喫煙者であれば、そのサインの近くや他人に影響を与える可能性のある場所で喫煙しないようにするべきです。

Figure13:常識（Commonsense）の結果

プロンプト:
この写真のシーンで私はどのような行動に注意を払うべきですか？

Gemini Proの応答:
写真は図書館を示しています。図書館では、人々が読書をしており、これは適切な行動です。しかし、例えば大声で話すこと、食べること、飲むことは図書館では不適切な行動です。ほとんどの図書館では許可されていません 。図書館を使用するときは他人を尊重することが重要です。
GPT-4Vの応答:
写真では、図書館の設定で様々な活動に従事する個人が見られます。ここには注意を払うかもしれないいくつかの行動や側面があります：
- 勉強と読書（Studying and Reading） : 個人が教科書やラップトップに集中していることに注意してください。これは静かで勉強に集中した雰囲気を示唆しています。
- 座り方（Seating Posture） : 人々がどのように座っているかを観察してください。良い姿勢は疲労を減らし、長時間の勉強中に負担を防ぐことができます。
- 個人のスペース（Personal Space） : テーブルと椅子の配置が個人のスペースを提供し、快適さと集中のために重要です。
- 静かな環境（Quiet Environment） : 図書館は一般的に静かな公共の場所で、その静けさは勉強のための静かな環境を維持するために尊重されるべきです。
SPHINXの応答:
シーンには、図書館でラップトップで作業している複数の人がテーブルに座っています。AIとして、画像の個々の行動を直接観察することはできませんが、図書館のエチケットに関する一般的なガイドラインを提供することができます：
- 他人を尊重する（Be respectful of others） : 声を低くして、大声での会話や電話を避けてください。
- 騒音レベルを最小限に抑える（Keep noise levels to a minimum） : 高音量で音楽をかけたり、ヘッドフォンを使用して音楽を聴くのを避けてください。
- 図書館を清潔に保つ（Keep the library clean） : 使用後のゴミを処理し、本を棚に返却してください。
- ルールとポリシーに従う（Follow library rules and policies） : 図書館が設定した特定のルールやガイドラインに従ってください。---

Figure14:常識（Commonsense）の結果

プロンプト:
もし南極大陸に行きたい場合、図1の服または図2の服のどちらを着るべきですか？理由も述べてください。

Gemini Proの応答:
図2の服を着るべきです。
南極大陸は地球上で最も寒い大陸で、一年中平均気温が氷点下です。図1の服はそのような寒冷地で着用するには軽量で保温性が不十分 です。一方で図2の服ははるかに暖かく、より適切です。これらの服は厚い素材で作られ、フードもついており、寒い気候で暖かく保つのに役立ちます。
GPT-4Vの応答:
南極大陸への旅行では、図2に示された服を着るべきです。その理由は、南極大陸が極端に寒い環境であり、気温が氷点下まで大きく下がることがあるからです。図2の服はフード付きのヘビーな断熱パーカであり、そのような寒冷な条件下での保温に設計されています 。このタイプのアウターウェアは、低体温症や凍傷から守るために必要です。
SPHINXの応答:
図1の服を着るべきです。南極大陸は寒くて風の強い環境ですので、元素から自分を守るために暖かくて断熱性のある服を着る必要があります。図1の服は寒い天候で暖かく快適 に保つために設計されていますが、図2の服はそのような条件には適していません。

Figure15:常識（Commonsense）の結果

プロンプト:
これらの二つの写真にある物体を手で触ってもいいでしょうか？それぞれ別々に分析してください。

Gemini Proの応答:
最初の写真はガスコンロの炎を示しています。それは非常に熱いので手で触れないでください 。火傷を負う可能性があります。
二枚目の写真は電気で動く偽の炎を示しており、手で触っても安全です 。なぜなら、それは熱を生産しません。
GPT-4Vの応答:
提供された画像は2つの異なる熱源を示しています。
最初の画像では、青い炎のついたガスストーブバーナーを描いており、炎やバーナーに触れるのは安全ではありません 。ストーブは調理用に設計されており、適切なキッチン用具と安全対策を使用してのみ操作するべきです。
二枚目の画像は、通常は雰囲気作りに使用される人工的な装飾炎を示しており、LEDなどの電気と光を使用し、炎のように見せる布で模擬しています。実際の火ほど危険ではありませんが、電気部品とそれが生成する熱はリスクを引き起こす可能性があります。特にデバイスがプラグインされている場合は、電気ショックや加熱された要素からの火傷のリスクを避けるために人工炎に触れるのは推奨されません 。
SPHINXの応答:
最初の写真は炎の上にガスストーブを示しており、二枚目の写真は中に炎を持つ吊り火鉢を示しています。---

専門知識（Subject Knowledge）

モデルが物理、化学、歴史などの分野の知識を適用する能力を評価する。
GeminiとGPT-4Vは関連する事例で正しい回答を提供する能力を持つ。
Sphinxのパフォーマンスはやや劣るが、特定の事例で正しい回答を提供する（図16-19参照）。

Figure16:専門知識（Subject Knowledge）の結果

プロンプト 1:
この画像で指が指している国はどこですか？この国はどの大陸に属していますか？

Gemini Proの応答:
インド。アジア 。
GPT-4Vの応答:
指が指しているのはインド です。インドはアジア 大陸に位置しています。
SPHINXの応答:
指はオーストラリア を指しており、これはオセアニア 大陸の国です。

プロンプト 2:
この画像の地形は何ですか？

Gemini Proの応答:
この画像の地形は砂漠です。
GPT-4Vの応答:
写真に写っている地形は、大きな風化した岩の形成として知られるヤードァン を特徴とする砂漠の風景のようです。これらは砂や砂岩の底質や固まりかけの半固体質料から風化と砂の研磨作用によって形作られた、流線型の隆起を特徴とします。ヤードァンは、風の方向が一定で強い環境で形成され、長軸が風向きに平行していて、優勢な風向きを示しています。これらの形状は、砂丘の存在を示唆しており、これらは風によって形成され、植生が少なく風に吹かれる環境を特徴としています。
SPHINXの応答:
この画像の地形は大きな砂丘 の集まりです。

Figure17:専門知識（Subject Knowledge）の結果

科学的知識プロンプト:
画像にある化学実験装置は何ですか？

Gemini Proの応答:
1. 2つのガラスビーカー
2. 1つのガラス撹拌棒
3. 1つの大きなガラスボウル
GPT-4Vの応答:
画像は、小さなビーカーを使って大きなビーカーに液体を注ぐ人を示しています。このセットアップは、液体が測定され、移され、混ぜられる化学実験で一般的です。大きな容器はビーカーであり、一般に実験室で溶液を撹拌、混合、加熱するのに使われます。それは注ぐための注口を持つように見えます。小さな容器は、液体を大きなものに移すために使用されている別のビーカーのようです。他の特徴的な装置や液体の性質を示唆するものはありません。
SPHINXの応答:
画像はビーカー、試験管、ガラスを示しています。

物理現象プロンプト:
画像で反映されている物理現象は何ですか？

Gemini Proの応答:
画像は屈折という物理現象を示しています。屈折は、光が一つの媒体から別の媒体、この場合は空気からガラス、そして再び空気に移るときに生じる光の曲がりです。ガラスは空気よりも屈折率が高いため、光はガラスを通過するときにより曲がり、ガラスから出るときに再び曲がります。これにより、側面から見たときに光がずれているように見えます。
GPT-4Vの応答:
画像は光の屈折 と分散の実演を示しています。これは曲がった形の透明な物質、おそらくアクリルまたはガラスを通過する光ビームを特徴としています。これらの物質を通過すると、屈折というプロセスにより光が曲がります。屈折は、光が異なる媒体、この場合は空気からガラスを通過するときに発生します。これは色の分散 — 色ごとに異なる屈折度による光の分離 — に似ており、プリズムで白色光が構成色に分割される現象と同様です。
SPHINXの応答:
画像は、2つのガラス物体を通過する光の現象を示しており、緑と赤の光の効果を作り出しています。---

Figure18:専門知識（Subject Knowledge）の結果

科学的知識プロンプト：
なぜ本を手にかざしても鏡に手が映るのですか？

Gemini Proの応答：
本はあなたの手を覆っていません。鏡に映った画像は反転しているので、本が手を覆っているように見えますが、実際には鏡を覆っています。
GPT-4Vの応答：
画像で観察している現象は鏡から反射する光の仕組みによるものです。光が鏡に当たると、それは同じ角度で反射されます。この反射の法則により、直接見る光とは異なる角度から来た光が手をブロックしているため、鏡に映るあなたの手は見えなくなります。この現象は興味深い視覚効果を作り出し、共有した写真で示されています。
SPHINXの応答：
鏡はあなたの手の像ではなく、本の反射を映しているため、あなたはまだ手を見ることができます。本は鏡の反射を部分的に遮るかもしれませんが、鏡の表面が滑らかで反射性があるため、あなたの手の像がはっきりと見えるようになります。

物理的現象プロンプト：
画像に映っている物理現象は何ですか？

Gemini Proの応答：
画像は光の分散 を示しています。これは、光がプリズムやその他の透明な物体を通過し、その成分の色に分解される現象です。異なる色の光は異なる角度で屈折（曲がる）され、スペクトルに広がります。
GPT-4Vの応答：
画像は光の屈折と分散の典型的な展示を示しています。これは、光が透明でプリズム状の物体、この場合はガラスキューブを通過すると発生する現象です。この場合、キューブを通過する光は鮮やかな色と形を持つ印象的な効果を作り出します。屈折は、光が一つの媒体から別の媒体に入るときに発生し、光が曲がって異なる波長のスペクトルに分割されます。
SPHINXの応答：
画像は、光が二つのガラス物体を通過する物理現象を反映しており、緑と赤のライト効果を作り出しています。---

Figure19:多文化的慣習（Multicultural Customs）の結果

歴史的知識プロンプト1：
写真に写っている歴史的イベントは何ですか？

Gemini Proの回答：
写真は1927年の第5回ソルベー会議 を示しています。
GPT-4Vの回答：
アップロードされた写真はソルベー会議 、特に1927年 にブリュッセルで開催された第5回 の会議です。これは物理学における最も有名で影響力のある会議の一つで、アルバート・アインシュタイン、ニールス・ボーア、マリー・キュリーなど当時の著名な人物が出席しました。
SPHINXの回答：
写真は1920年代 の男性のグループを示しており、それは歴史的なイベントです。

歴史的知識プロンプト2：
写真に写っている歴史的イベントは何ですか？

Gemini Proの回答：
写真はアポロ11号 ミッションを示しており、それは月に着陸した最初の有人宇宙飛行 でした。このミッションは1969年7月20日 に行われました。アポロ11号の乗組員は、指揮官ニール・アームストロング、司令船パイロットのマイケル・コリンズ、および月着陸船パイロットのエドウィン "バズ" オルドリンで構成されていました。アームストロングとオルドリンは月面を歩いた最初の人間 になりました。アポロ11号ミッションは宇宙探査の歴史において重要なマイルストーンでした。
GPT-4Vの回答：
画像は、月面で月着陸船とアメリカ国旗を伴う宇宙飛行士を描いており、アポロ月面着陸の一瞬を示しています。この出来事は、1960年代後半から1970年代初頭にかけて NASAが実施した人類の宇宙飛行ミッションの一つであり、人類の宇宙探査におけるランドマーク的な達成です。
SPHINXの回答：
写真に示されている歴史的なイベントは、宇宙飛行士がアメリカ国旗と共に月面に立っているアポロ11号の月着陸 です。

多文化的慣習（Multicultural Customs）

モデルが多文化的要素を理解する能力を検討する。
地域の民族的・文化的特性を持つ画像を提示し、説明を求める。
三つのモデルは画像に描かれた民族的・文化的要素を理解する能力がある（図20-22参照）。

Figure20:多文化的慣習（Multicultural Customs）の結果

多文化の習慣に関するプロンプト：
画像について、英語と画像に示された地理的位置に固有の言語でも説明を提供してください。

Gemini Proの回答：
画像には、伝統的な中国建築の建物の前で獅子舞を演じている4人の人物が写っています。演者はカラフルな獅子の衣装を身に着けており、太鼓のリズムに合わせた協調的な動きをしています。背景にある建物は赤い屋根があり、赤いランタンで飾られています。

中国語では以下のようになります：
图片展示了四个人在传统的中国建筑前表演舞狮 。表演者穿着五颜六色的狮子服装，随着鼓点协调地移动。背景中的建筑有红色的屋顶，装饰有红色的灯笼。

GPT-4Vの回答：
画像は、伝統的な中国の獅子舞を描いています。3つのカラフルな獅子の衣装があり、各衣装を2人のダンサーが操作して赤いカーペットの上で演じています。獅子は青、ピンク、茶色で、複雑な模様と表情が特徴です。背後には古典的な中国建築があり、屋根からは提灯が吊り下げられています。このシーンは歴史的な意味を持つ場所で行われている可能性が高いことを示唆しています。

中国語では以下のようになります：
图片描绘了传统的中国狮子舞 。有三套色彩鲜艳的狮子服装，每套由两名舞者操作，在红色的地毯上表演。狮子的颜色有蓝色、粉色和棕色，具有复杂的图案和表情。背后是古典的中国建筑，屋檐下挂有红色的灯笼。这场景可能发生在具有历史意义的地方。

SPHINXの回答：
この画像には、建物の前に立つ4つのカラフルな龍の衣装が描かれています。龍の衣装は一列に並んでおり、一つは建物の左側に、二つは中央に、もう一つは右側にあります。衣装は鮮やかで目を引くもので、シーンに祝祭の雰囲気を加えています。

画像にはいくつかの人物が描かれており、一部は龍の衣装の近くに立っており、他は散らばっていたり、イベントに参加しているようです。

シーンは建物の前で行われており、それが龍の衣装の背景となっています。建物には赤いカーペットが敷かれており、それがシーンの祝祭の雰囲気をさらに高めています。

Figure21:多文化的慣習（Multicultural Customs）の結果

多文化の習慣に関するプロンプト：
画像について、英語で説明し、画像に示された地理的位置の固有の言語でも説明してください。

Gemini Proの回答：
画像には、日本の女性たちが伝統的な踊りを披露しています。彼女たちは日本の伝統的な服を着て、伝統的な日本の楽器を演奏しています。背景は金箔の散りばめられた緑色の壁です。

この画像の地理的位置の固有の言語での説明は次の通りです：
画像には、日本の伝統舞踊を披露する女性たちのグループが映っています。彼女たちは日本の伝統衣装を着て、日本の伝統楽器を演奏しています。背景は金箔の散りばめられた緑色の壁です。

GPT-4Vの回答：
この画像は、伝統的な日本のシーンを描いたものです。最前列には、三味線を演奏する3人の人物が一列に座り、黒い着物に身を包んでいます。各ミュージシャンは、小さな木製のプラットフォームに置かれた楽器に集中しています。背景には、波と雲の大胆なデザインが施された鮮やかな着物を着たパフォーマーが立っており、伝統的な白塗りのメイクと黒いかつらを着用し、和傘を持って古典的なスタイルで演じています。この設定は、歌舞伎劇場に関連している可能性があります。

日本語の説明は次の通りです：
この画像には、伝統的な日本のシーンが描かれています。前景には、黒い着物を着た3人の人物が一列に座り、伝統的な三味線を演奏しています。各ミュージシャンは、小さな木製のプラットフォームに置かれた楽器に集中しています。

SPHINXの回答：
この画像には、伝統的な日本の衣装を着たグループが楽器を演奏していて、その中には傘を持っている人もいます。グループは4人で構成されており、1人は他の人から際立っています。この人物は傘を持っていて、芸者である可能性があります。残りの3人は楽器を演奏しており、その中にはギターを弾いている人もいます。このシーンは、日本での活気のある文化的瞬間を捉えています。

Figure22:多文化的慣習（Multicultural Customs）の結果

多文化の習慣に関するプロンプト：
画像について、英語で説明し、画像に示された地理的位置の固有の言語でも説明してください。

Gemini Proの回答：
画像には、伝統的な韓国建築物の前で、韓服を着た男性と女性が映っています。男性は黒いガト（伝統的な韓国の帽子）をかぶり、スマートフォンを見ています。女性は、花柄のピンクの韓服を着て鏡を持ち、化粧をしています。
この画像の地理的位置の固有の言語での説明は次の通りです：
이미지는 전통 한옥 앞에서 한복을 입은 남성과 여성을 보여줍니다. 남성은 검은색 갓을 쓰고 있으며, 스마트폰을 보고 있습니다. 여성은 꽃무늬 핑크색 한복을 입고 거울을 들고 화장을 하고 있습니다 。
GPT-4Vの回答：
画像には、伝統的な韓服を着た2人が映っています。左側にいる人物は男性で、伝統的な韓国の帽子であるガトをかぶり、手にスマートフォンを持っており、何かを見たり、写真を撮ったりしている可能性があります。右側にいる人物は女性で、花柄のピンク色の韓服を着ており、伝統的な手鏡を持ち、自分の反映を見ているようです。彼らは屋外におり、背景には伝統的な韓国の建築物がある可能性があり、おそらく宮殿で、訪問者がいる公共の場所を示唆しています。

この画像の地理的位置の固有の言語での説明は次の通りです：
이 이미지는 한복을 입은 두 사람의 모습입니다. 왼쪽에 있는 사람은 남성으로 보이며, 전통 한국모자인 갓을 쓰고 있고, 스마트폰을 들고 있거나 사진을 찍고 있을 것 같습니다 。

SPHINXの回答：
この画像には、伝統的な韓国の服を着た男性と女性が携帯電話で写真を撮っている様子が映っています。女性は携帯電話を持っており、男性はマスクを持っています。彼らは自撮りをしているようです。---

世界記憶（World Memory）

モデルが世界的に知られた有名人、ランドマーク、ロゴ、映画、食べ物、植物、動物などを認識する能力を調べる。
画像が実際の人物に関連する情報を反映している場合、GPT-4Vは時々回答を避けることがある（図24参照）。
しかし、一般的にはモデルは正しく識別する（図23-38参照）。

Figure23:世界記憶（World Memory）の結果

セレブリティ認識と説明に関するプロンプト：
画像の中の人物は誰ですか？

Gemini Proの回答：
画像の人物は、ドクター・ストレンジという架空のキャラクターです。彼は、マーベルのコミックブックに登場する、事故後に強力な魔法使いになる外科医であるスーパーヒーローです。彼は魔法の脅威から世界を守るために力を使います。
GPT-4Vの回答：
画像には、アイアンマン とドクター・ストレンジ の要素を組み合わせた架空のキャラクターが写っています。アイアンマンの赤と金のパワーアーマーと、ドクター・ストレンジのアガモットの目や神秘的なシンボルを組み合わせ、彼らの能力と美学の創造的なクロスオーバーを示唆しています。
SPHINXの回答：
画像の人物は、マーベル・コミックスの宇宙からの人気スーパーヒーロー、アイアンマン です。

プロンプト ：
画像の中の人物は誰ですか？

Gemini Pro ：
テイラー・スウィフト

GPT-4V ：
画像に写っている人物はテイラー・スウィフトで、有名なアメリカのシンガーソングライターです。画像は「The Eras Tour」のプロモーション素材のようです。

SPHINX ：
画像の中の人物はテイラー・スウィフトです。

Figure24:世界記憶（World Memory）の結果

セレブリティ認識と説明に関するプロンプト：
写真の中でボールをシューティングしているのは誰ですか？

Gemini Proの回答：
ボールをシューティングしている選手はケルドン・ジョンソンです。
GPT-4Vの回答：
アップロードされた画像はバスケットボールの試合のようですが、画像のポリシーにより写真の中でボールをシューティングしている人物を特定することはできません。もし特定の選手や試合に関する情報を求めている場合は、バスケットボールに関する一般的な質問や情報を提供できます。
SPHINXの回答：
写真では、バスケットボール選手がボールをシュートしています。

別のプロンプト：
この人物は誰で、写真の中でどのチームのためにプレイしていますか？

Gemini Proの回答：
これはリオネル・メッシです。写真の中で彼はパリ・サンジェルマンのためにプレイしています。
GPT-4Vの回答：
写真の人物はサッカー選手ですが、画像に関するポリシーにより実在する人物の身元を明かすことはできません。写真に写っているサッカーキットはピンク色で、XBTスポンサーロゴが特徴です。これはマイアミを拠点とするサッカーチーム、インターマイアミCFと関連があります。このチームはメジャーリーグサッカー（MLS）で競技しており、これはアメリカとカナダで最高レベルのサッカーです。
SPHINXの回答：
ありがとうございます。写真にはピンクのジャージを着たサッカー選手が写っており、特定のチームやリーグについての文脈は提供されていません。

Figure25:世界記憶（World Memory）の結果

ランドマーク認識と説明

プロンプト:
画像のランドマークを説明してください。

Gemini Proの回答:
画像はカントンタワー、または広州タワーとして知られています。これは中国広東省広州市海珠区にある高さ604メートルの多目的観測塔です。
GPT-4Vの回答:
画像は夜空に対して鮮やかな多色の光で照らされた高く細い塔を示しています。塔には格子状の構造があり、先端に向かってテーパー状のアンテナがあります。上部には顕著な三日月デザインがあり、独特な外観を塔のファサードに加えています。この塔は目立つランドマークであり、おそらく通信塔または観測塔として使用されていると思われます。塔の下には照らされた建物があり、水面に映る橋が見えます。この設定は、川か水域の近くに開発された都市エリアにあるタワーを示唆しています。塔のデザインと照明は、その色彩豊かな夜間ディスプレイで知られている中国広州、カントンタワーに似ています。
SPHINXの回答:
画像には、夜にライトアップされた高くてカラフルな塔が描かれています。それは川か水辺に位置し、美しく活気のあるシーンを作り出しています。

プロンプト:
画像のランドマークを説明してください。

Gemini Proの回答:
画像はパリ、フランスにあるルーブル美術館を示しています。それは世界で最も有名で最大の美術館の一つです。この美術館は世界で最も象徴的な芸術作品のいくつかを収容しています。
GPT-4Vの回答:
画像はルーブルピラミッドを特徴としており、それはパリ、フランスのルーブル美術館への主な入り口である大きなガラスと金属のピラミッドです。このピラミッドは1989年にI.M.ペイ氏によって設計されました。ピラミッドはルーブル宮殿の古典的な建築の中で現代建築の素晴らしい例です。それは照らされており、暖かい光を放ち、濡れた地面に反映して、雨の後の夜や夕暮れに撮影されたことを示唆しています。ピラミッド内のライトはその繊細な金属フレームワークを強調しています。
SPHINXの回答:
画像のランドマークはルーブルピラミッドで、ガラスと金属の構造物で、パリ、フランスにあるルーブル美術館の前に立っています。

Figure26:世界記憶（World Memory）の結果

ランドマーク認識と説明

プロンプト:
画像のランドマークを説明してください。

Gemini Proの回答:
画像はフランス、パリにあるパンテオンです。これはもともとサント＝ジュヌヴィエーヴに捧げられた教会として建てられたドーム型の建物で、後に著名なフランス市民の遺骨を収める世俗的な霊廟に改装されました。
GPT-4Vの回答:
画像にあるランドマークはパンテオンで、フランスのパリ、ラテン地区にあります。これはネオクラシカル建築の建物で、元々はサント・ジュヌヴィエーヴに捧げられた教会でしたが、現在は著名なフランス人の遺骨を含む世俗的な霊廟として機能しています。ファサードはパンテオン・イン・ローマの後に模倣され、そのドームはパリのスカイラインの重要な特徴です。
SPHINXの回答:
画像のランドマークはキャピトル建物で、大きく印象的な建物でドーム型の屋根があります。---

プロンプト:
画像のランドマークを説明してください。

Gemini Proの回答:
画像はフランス、パリの街を示しています。遠くにエッフェル塔が見え、前景にはシャンゼリゼ通りがあります。画像の中央にはコンコルド広場があり、広場の中心にはルクソールのオベリスクがあります。グラン・パレとプチ・パレはコンコルド広場の両側にあります。
GPT-4Vの回答:
画像は遠くにエッフェル塔を特徴とするもので、パリ、フランスにあるランドマークです。それは高い展望地点から見え、街の建物を見下ろしています。前景には大きなクリスマスツリーがあり、写真が休日のシーズンに撮影されたことを示唆しています。通りは温かい光で照らされており、市街地の活気に溢れています。夕暮れ時か夜明け時を示す曇りがかった空があります。
SPHINXの回答:
画像にあるランドマークはエッフェル塔で、フランス、パリにある有名な記念碑です。

Figure27:世界記憶（World Memory）の結果

ロゴ認識と説明

プロンプト:
画像のロゴを詳細に説明してください。

Gemini Proの回答:
ロゴはバスケットボールで、「Wilson」という言葉が書かれています。文字「Wilson」は黒色で、黄色のアウトラインがあります。バスケットボールはオレンジ色で、「NCAA Final Four Edition」と中央の白いストライプの周りに黒色で書かれています。「NCAA Final Four Edition」は黒色で、バスケットボールの底部にあります。
GPT-4Vの回答:
画像のロゴは、スポーツ用品を製造する「Wilson」というブランドのものです。ロゴにはブランド名の「Wilson」が太いスライド付きのボールドフォントで表示されており、活気とダイナミズムを示唆する軽い適用があります。ロゴの色は橙色で、動きを伴う球体に対する視認性を高めるテクスチャード背景にセットされています。バスケットボールは、「COMPOSITE LEATHER」の文字があり、中央の白いストライプの周りには、「NCAA」と書かれており、これは全米大学体育協会（National Collegiate Athletic Association）のことを指します。さらに、「FINAL FOUR EDITION」についても言及されており、これはNCAAバスケットボールトーナメントの最後の4チームを表す用語です。
SPHINXの回答:
画像のロゴは、特にWilson NCAA Final Four Editionのバスケットボール用です。これは、バスケットボールの表面に表示されており、これによって大学バスケットボールのプレステージアスなトーナメントであるFinal Fourとの関連性が示されています。---

プロンプト:
画像のロゴを詳細に説明してください。

Gemini Proの回答:
ロゴは赤と黄色の「M」が黄色の四角形の中にあります。言葉「McDonald's」は四角形の下に赤と黄色で書かれています。ロゴは角の丸い白い四角形で囲まれており、ロゴの背景は白色です。
GPT-4Vの回答:
画像のピンは、食べ物を保存するための折りたたみ式の箱のクローズアップで、ロゴが描かれたタグが見えます。タグには、鶏肉と卵を持つキャラクターが描かれています。キャラクターの顔は主に白色で、黒色のアウトラインと特徴があり、大きな目と厚いまつ毛、赤い毛、3つのコブがあります。このキャラクターは笑っており、口と舌が見え、おそらくチャーミングなキャラクターを表しています。目立つ特徴の一つは、黒色でラテン文字が書かれたタグで、おそらくその商品のブランド名である「McDonald's」が目立って表示されています。また、タグには赤色の「S」が円で囲まれており、おそらく箱の中に含まれている製品のサイズを示しています。全体のデザインは遊び心があり、フレンドリーな雰囲気を持っています。
SPHINXの回答:
画像のロゴは、ファーストフードレストランのMcDonald'sです。これは、「M」を特徴としており、これは企業のアイコンです。シンボルの形は、企業の赤と黄色の基本色と一致しており、「The arches」と呼ばれるものです。このようなスタイルは、同社の速いサービスのレストランと食品を提供することと関連しています。

Figure28:世界記憶（World Memory）の結果

プロンプト:
画像のロゴを詳細に説明してください。

Gemini Pro
ロゴは白い車のフードの上で寝ている黒猫です。猫は画像の左を向いており、その目は閉じられています。車はトヨタ・カローラ で、ロゴはフードの中央にあります。

GPT-4V
画像のロゴは、よく知られた自動車メーカートヨタ です。それは中央に重なる「T」を形成する3つの楕円で構成されています。中央の交差する楕円はトヨタの顧客と製品の統合を象徴し、より大きな外側の楕円はトヨタの技術と無制限の可能性のグローバルな拡大を表しています。背景は通常白く、楕円は金属的なシルバーまたはクロームの仕上げです。このロゴはトヨタ車のフロントグリルに目立つように表示されています。

SPHINX
画像のロゴはトヨタ のものです。

Gemini Pro
ロゴは、内側にスタイリズされた「C」がある円です。「C」は真ん中で交差する二つの曲線でできています。ロゴはシンプルでエレガントであり、創造性と革新性を伝えます。ロゴの色は黒と白で、しばしば洗練と優雅さを関連づけられます。

GPT-4V
画像にあるロゴは、スタイリズされた結び目のように見えます。それは見える始まりや終わりのない、絡み合った線で連続したループを形成しています。デザインはシンプルでエレガントで、モノクロームでグレースケール画像に基づいています。結び目は対称的で、接続性、複雑さ、またはループする性質による無限を表している可能性があります。背景はシンプルで、ロゴが際立って見えるようにしています。全体的なデザインは洗練と現代性を伝えます。

SPHINX
画像にあるロゴは、中央に黒い線がある黒と白の円です。

Gemini Pro
ロゴはバンド名「Linkin Park」のワードマークです。文字は太字のサンセリフ体で、水平線上に配置されています。色は黒と白です。

GPT-4V
画像は、二つの言葉から成るロゴを持つ白い野球帽を示しています。最初の言葉は「LINKIN」と見え、二番目の言葉は「PARK」です。テキストは大文字で、文字のストロークにブレークまたはギャップがあるステンシルまたは軍事スタイルのフォントが特徴で、頑丈または工業的な美学を示唆しています。このロゴは、彼らのニューメタルとオルタナティブロックスタイルで知られる同名の音楽バンドと関連している可能性が高いです。テキストの色は灰色のようで、帽子の白い背景と柔らかいコントラストを提供しています。

SPHINX
画像のロゴは、バンドLinkin Parkのものです。それは前面に黒いロゴがある白いベースボールキャップで、黒と白の表面に置かれています。これは椅子またはテーブルである可能性があります。

Figure29:世界記憶（World Memory）の結果

プロンプト ：
この俳優が出演している三つの映画を挙げてください。

Gemini Pro ：
ジェイソン・ステイサムが出演している映画は以下の通りです：

エクスペンダブルズ
トランスポーター
イタリアン・ジョブ

GPT-4V ：
画像には、アクションジャンルの映画で幅広い範囲にわたる俳優が写っています。彼が出演している三つの映画は以下の通りです：

"トランスポーター" - この映画では、質問なしで何でもどこでも配達する熟練の運転手兼傭兵を演じています。
"クランク" - このハイオクタンアクション映画で、彼は毒を盛られた後にアドレナリンレベルを高く保つ必要があるヒットマンを演じています。
"スナッチ" - 不法なボクシングプロモーターの役を演じるイギリスの犯罪コメディ映画で、盗まれたダイヤモンドを巡る様々な複雑に絡み合う筋書きの中で彼は自分自身を見つけます。

SPHINX ：
ジェイソン・ステイサムは、"トランスポーター"、"クランク"、"エクスペンダブルズ"、"トランスポーター2"、"メカニック"など、いくつかの映画に出演しています。

プロンプト ：
この俳優が出演している三つの映画を挙げてください。

Gemini Pro ：
こちらの俳優はウー・ジンです。彼は「ウルフ・ウォリアー2」、「流浪地球」、「長津湖」などの映画に出演しています。

GPT-4V ：
申し訳ありませんが、画像に写っている人物を特定したり想定することはできません。映画や俳優について他の質問があればお答えすることはできますので、お尋ねください！

SPHINX ：
申し訳ありませんが、画像に写っている俳優が出演している映画リストを提供することはできません。この画像には俳優についての情報が含まれていません。

この解説は、AIモデルが画像を通じて知識をどのように理解し適用するかを詳細に説明しています。モデルは常識、専門知識、多文化的慣習、世界記憶の各側面を異なる程度で把握していることが示されており、特にGPT-4Vはこれらの側面で高い能力を示していますが、実際の人物に関連する情報を扱う際には慎重な姿勢を取ることがあります。これらの観察結果は、AIが広範な知識と世界的なコンテキストをどのように処理するかの理解を深めるのに役立ちます。

参考サイト

https://arxiv.org/pdf/2312.12436.pdf

A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise

The surge of interest towards Multi-modal Large Language Models (MLLMs), e.g., GPT-4V(ision) from OpenAI, has marked a s...