GPT-4V

x.inferをGoogle Colabで試してみた！（Googleノートブック付）

はじめに最近、新しい画像認識モデルが次々とリリースされていますよね。例えばGPT-4V やClaude 3 など、画像認識の性能は日々進化しています。でも、こんな悩みはありませんか？🤔 新しいモデルを試したいけど、セットアップが面倒😅 異な...

2024.10.26

AIPython開発機械学習画像処理

大規模マルチモーダルモデル（Large Multi-Modal Models、以下LMMs）における視覚言語調整を促進するための足場座標（Scaffolding Coordinates）

概要最先端の大規模マルチモーダルモデル（LMMs）は、視覚言語タスクで優れた能力を示してきました。しかし、高度な機能にもかかわらず、複数レベルの視覚情報を用いた複雑な推論が必要とされる難しいシナリオでは、LMMsのパフォーマンスはまだ限られ...

2024.03.16

AI・機械学習マルチモーダル画像認識自然言語処理