マルチモーダル

AIエージェント

OSWorld: オープンエンドなタスクのためのマルチモーダルエージェントのベンチマーク

はじめにOSWorldは、実際のコンピュータ環境でオープンエンドなタスクを実行するマルチモーダルエージェントのベンチマークです。このリポジトリでは、環境、ベンチマーク、プロジェクトページが提供されています。主な特徴は以下の通りです:実際のデ...
AI・機械学習

AnyGPTをDockerで簡単に実行する方法

はじめにAnyGPTは、音声、テキスト、画像、音楽など様々なモダリティを統一的に処理できるマルチモーダル言語モデルです。この記事では、Dockerを使ってAnyGPTを簡単に実行する方法を初心者向けに解説します。AnyGPTとはAnyGPT...
AI・機械学習

大規模マルチモーダルモデル(Large Multi-Modal Models、以下LMMs)における視覚言語調整を促進するための足場座標(Scaffolding Coordinates)

概要最先端の大規模マルチモーダルモデル(LMMs)は、視覚言語タスクで優れた能力を示してきました。しかし、高度な機能にもかかわらず、複数レベルの視覚情報を用いた複雑な推論が必要とされる難しいシナリオでは、LMMsのパフォーマンスはまだ限られ...
AI・機械学習

【RTX3060】Multimodal Large Language Models(MLLM)のSPHINX-TinyをDockerで動かしてみる

AI技術の進化は日々加速しており、その中でもMultimodal Large Language Models(MLLM)の一角を担うSPHINXは特に注目に値します。この記事では、Windows11とRTX3060を使用し、Docker環境...
AI音楽生成

M2UGenのざっくり論文解説

全体ざっくり解説はじめにMLLMsは、テキスト、視覚、オーディオ、3Dなどの多様なモダリティをつなぐ役割を果たしています。これらのモデルは、人間の意図を理解し、画像や音楽などの出力を生成するために使用されていますが、理解と生成を統合する研究...
大規模言語モデル

分かった気になれる!The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)【解説/検証】(1~3章編)

はじめに「The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)」の解説と検証を行っていきますこちらの記事もおすすめAbstract大規模なマルチモーダルモデル(LMMs)...