画像認識

AI・機械学習

YOLOv10: リアルタイムのEnd-to-Endオブジェクト検出手法

はじめに本論文では、リアルタイムのEnd-to-Endオブジェクト検出手法であるYOLOv10を提案しています。YOLOv10は、高速かつ高精度なオブジェクト検出を可能にし、自動運転やロボット制御など幅広い応用が期待されます。なんJ式論文解...
画像認識

【朗報】YOLOv10、非NMSで爆速&高精度のオブジェクト検出が可能に【画像認識】

真面目な解説はこちら1 風吹けば名無し@無断転載禁止 (ワッチョイ 3b8d-yNM5) sage 2024/05/25(土) 21:38:01.45 ID:7Hn0Abcr新しいYOLOv10ってオブジェクト検出の精度と速度がすごいらしい...
AI・機械学習

大規模マルチモーダルモデル(Large Multi-Modal Models、以下LMMs)における視覚言語調整を促進するための足場座標(Scaffolding Coordinates)

概要最先端の大規模マルチモーダルモデル(LMMs)は、視覚言語タスクで優れた能力を示してきました。しかし、高度な機能にもかかわらず、複数レベルの視覚情報を用いた複雑な推論が必要とされる難しいシナリオでは、LMMsのパフォーマンスはまだ限られ...
AI・機械学習

ローカル画像でGemini Pro APIをOpenAI APIフォーマットで試してみた【Gemini-OpenAI-Proxy】

今回は、Gemini-OpenAI-Proxy を使用して、ローカルに保存された画像を Gemini Pro API に OpenAI API フォーマットで送信し、画像認識のデモを行います。このプロセスは、初心者でも理解しやすいように、ス...
AI・機械学習

YOLO-WorldをGoogle Colabで動かしてみた

近年の技術進歩により、画像認識技術は目覚ましい発展を遂げています。その中でも、「You Only Look Once(YOLO)」シリーズは、その高速性と実用性で広く認知されています。しかし、従来のYOLOは予め定義されたカテゴリーに基づい...