YOLO-WorldをGoogle Colabで動かしてみた

AI・機械学習

2024.06.242024.02.01

近年の技術進歩により、画像認識技術は目覚ましい発展を遂げています。その中でも、「You Only Look Once（YOLO）」シリーズは、その高速性と実用性で広く認知されています。しかし、従来のYOLOは予め定義されたカテゴリーに基づいて物体を検出するため、オープンなシナリオでの適用性に限界がありました。この問題を解決するために開発されたのが、YOLO-World です。この記事では、Google Colabを使用してYOLO-Worldを実行する方法をステップバイステップで解説します。

こちらの記事もおすすめ

Google Colab上でQLoRAを作成してGGUFに変換してみた

はじめにこのコードは、Google Colab（無料版でOK）上でQLoRA (Quantized Low-Rank Adaptation)を使用して大規模言語モデルを訓練し、その後GGUF形式に変換するためのものです。それぞれの部分につい...

無料枠Google Colab で LLaMA-Factory をやってみた

はじめにGoogle Colabは、ブラウザ上でPythonを実行できる無料のサービスです。これを使って、LLaMA-Factoryを動かしてみましょう。LLaMA-Factoryは、大規模言語モデル（LLM）のファインチューニングを容易に...

目次

YOLO-Worldの概要
YOLO-Worldの特徴
Google Colabでの実行手順
検出例
ノートブック
論文
リポジトリ
まとめ
1. 関連

YOLO-Worldの概要

YOLO-Worldは、大規模データセットを用いた事前学習、画像テキストデータセットでのファインチューニングにより、オープンボキャブラリー検出能力とグラウンディング能力を強化した次世代のYOLO検出器です。具体的には、視覚言語モデリングを通じて、従来のYOLOにはないオープンボキャブラリー検出機能を付加しています。この技術により、ユーザーが定義した語彙で効率的に推論を行うことが可能になります。

YOLO-Worldの特徴

オープンボキャブラリー検出 : 大規模なデータセットに基づく事前学習により、定義されていない新しいオブジェクトも検出できます。
高速かつ高精度 : LVISデータセットで35.4 APという高精度を実現しつつ、52.0 FPSの高速処理が可能です。
効率的なユーザー語彙推論 : モデルに語彙の埋め込みをパラメータとして再パラメータ化し、優れた推論速度を実現します。

Google Colabでの実行手順

Google Colabを使ってYOLO-Worldを試すプロセスはシンプルです。以下のコードブロックを順に実行していきます。

リポジトリのクローン

!git clone https://huggingface.co/spaces/MakiAi/YOLO-World
%cd YOLO-World

このコマンドで、YOLO-WorldのGitHubリポジトリをColabにクローンします。

依存関係のインストール

!pip install -r requirements.txt

YOLO-Worldを動かすために必要なライブラリをインストールします。

ONNX Runtimeのセットアップ

!pip uninstall -y onnxruntime onnxruntime-gpu
!pip install onnxruntime-gpu

GPU対応のONNX Runtimeをインストールし、既存のバージョンがあればアンインストールします。これにより、YOLO-Worldの実行速度が向上します。

アプリケーションの実行

!python app.py

最後に、app.pyを実行することでYOLO-Worldが起動します。これで、Google Colab上でYOLO-Worldを試す準備が整いました。

検出例

car, sign, building, sky, tree

sweets, it, pc, flower

ノートブック

論文

YOLO-World: Real-Time Open-Vocabulary Object Detection

The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and traine...

リポジトリ

GitHub - AILab-CVC/YOLO-World: [CVPR 2024] Real-Time Open-Vocabulary Object Detection

Real-Time Open-Vocabulary Object Detection - AILab-CVC/YOLO-World

YOLO World - a Hugging Face Space by stevengrove

Discover amazing ML apps made by the community

まとめ

YOLO-Worldは、オープンボキャブラリー検出の可能性を大きく広げる革新的な技術です。Google Colabを利用することで、手軽にこの最先端の検出システムを体験することができます。この記事で紹介した手順に従って、YOLO-Worldのパワフルな機能をぜひ試してみてください。

関連

コメント

タイトルとURLをコピーしました