近年の技術進歩により、画像認識技術は目覚ましい発展を遂げています。その中でも、「You Only Look Once(YOLO)」シリーズは、その高速性と実用性で広く認知されています。しかし、従来のYOLOは予め定義されたカテゴリーに基づいて物体を検出するため、オープンなシナリオでの適用性に限界がありました。この問題を解決するために開発されたのが、YOLO-World です。この記事では、Google Colabを使用してYOLO-Worldを実行する方法をステップバイステップで解説します。
こちらの記事もおすすめ


YOLO-Worldの概要
YOLO-Worldは、大規模データセットを用いた事前学習、画像テキストデータセットでのファインチューニングにより、オープンボキャブラリー検出能力とグラウンディング能力を強化した次世代のYOLO検出器です。具体的には、視覚言語モデリングを通じて、従来のYOLOにはないオープンボキャブラリー検出機能を付加しています。この技術により、ユーザーが定義した語彙で効率的に推論を行うことが可能になります。
YOLO-Worldの特徴
- オープンボキャブラリー検出 : 大規模なデータセットに基づく事前学習により、定義されていない新しいオブジェクトも検出できます。
- 高速かつ高精度 : LVISデータセットで35.4 APという高精度を実現しつつ、52.0 FPSの高速処理が可能です。
- 効率的なユーザー語彙推論 : モデルに語彙の埋め込みをパラメータとして再パラメータ化し、優れた推論速度を実現します。
Google Colabでの実行手順
Google Colabを使ってYOLO-Worldを試すプロセスはシンプルです。以下のコードブロックを順に実行していきます。
リポジトリのクローン
!git clone https://huggingface.co/spaces/MakiAi/YOLO-World
%cd YOLO-World
このコマンドで、YOLO-WorldのGitHubリポジトリをColabにクローンします。
- 依存関係のインストール
!pip install -r requirements.txt
YOLO-Worldを動かすために必要なライブラリをインストールします。
ONNX Runtimeのセットアップ
!pip uninstall -y onnxruntime onnxruntime-gpu
!pip install onnxruntime-gpu
GPU対応のONNX Runtimeをインストールし、既存のバージョンがあればアンインストールします。これにより、YOLO-Worldの実行速度が向上します。
アプリケーションの実行
!python app.py
最後に、app.py
を実行することでYOLO-Worldが起動します。これで、Google Colab上でYOLO-Worldを試す準備が整いました。
検出例
car, sign, building, sky, tree
sweets, it, pc, flower
ノートブック

論文
リポジトリ

まとめ
YOLO-Worldは、オープンボキャブラリー検出の可能性を大きく広げる革新的な技術です。Google Colabを利用することで、手軽にこの最先端の検出システムを体験することができます。この記事で紹介した手順に従って、YOLO-Worldのパワフルな機能をぜひ試してみてください。
コメント