YOLO-WorldをGoogle Colabで動かしてみた

AI

近年の技術進歩により、画像認識技術は目覚ましい発展を遂げています。その中でも、「You Only Look Once(YOLO)」シリーズは、その高速性と実用性で広く認知されています。しかし、従来のYOLOは予め定義されたカテゴリーに基づいて物体を検出するため、オープンなシナリオでの適用性に限界がありました。この問題を解決するために開発されたのが、YOLO-World です。この記事では、Google Colabを使用してYOLO-Worldを実行する方法をステップバイステップで解説します。


こちらの記事もおすすめ

Google Colab上でQLoRAを作成してGGUFに変換してみた
はじめにこのコードは、Google Colab(無料版でOK)上でQLoRA (Quantized Low-Rank Adaptation)を使用して大規模言語モデルを訓練し、その後GGUF形式に変換するためのものです。それぞれの部分につい...
無料枠Google Colab で LLaMA-Factory をやってみた
はじめにGoogle Colabは、ブラウザ上でPythonを実行できる無料のサービスです。これを使って、LLaMA-Factoryを動かしてみましょう。LLaMA-Factoryは、大規模言語モデル(LLM)のファインチューニングを容易に...

YOLO-Worldの概要

YOLO-Worldは、大規模データセットを用いた事前学習、画像テキストデータセットでのファインチューニングにより、オープンボキャブラリー検出能力とグラウンディング能力を強化した次世代のYOLO検出器です。具体的には、視覚言語モデリングを通じて、従来のYOLOにはないオープンボキャブラリー検出機能を付加しています。この技術により、ユーザーが定義した語彙で効率的に推論を行うことが可能になります。

YOLO-Worldの特徴

  • オープンボキャブラリー検出 : 大規模なデータセットに基づく事前学習により、定義されていない新しいオブジェクトも検出できます。
  • 高速かつ高精度 : LVISデータセットで35.4 APという高精度を実現しつつ、52.0 FPSの高速処理が可能です。
  • 効率的なユーザー語彙推論 : モデルに語彙の埋め込みをパラメータとして再パラメータ化し、優れた推論速度を実現します。

Google Colabでの実行手順

Google Colabを使ってYOLO-Worldを試すプロセスはシンプルです。以下のコードブロックを順に実行していきます。

リポジトリのクローン

!git clone https://huggingface.co/spaces/MakiAi/YOLO-World
%cd YOLO-World

このコマンドで、YOLO-WorldのGitHubリポジトリをColabにクローンします。

  1. 依存関係のインストール
!pip install -r requirements.txt

YOLO-Worldを動かすために必要なライブラリをインストールします。

ONNX Runtimeのセットアップ

!pip uninstall -y onnxruntime onnxruntime-gpu
!pip install onnxruntime-gpu

GPU対応のONNX Runtimeをインストールし、既存のバージョンがあればアンインストールします。これにより、YOLO-Worldの実行速度が向上します。

アプリケーションの実行

!python app.py

最後に、app.pyを実行することでYOLO-Worldが起動します。これで、Google Colab上でYOLO-Worldを試す準備が整いました。

検出例

car, sign, building, sky, tree

file

sweets, it, pc, flower

file

ノートブック

Google Colaboratory

論文

YOLO-World: Real-Time Open-Vocabulary Object Detection
The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and traine...

リポジトリ

GitHub - AILab-CVC/YOLO-World: Real-Time Open-Vocabulary Object Detection
Real-Time Open-Vocabulary Object Detection. Contribute to AILab-CVC/YOLO-World development by creating an account on GitHub.
YOLO World - a Hugging Face Space by stevengrove
Discover amazing ML apps made by the community

まとめ

YOLO-Worldは、オープンボキャブラリー検出の可能性を大きく広げる革新的な技術です。Google Colabを利用することで、手軽にこの最先端の検出システムを体験することができます。この記事で紹介した手順に従って、YOLO-Worldのパワフルな機能をぜひ試してみてください。

コメント

タイトルとURLをコピーしました