OmniAvatar完全ガイド：Google Colabで音声駆動アバター動画を作成する方法

AI技術の急速な進歩により、音声から自然な動きのアバター動画を生成することが現実となりました。今回紹介するOmniAvatarは、まさにそんな夢のような技術を実現するシステムです。本記事では、Google Colabを使ってOmniAvatarを簡単にセットアップし、実際にアバター動画を生成する方法を詳しく解説します。

OmniAvatarをGoogleColab✖A100で動かしてみた！！
これジェスチャーもあってめっちゃ良いぞ！！！！
＊📒ノートブックも共有します！ https://t.co/XiApf154Iq pic.twitter.com/pC6MgdcL1Q

— Maki@Sunwood AI Labs. (@hAru_mAki_ch) July 26, 2025

OmniAvatarとは？革新的な音声駆動アバター生成技術
- 主な特徴
必要な環境とコストについて
ステップ1：環境セットアップ - 基盤を整える
ステップ2：依存関係のインストール - AIエンジンを準備
ステップ3：Hugging Faceアカウントの設定
ステップ4：AIモデルの選択とダウンロード
- 1.3Bモデル（軽量版）- 初心者にオススメ
- 14Bモデル（高品質版）- プロ仕様
ステップ5：実際にアバター動画を生成してみよう
- サンプル入力の確認
- 推論の実行
  - 1.3Bモデルの場合
  - 14Bモデルの場合（メモリ最適化）
カスタム動画の作成：あなただけのアバターを作ろう
まとめ：OmniAvatarで創造性を解き放とう
📒ノートブック
- 関連

OmniAvatarとは？革新的な音声駆動アバター生成技術

OmniAvatarは、音声ファイルと画像を入力するだけで、リアルな口の動きや表情を持つアバター動画を自動生成するAIシステムです。従来の動画編集ソフトでは手作業で行っていた複雑な作業を、AIが一瞬で処理してくれます。

主な特徴

音声同期: 入力した音声に完璧に同期した口の動き
自然な表情: AIが生成する人間らしい表情変化
簡単操作: プログラミング知識不要で高品質な動画を生成
複数モデル: 軽量版（1.3B）から高品質版（14B）まで選択可能

必要な環境とコストについて

OmniAvatarを快適に利用するには、以下の環境が推奨されます：

必須要件

Google Colab Pro - VRAM要件のため強く推奨
Hugging Faceアカウント（無料）- モデルダウンロード用

なぜColab Proが必要？
OmniAvatarは高性能なGPUメモリ（VRAM）を必要とします。無料版のColabでは制限があるため、安定した動作にはColab Proの利用が現実的です。

ステップ1：環境セットアップ - 基盤を整える

まずは作業環境を整備していきましょう。以下のコードを順番に実行してください。

Google Driveのマウント

from google.colab import drive
drive.mount('/content/drive')

プロジェクトディレクトリの準備

%cd /content/drive/MyDrive/Prj

OmniAvatarリポジトリのクローン

!git clone https://github.com/Omni-Avatar/OmniAvatar.git
%cd /content/drive/MyDrive/Prj/OmniAvatar

ステップ2：依存関係のインストール - AIエンジンを準備

ここが最も重要なステップです。OmniAvatarが正常に動作するための各種ライブラリをインストールします。

基本ライブラリのインストール

!pip install peft==0.15.1
!pip install xfuser==0.4.1
!pip install ftfy einops

PyTorchの適切なバージョンをインストール

# 既存のPyTorch関連パッケージを削除
!pip uninstall torch torchvision torchaudio flash-attn -y

# OmniAvatar推奨バージョンのPyTorchをインストール
!pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu124

# 高速化のためのFlash Attentionをインストール
!pip install flash-attn==2.6.3 --no-build-isolation

インストール状況の確認

import torch
import torchvision
import transformers
import peft

print(f"PyTorch: {torch.__version__}")
print(f"TorchVision: {torchvision.__version__}")
print(f"Transformers: {transformers.__version__}")
print(f"PEFT: {peft.__version__}")

# Flash Attentionの動作確認
try:
    import flash_attn
    print(f"Flash Attention: {flash_attn.__version__}")
    from flash_attn import flash_attn_func
    print("Flash Attention: 正常にインポート可能")
except ImportError as e:
    print(f"Flash Attention: インポートエラー - {e}")

print(f"CUDA available: {torch.cuda.is_available()}")
print(f"CUDA version: {torch.version.cuda}")

# GPU情報の表示
if torch.cuda.is_available():
    print(f"GPU count: {torch.cuda.device_count()}")
    print(f"Current GPU: {torch.cuda.current_device()}")
    print(f"GPU name: {torch.cuda.get_device_name()}")
    print(f"GPU memory: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")

ステップ3：Hugging Faceアカウントの設定

AIモデルをダウンロードするために、Hugging Faceアカウントとの連携を行います。

from google.colab import userdata

!pip install "huggingface_hub[cli]"

# Hugging Faceにログイン
from huggingface_hub import login
login(userdata.get('HF_TOKEN'))

注意: Colab SecretsにHugging FaceのトークンをHF_TOKENという名前で保存しておく必要があります。

ステップ4：AIモデルの選択とダウンロード

OmniAvatarでは用途に応じて2つのモデルから選択できます。

1.3Bモデル（軽量版）- 初心者にオススメ

メモリ使用量が少なく、処理速度が速いモデルです。初めて試す方にはこちらがオススメです。

!mkdir -p pretrained_models

# ベースモデル
!huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./pretrained_models/Wan2.1-T2V-1.3B

# OmniAvatarモデル
!huggingface-cli download OmniAvatar/OmniAvatar-1.3B --local-dir ./pretrained_models/OmniAvatar-1.3B

# 音声エンコーダー
!huggingface-cli download facebook/wav2vec2-base-960h --local-dir ./pretrained_models/wav2vec2-base-960h

14Bモデル（高品質版）- プロ仕様

より高品質な動画を生成したい場合は14Bモデルを選択してください（VRAM 21GB以上必要）。

# 14B版（VRAM 21G以上必要）
!huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./pretrained_models/Wan2.1-T2V-14B
!huggingface-cli download OmniAvatar/OmniAvatar-14B --local-dir ./pretrained_models/OmniAvatar-14B

ステップ5：実際にアバター動画を生成してみよう

いよいよOmniAvatarを使ってアバター動画を生成します。

サンプル入力の確認

まずは提供されているサンプルファイルの内容を確認してみましょう。

!cat examples/infer_samples.txt

推論の実行

1.3Bモデルの場合

!torchrun --standalone --nproc_per_node=1 scripts/inference.py \
    --config configs/inference_1.3B.yaml \
    --input_file examples/infer_samples.txt

14Bモデルの場合（メモリ最適化）

import torch
torch.cuda.empty_cache()  # GPUメモリをクリア

!torchrun --standalone --nproc_per_node=1 scripts/inference.py \
    --config configs/inference.yaml \
    --input_file examples/infer_samples.txt \
    --hp="max_hw=1280,guidance_scale=4.5,num_steps=25,max_tokens=30000,use_fsdp=True,num_persistent_param_in_dit=0,tea_cache_l1_thresh=0.14"

カスタム動画の作成：あなただけのアバターを作ろう

入力ファイルの形式

OmniAvatarでは以下の形式で入力ファイルを作成します：

プロンプト（動画の説明）@@画像ファイルのパス@@音声ファイルのパス

カスタム入力ファイルの作成例

# カスタム入力ファイルを作成
custom_input = """
A professional woman speaking clearly@@/path/to/image.jpg@@/path/to/audio.wav
A young man giving a presentation@@/path/to/another_image.jpg@@/path/to/another_audio.wav
"""

with open('custom_samples.txt', 'w') as f:
    f.write(custom_input)

プロンプト作成のコツ

効果的なプロンプトを作成するには、以下の構造を意識してください：

[第一フレームの説明] - [人間の行動の説明] - [背景の説明（オプション）]

良いプロンプトの例：

"A smiling businesswoman in a blue suit - speaking confidently - in a modern office"
"A young teacher - explaining a concept with hand gestures - in front of a whiteboard"