Style-Bert-VITS2をDockerでワンパン構築してみた

Style-Bert-VITS2は、音声合成モデルの一つで、カクテルストア音声に似た自然な音声を生成できるモデルです。この記事では、Dockerを使ってStyle-Bert-VITS2を構築する方法を丁寧に解説します。

こちらの記事もおすすめ

Style-Bert-VITS2でずんだもんの声を学習させてみた（GoogleColabのノート付き）

近年、AI技術の進化は目覚ましく、その一環として音声合成技術も大きく前進しています。特に、話者の声質や話し方を模倣する技術は、エンターテイメントから教育まで幅広い分野での応用が期待されています。この記事では、Style-Bert-VITS2...

Deepgramでマイクからリアルタイム文字起こしをしてみた

Deepgramは、最先端の音声認識技術を提供するプラットフォームです。この記事では、Deepgramを使ってマイクからの音声をリアルタイムで文字に変換する方法を、初心者にも分かるように解説します。Pythonを使ったシンプルなスクリプトを...

Dockerfileの作成
docker-compose.ymlの作成
Style-Bert-VITS2の構築と実行
デモ動画
リポジトリ
スペース
1. 関連

Dockerfileの作成

まず、以下の内容でDockerfileを作成します。


# Pythonのベースイメージを使用
FROM python:3.11-slim

# 作業ディレクトリを設定  
WORKDIR /app

# Git LFSのインストール
RUN apt-get update && \
    apt-get install -y git-lfs && \
    git lfs install

# リポジトリをクローン
RUN git clone https://huggingface.co/spaces/MakiAi/Style-Bert-VITS2-JVNV

# クローンしたリポジトリのディレクトリに移動
WORKDIR /app/Style-Bert-VITS2-JVNV

# Pythonの依存関係をインストール
RUN pip install -r requirements.txt  
RUN pip install streamlit

このDockerfileでは以下の手順を実行しています:

Pythonの軽量版イメージpython:3.11-slimをベースイメージとして使用
作業ディレクトリを/appに設定
Git LFSをインストール (大容量ファイルを扱うため)
Style-Bert-VITS2のリポジトリをクローン
クローンしたリポジトリのディレクトリに移動
requirements.txtに記載されたPythonパッケージとstreamlitをインストール

docker-compose.ymlの作成

次に、以下の内容でdocker-compose.ymlを作成します。


version: '3.8'

services:
  app:
    build: .
    volumes:
      - .:/work
    ports:
      - "7878:7860"  
      - "8590:8501"
    tty: true
    command: python app.py --share --server-name 0.0.0.0

    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [ gpu ]

このdocker-compose.ymlでは以下を設定しています:

build: . : カレントディレクトリにあるDockerfileをビルド
volumes : ホストのカレントディレクトリをコンテナ内の/workディレクトリにマウント
ports : ホストの7878番ポートをコンテナの7860番ポートに、ホストの8590番ポートをコンテナの8501番ポートにそれぞれマップ
tty: true : コンテナを対話モードで実行
command : コンテナ起動時にapp.pyを実行。--shareオプションでネットワーク上に公開、--server-name 0.0.0.0でIPアドレス0.0.0.0をサーバー名として指定
deploy : GPU 1枚をコンテナに割り当てる設定