Style-Bert-VITS2をDockerでワンパン構築してみた

AI実況

Style-Bert-VITS2は、音声合成モデルの一つで、カクテルストア音声に似た自然な音声を生成できるモデルです。この記事では、Dockerを使ってStyle-Bert-VITS2を構築する方法を丁寧に解説します。


こちらの記事もおすすめ

Style-Bert-VITS2でずんだもんの声を学習させてみた(GoogleColabのノート付き)
近年、AI技術の進化は目覚ましく、その一環として音声合成技術も大きく前進しています。特に、話者の声質や話し方を模倣する技術は、エンターテイメントから教育まで幅広い分野での応用が期待されています。この記事では、Style-Bert-VITS2...
Deepgramでマイクからリアルタイム文字起こしをしてみた
Deepgramは、最先端の音声認識技術を提供するプラットフォームです。この記事では、Deepgramを使ってマイクからの音声をリアルタイムで文字に変換する方法を、初心者にも分かるように解説します。Pythonを使ったシンプルなスクリプトを...

Dockerfileの作成

まず、以下の内容でDockerfileを作成します。


# Pythonのベースイメージを使用
FROM python:3.11-slim

# 作業ディレクトリを設定  
WORKDIR /app

# Git LFSのインストール
RUN apt-get update && \
    apt-get install -y git-lfs && \
    git lfs install

# リポジトリをクローン
RUN git clone https://huggingface.co/spaces/MakiAi/Style-Bert-VITS2-JVNV

# クローンしたリポジトリのディレクトリに移動
WORKDIR /app/Style-Bert-VITS2-JVNV

# Pythonの依存関係をインストール
RUN pip install -r requirements.txt  
RUN pip install streamlit

このDockerfileでは以下の手順を実行しています:

  1. Pythonの軽量版イメージpython:3.11-slimをベースイメージとして使用
  2. 作業ディレクトリを/appに設定
  3. Git LFSをインストール (大容量ファイルを扱うため)
  4. Style-Bert-VITS2のリポジトリをクローン
  5. クローンしたリポジトリのディレクトリに移動
  6. requirements.txtに記載されたPythonパッケージとstreamlitをインストール

docker-compose.ymlの作成

次に、以下の内容でdocker-compose.ymlを作成します。


version: '3.8'

services:
  app:
    build: .
    volumes:
      - .:/work
    ports:
      - "7878:7860"  
      - "8590:8501"
    tty: true
    command: python app.py --share --server-name 0.0.0.0

    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [ gpu ]

このdocker-compose.ymlでは以下を設定しています:

  • build: . : カレントディレクトリにあるDockerfileをビルド
  • volumes : ホストのカレントディレクトリをコンテナ内の/workディレクトリにマウント
  • ports : ホストの7878番ポートをコンテナの7860番ポートに、ホストの8590番ポートをコンテナの8501番ポートにそれぞれマップ
  • tty: true : コンテナを対話モードで実行
  • command : コンテナ起動時にapp.pyを実行。--shareオプションでネットワーク上に公開、--server-name 0.0.0.0でIPアドレス0.0.0.0をサーバー名として指定
  • deploy : GPU 1枚をコンテナに割り当てる設定

Style-Bert-VITS2の構築と実行

準備ができたら、以下のコマンドを実行してStyle-Bert-VITS2を構築・起動します。


docker-compose up --build

--buildオプションを付けることで、Dockerfileから新しくイメージをビルドしてからコンテナを起動します。

起動したら、ブラウザでhttp://localhost:8590にアクセスすることでStyle-Bert-VITS2の画面が開きます。あとは画面の指示に従って、好きなスタイルとテキストを選択するだけで自然な音声を生成できます。

以上が、DockerでStyle-Bert-VITS2を構築する方法の解説でした。Dockerを使うことで環境構築が簡単になり、GPUの設定もdocker-composeファイルで手軽に行えます。ぜひお試しください。

file

デモ動画

リポジトリ

GitHub - Sunwood-ai-labs/Style-Bert-VITS2: Style-Bert-VITS2: Bert-VITS2 with more controllable voice styles.
Style-Bert-VITS2: Bert-VITS2 with more controllable voice styles. - Sunwood-ai-labs/Style-Bert-VITS2

スペース

Style-Bert-VITS2 JVNV - a Hugging Face Space by MakiAi
Discover amazing ML apps made by the community

コメント

タイトルとURLをコピーしました