TTS Arena: 実際の環境でテキストから音声へのモデルを評価する

AI

TTS Arena: Benchmarking Text-to-Speech Models in the Wild

こちらの記事の日本語版です。

TTS Arena: Benchmarking Text-to-Speech Models in the Wild
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

導入 (Introduction)

テキストから音声への変換モデル(TTSモデル)の品質を自動的に測定することは非常に難しいです。声の自然さや抑揚を評価することは人間にとっては簡単ですが、AIにとってはずっと難しい課題です。このため、今日、私たちはTTS Arenaを発表することに興奮しています。LMSysのChatbot Arenaに触発されて、私たちは誰でも簡単にTTSモデルを比較できるツールを開発しました。テキストを提出し、二つの異なるモデルがそれを話すのを聞いて、どちらのモデルが最も良いと思うか投票してください。結果はコミュニティの最も高評価されたモデルを表示するリーダーボードに整理されます。

デモ動画

TTS Arenaの使い方 (How to Use TTS Arena)

投票 (Vote)

file

  1. 英語のテキストを入力して音声を合成します(ランダムなテキストには🎲を押してください)。

file

  1. 二つの音声クリップを順に聞きます。

file

  1. どちらの音声がより自然に聞こえるか投票します。
  • 注記:モデル名は投票後に明かされます。
  • 注記:音声を合成するまでに最大30秒かかる場合があります。

動機 (Motivation)

長年にわたり、異なるモデルの品質を測定する正確な方法が音声合成分野には欠けていました。WER(単語誤り率)のような客観的指標はモデルの品質を測るには信頼できないものであり、MOS(平均意見得点)のような主観的指標は通常、少数のリスナーを対象に行われる小規模な実験です。これらの測定は一般に、おおよそ同じ品質の二つのモデルを比較するのには役立ちません。これらの欠点に対処するため、私たちはコミュニティにモデルを簡単にランク付けできるインターフェースを開放しています。このツールを開放し、結果を公に広めることで、モデルのランキング方法を民主化し、モデルの比較と選択を誰にでもアクセスしやすくすることを目指しています。

選ばれたモデル (Selected Models)

我々はリーダーボードのためにいくつかの最先端(SOTA, State of the Art)モデルを選びました。ほとんどがオープンソースモデルですが、開発者がオープンソースの開発状況とプロプライエタリモデルを比較できるように、いくつかのプロプライエタリモデルも含めました。

TTSリーダーボード (The TTS Leaderboard)

アリーナ投票からの結果は、専用のリーダーボードで公に利用可能になります。初めは空ですが、十分な投票が集まるとモデルが徐々に表示されます。評価者が新しい投票を提出すると、リーダーボードは自動的に更新されます。

まとめ

TTS Arenaは、テキストから音声への変換(TTS: Text-to-Speech)モデルの品質を比較・評価できるツールです。このツールを使うことで、以下のような利点やメリットがあります。

何ができるのか

  1. モデル比較: 複数のTTSモデルを直接比較し、同じテキストを使ってそれぞれの音声出力を聴くことができます。
  2. 自然さの評価: 音声の自然さや抑揚を評価し、どのモデルがより人間の声に近いか投票することで、ユーザーは自分の好みやニーズに最も合ったTTSモデルを見つけることができます。
  3. コミュニティの意見: 投票結果はリーダーボードに反映され、どのモデルがコミュニティによって最も高く評価されているかを確認できます。

何が嬉しいのか

  1. 簡単な比較: 複数のTTSモデルを個別にテストする手間が省け、簡単に比較できます。
  2. 選択の民主化: 一般のユーザーや開発者が、TTSモデルの品質を評価し、意見を共有することで、選択プロセスに参加できます。
  3. 開発の促進: モデルの長所と短所が明らかになり、開発者はフィードバックを基にモデルの改善に取り組むことができます。
  4. アクセスの容易さ: どんなユーザーでも、専門知識がなくてもTTSモデルの品質を評価し、自分に合ったモデルを見つけることができます。

TTS Arenaは、TTSモデルの選択と評価をより透明でアクセスしやすくすることで、技術の民主化を促進し、最終的にはより自然で理解しやすい音声合成技術の普及に貢献します。

コメント

タイトルとURLをコピーしました