【日本語版】MusicHiFi: Fast High-Fidelity Stereo Vocoding

要旨（Abstract）
はじめに（Introduction）
背景（Background）
手法（Methodology）
実験と結果（Experiment and Results）
結論（Conclusion）
参考サイト
- 関連

要旨（Abstract）

この論文では、MusicHiFiという新しい高速かつ高品質なステレオボーコーディング手法を提案しています。MusicHiFiは、低解像度の音声表現（メルスペクトログラムなど）から音声を生成し、位相再構成モデルやボーコーダーを用いて音声に変換する、拡散ベースのオーディオ・音楽生成モデルに適用できます。

提案手法の特徴は以下の通りです。

3つの生成的敵対ネットワーク（GAN）のカスケードを用いて、低解像度のメルスペクトログラムを音声に変換し、帯域幅拡張により高解像度の音声にアップサンプリングし、ステレオ音声にアップミックスする。
各カスケードステージに対して、統一されたGANベースのジェネレーターとディスクリミネーターのアーキテクチャとトレーニング手順を提案。
新しい高速でダウンサンプリング互換の帯域幅拡張モジュールを提案。
モノラル音声のコンテンツを保持することを保証する、新しい高速のダウンミックス互換のモノラルからステレオへのアップミキサーを提案。

客観的・主観的な聴取テストによる評価の結果、提案手法は従来手法と比較して同等以上の音質を実現しつつ、より優れた空間化制御が可能で、推論速度も大幅に高速化できることが示されました。

はじめに（Introduction）

近年の生成モデル、特に拡散モデル(Diffusion Models)は、高速かつ高品質な画像生成において大きな可能性を示しており、オーディオや音楽の生成にも急速に応用されつつあります。

オーディオ分野での拡散モデルの利用では、音声のイメージ表現（メルスペクトログラムなど）を生成し、位相再構成モデルやボーコーダーを用いて音声に変換するのが一般的です。しかし、従来のボーコーダーはモノラル音声を低解像度（16～24kHzなど）で生成するため、その有効性が制限されています。

本論文の主な貢献は以下の通りです。

ボーコーディング、帯域拡張、モノラルからステレオへのアップミキシングに対する、統一されたGANベースのジェネレーター、ディスクリミネーター、トレーニングレシピの提案
ダウンサンプリング互換の新しい高速帯域拡張手法の提案
モノラル音声のコンテンツを完全に保持し、優れた空間化制御を実現する、ダウンミックス互換の新しい高速モノラルからステレオへの変換手法の提案

背景（Background）

提案手法に最も関連する最近の研究としては、BigVGAN[15]とDescript audio codec(DAC)[27]が挙げられます。

BigVGANは最近提案されたボーコーダー手法で、メルスペクトログラムから高品質の波形を単一のGPUで実時間よりもはるかに高速に生成できることが示されています。BigVGANのジェネレーターは、逆1次元畳み込みのスタックとそれに続くアンチエイリアシングマルチ周期性合成（AMP）ブロックで構成されるニューラルネットワークアーキテクチャを採用しています。AMPブロックは内部でSnake activationを使用しており、高周波数のアーティファクトの少ない波形を生成し、客観的・主観的評価で大幅な改善をもたらすことが示されています。さらに、AMPブロックはout-of-distributionなボーコーディングに対するロバスト性と、強力な外挿能力を向上させることが分かっています。

DACニューラル圧縮手法は、Snake activationを用いたSoundStreamジェネレーターアーキテクチャと、改良されたGANベースのディスクリミネーターアーキテクチャ、更新されたトレーニング目的関数、残差ベクトル量子化スキームを用いて、最先端の高忠実度圧縮を実現します。ディスクリミネーターの違いを見ると、BigVGANとDACはともに時間領域のマルチピリオッドディスクリミネーター（MPD）を使用して複数の周期構造をキャプチャするとともに、スペクトル領域のディスクリミネーターを使用しています。ただし、DACではBigVGANの振幅のみのスペクトルディスクリミネーターを、高周波数の予測を強化しエイリアシングを緩和するマルチバンドマルチ解像度複素スペクトログラムディスクリミネーター（MMSD）に置き換えています。

BigVGANとDACはどちらも再構成損失と敵対的損失を利用していますが、DACではコードブック損失を含み、再構成損失をマルチスケールスペクトログラムのマルチメルビンを用いるように更新して、トレーニングの安定性と収束速度を改善しています。

手法（Methodology）

概要（Overview）

MusicHiFiは、図1aに示すように、音声を段階的にアップサンプリングする統一トリプレットGANカスケードに基づく新しいボーコーディング手法です。提案手法は3つのステージで構成されており、各ステージはモジュール化されていて、異なるアプリケーションに有用です。

まず、低解像度の単一チャンネルメルスペクトログラムをボーコーダー（MusicHiFi-V）を用いて同じ解像度の波形に変換します。次に、低解像度の波形を帯域拡張（BWE）モジュール（MusicHiFi-BWE）によって高解像度の波形に変換します。最後に、単一チャンネルの高解像度波形をモノラルからステレオ（M2S）モジュール（MusicHiFi-M2S）によってステレオ音声にアップミックスします。

各ステージでは、図1bに示すように、同一のジェネレーターアーキテクチャ、ディスクリミネーターアーキテクチャ、トレーニング目的関数、およびモデルサイズを使用しています。3つのモジュールの違いは、入力と出力、およびBWEの残差接続のみです。

具体的には、3つのジェネレーターステージすべてにおいて、メルスペクトログラムを入力として音声を出力するBigVGANの逆1次元畳み込み+AMPブロックジェネレーターアーキテクチャを採用しています。ディスクリミネーターアーキテクチャには、DACディスクリミネーターを使用しています。トレーニング目的関数としても、DACの再構成損失と敵対的損失を採用し、高忠実度のオーディオ合成に焦点を当てているため、コードブック学習目的関数は削除しています。

MusicHiFi-V

ボーコーダーは、低サンプリングレートのメルスペクトログラムを入力として低解像度のオーディオ波形を出力しますが、それ以外は上述の統一されたジェネレーター、ディスクリミネーター、およびトレーニングレシピに従います。元のBigVGANのトレーニングレシピは、より大きなモデルにスケールアップするとモード崩壊を起こしやすいことが知られています。AMPブロックの畳み込み層を減らし、入力シーケンス長を8192から16384に拡張し、畳み込みチャンネル幅を2048に増やし、今回のトレーニング戦略を用いることで、モード崩壊は見られませんでした。さらに、この構成はHiFi-GANの浮動小数点演算数（FLOPS）とほぼ一致しています。

MusicHiFi-BWE

BWEモジュールは、低解像度のオーディオを入力として高解像度のオーディオを出力しますが、統一されたジェネレーター、ディスクリミネーター、およびトレーニングレシピを使用しています。ただし、ジェネレーターアーキテクチャには2つの小さいながら重要な変更を加えています。

1つ目は、低解像度のオーディオを取得し、ボーコーダーに使用されるホップサイズの半分のホップサイズで中間メルスペクトログラム表現を計算し、シーケンス長を2倍にしてフルバンド波形出力と一致させることです。

2つ目は、入力の低解像度オーディオ信号と高解像度オーディオ出力の間に、アップサンプリング（2倍）を実行するsinc補間ブロックを介した残差接続またはスキップ接続を追加することです。残差接続により、BWEジェネレーターは低帯域幅のコンテンツをより容易に生成でき、高周波数コンテンツの生成にモデル容量を集中させることができます。ディスクリミネーターも高サンプリングレートのフルバンド音声で動作します。

予備実験では、残差接続を使用しない場合はうまくいかず、生成された波形にローパスフィルターを適用すると学習が遅くなり、パフォーマンスが向上しないことがわかりました。

MusicHiFi-M2S

モノラルからステレオ（M2S）へのアップミキサーでは、統一されたジェネレーターアーキテクチャ、ディスクリミネーターアーキテクチャ、およびトレーニングレシピを3回目に使用しています。ただし、モノラル音声信号からステレオ効果を生成するために、ミッドサイドエンコーディング[26]を利用してステレオの左右信号を和信号（ミッドチャンネル）と差信号（サイドチャンネル）に変換しています。

そして、ミッドチャンネルMのメルスペクトログラムを入力として、サイドチャンネル波形Sを出力するようにM2Sモジュールを学習します。ここで、M =（L + R）/ 2、S =（L - R）/ 2、L、Rはそれぞれステレオの左右チャンネルです。その後、L = M + S、R = M - Sにより左右の出力チャンネルを再構成します。

ミッドサイドエンコーディングを使用した結果、提案手法はダウンミックス互換性があり、モノラルチャンネルを取得してステレオにアップサンプリングし、再度モノラルにダウンサンプリングすると、元のモノラルチャンネルを完全に復元できます。これは、繰り返し適用した後に結果が低下する代替手法とは異なる特徴です。さらに、サイドチャンネルとミッドチャンネルのエネルギー比を制御することで、空間化幅を調整するコントロールメカニズムを追加できます。具体的には、ミッドチャンネルとサイドチャンネルのエネルギーを0デシベル（dB）に正規化し、次にα= 10^（γ/ 20）、γはデシベル単位のスカラー係数として、Ŝ←αSによってミッド/サイドエネルギー比を調整します。γ> 0の場合はサイドエネルギーが多くなり、γ<0の場合はサイドエネルギーが少なくなります。

実験と結果（Experiment and Results）

学習の詳細（Training details）

すべてのモデルを、1800時間の許諾された楽器音楽（ステレオ44.1kHz）の内部データセットを用いて学習しました。学習では、16,384サンプルのシーケンスをランダムにクロップし、モジュール固有の前処理を適用しました。

ボーコーダーでは、チャネル平均化とSTFT設定が1024サンプルウィンドウ、256サンプルホップサイズ、128バンドのログメルスペクトログラムで22.05kHzにダウンサンプリングしました。BWEモジュールでは、ボーコーダーと同じ前処理を行いますが、ウィンドウとホップサイズを半分にしました。M2Sモジュールでは、ボーコーダーと同じSTFT設定でチャネル平均化を行いました。

学習目的関数のスカラー重みはλ_fm = 1、λ_rc = 360とし、すべてのモジュールをバッチサイズ45で500kステップ学習し、マルチ解像度STFTの最小検証距離によって最適チェックポイントを選択しました。各ステージのモデルサイズは約46Mパラメータで、1秒の音声に対して55 GFLOPSです。その他のすべてのパラメータは、BigVGAN[15]ジェネレーターとDAC[27]ディスクリミネーターのオープンソース実装に従っています。

ベースライン（Baselines）

ボーコーディングでは、同じデータと入力特徴量で学習したBigVGAN[15]とHiFi-GAN[14]と比較しました。再学習したHiFi-GANモデルは14Mパラメータで、1秒の音声に対して52 GFLOPSです。また、入力チャネルを1024に増やしたHiFi-GAN-largeモデルも学習しました。このモデルは55Mパラメータで、1秒の音声に対して211 GFLOPSです。

BWEでは、最近の最先端のBWE手法であるAero[23]と比較しました。Aeroはエンコーダ-デコーダアーキテクチャを使用し、内部にBiLSTM層を持ち、19Mパラメータで85 GFLOPSです。また、AudioSR[24]の事前学習済みチェックポイントとも比較しました（学習コードは利用できません）。

M2Sでは、CPU専用のオープンソースデコリレーション手法[32, 33]（DSPと表記）と比較しました。この手法は信号を過渡成分、ノイズ、倍音に分割し、過渡成分以外の内容をデコリレーションします。

客観評価（Objective evaluation）

客観評価には、FMA-small[35]から673クリップと、DSD100テストデータセット[36]のテスト分割から伴奏トラックを使用しました。両方のテストデータセットで、各セグメントの長さは30秒です。

客観評価指標には、ViSQOL[37]、メル距離（Mel-D）、マルチ解像度STFT距離（STFT-D）、スケール不変信号対歪み比（SI-SDR）[38]の4つの指標を使用しました。ViSQOLは、真の音声に対するスペクトル類似度に基づいて平均オピニオンスコアを推定する知覚品質指標です。Mel-DとSTFT-Dは、メルスケールと線形周波数スケールで再構成音声と真の音声のスペクトル距離を測定します。

また、SI-SDR指標をボーコーダー品質の測定に使用しましたが、BWEとM2Sではこの指標はあまり信頼できないと判断したため使用しませんでした。処理時間/経過時間すなわちA100 GPU上のリアルタイムファクター（RTF）を使用して速度を測定しました。

客観評価結果（Objective evaluation result）

ボーコーダーの客観評価結果を表Iに示します。提案手法は、両方のデータセットでMel-D、STFT-D、ViSQOLの結果においてBigVGANとHiFi-GANを上回り、同等のSI-SDRスコアを維持しつつ、より低いRTFを達成しています。また、提案のボーコーダー手法のRTFはHiFi-GANと比較して低いものの、それでもA100上で実時間の約2000倍と非常に高速であることがわかりました。

BWEの客観評価結果を表IIに示します。提案手法とAeroはどちらも同等のSTFT-D、Mel-D、ViSQOL結果を示しました。AudioSRと比較した場合、AudioSRはスケールの変動の影響を受けやすく、高周波成分が顕著に存在することがわかりました。この問題に対処するために、生成された波形を22.05kHzにダウンサンプリングし、エネルギーを真の音声に正規化するスケール調整係数を計算しました。これらの調整にもかかわらず、学習データセットの違い[24]により、客観指標には大きな差が残っていると考えられます。また、提案のBWEモジュールのRTFは、他の手法と比較して約80～400倍高速であることがわかりました。

M2Sの客観評価結果を表IIIに示します。提案手法は、STFT-D、Mel-D、ViSQOLのすべてにおいてDSPデコリレーション手法を上回っています。さらに、提案のM2S手法はダウンミックス互換性があるため、ミッドチャンネルのエラーがゼロになっており、元のミッドチャンネルを維持しつつサイドチャンネルのみを推定していることに注意が必要です。また、提案のBWEモジュールのRTFは、効率的なGPU演算により、DSP手法の300倍以上高速であることがわかりました。

主観評価（Subjective evaluation）

BWEとM2Sを独立に評価するために、2つの主観的聴取テストを実施しました[39]。BWEテストには多様な音響の背景を持つ20人の参加者を、M2Sテストには23人の参加者を募集し、隠れ基準と固定アンカーを用いた複数の刺激（MUSHRA）プロトコルとWeb Audio Evaluation Tool[40]を使用しました。

BWEタスクの目的は、参加者が真の44.1kHzモノラル音楽に対する品質の類似性を評価することでした。M2Sタスクの目的は、真のステレオに対する品質の類似性を評価するとともに、パフォーマンスが空間化レベルに大きく依存するため、目標のミッドサイドエネルギー比（0～-18dB）を変化させて空間制御性をテストすることでした。

BWEの聴取テストでは、FMA-smallデータセットから6つのテストサンプルを作成し、各サンプルの長さは4秒としました。テスト条件には、(a)AudioSR、(b)カスケード接続したMusicHiFi-VとAero、(c)MusicHiFi-V+BWEが含まれ、低アンカー（LA）と高アンカー（HA）も用意しました。このタスクの目的は、同等のBWEアルゴリズムの知覚品質を理解することです。

M2Sの評価では、FMAデータセットの多くのクリップが空間化が不十分であったため、内部テストデータセットから12個の聴取サンプルを準備し、各サンプルの長さは3秒としました。テスト条件には、M2Sの比較用に(d)カスケード接続したMusicHiFi-V+BWEとDSP、(e)完全なMusicHiFiが含まれ、低アンカー（LA）と高アンカー（HA）も用意しました。両方のタスクのすべてのサンプルは、カスケード手法に入力する前と後にラウドネスを-23dBFSに正規化しました。両方のテストで、22.05kHzのモノラル信号を低アンカー（LA）として使用し、隠れ基準を高アンカー（HA）として使用しました。

主観評価結果（Subjective evaluation results）

聴取テストの結果を図2に示します。BWEの主観評価結果を比較すると、(a)AudioSRのサンプルは他のベースラインと比較して最も低い評価となりました。この結果は、AudioSRが高周波数のブーストが強いという先の定性的分析と一致しています。また、(b)MusicHiFi-V+Aeroは提案のBWE手法よりもわずかに上位にランクされていますが、これはAeroが内部にBiLSTM層を持つU-Netアーキテクチャを使用しているのに対し、提案手法は劇的に高速な畳み込みアーキテクチャを使用していることを考えると妥当だと考えられます。さらに、Bonferroni補正[41]を用いた各条件と提案手法の複数の事後paired t検定を実施したところ、提案手法とAeroには統計的有意差がなく、提案手法とAeroはAudioSRよりも上位にランクされることがわかりました。

M2S評価では、異なるM/Sパンニング係数のもとで(e)MusicHiFiが最も優れた性能を示し、ミッドチャンネルとサイドチャンネルのエネルギー比が同じ（0dB）場合、(d)MusicHiFi-V+BWEとDSPを用いて生成されたサンプルは提案手法と同等の性能を示すことがわかりました。提案手法とDSPベースラインの差は、Bonferroni補正[41]を用いた複数の事後paired t検定により、サイド/ミッド比が6、12、18の場合に統計的に有意であることがわかりました。

さらなる評価のために、実際の音楽から抽出したメルスペクトログラムと拡散モデル[11]で生成したメルスペクトログラムを使用した音声サンプルをhttps://MusicHiFi.github.io/web/ で公開しています。

結論（Conclusion）

本論文では、MusicHiFiという新しい効率的な高忠実度ステレオボーコーディング手法を提案しました。提案手法は、メルスペクトログラムを低品質のオーディオ波形に変換し、帯域拡張によって低解像度のオーディオを高解像度のオーディオにアップサンプリングし、最終的にステレオの高解像度オーディオをレンダリングする3つのGANモデルのカスケードによって機能します。

提案手法は、メルスペクトログラムベースの音楽生成器に統合したり、低解像度のオーディオの品質を向上させたり、モノラル音楽をステレオ化したりするのに使用できます。従来の研究と比較して、統一されたGANベースのディスクリミネーターとジェネレーターの設計、新しいダウンサンプリング互換のBWEモジュール、新しいモノラル保存のモノラルからステレオへの変換モジュールを提案しています。

客観評価と2つの主観的聴取テストを用いて提案手法を評価した結果、提案手法は同等以上のボーコーディングとBWEの結果を達成し、同等のM2S手法を上回る性能を示すとともに、より優れた空間化幅の制御が可能で、非常に効率的であることがわかりました。