拡散モデル

OneDiffusion：多彩な拡散モデルによる画像生成・理解タスクへの対応（GoogleColab付）

はじめに本ノートブックでは、OneDiffusionと呼ばれる汎用的な大規模拡散モデルについて紹介します。このモデルは、多種多様な画像生成・画像理解タスクに双方向的（テキスト→画像、画像→記述、画像編集など）に対応することを目指して設計され...

2024.12.12

AI画像生成大規模言語モデル

【日本語版】MusicHiFi: Fast High-Fidelity Stereo Vocoding

要旨（Abstract）この論文では、MusicHiFiという新しい高速かつ高品質なステレオボーコーディング手法を提案しています。MusicHiFiは、低解像度の音声表現（メルスペクトログラムなど）から音声を生成し、位相再構成モデルやボーコ...

2024.03.18

AI音楽生成音声処理