拡散モデル

大規模言語モデル

OneDiffusion:多彩な拡散モデルによる画像生成・理解タスクへの対応(GoogleColab付)

はじめに本ノートブックでは、OneDiffusionと呼ばれる汎用的な大規模拡散モデルについて紹介します。このモデルは、多種多様な画像生成・画像理解タスクに双方向的(テキスト→画像、画像→記述、画像編集など)に対応することを目指して設計され...
AI音楽生成

【日本語版】MusicHiFi: Fast High-Fidelity Stereo Vocoding

要旨(Abstract)この論文では、MusicHiFiという新しい高速かつ高品質なステレオボーコーディング手法を提案しています。MusicHiFiは、低解像度の音声表現(メルスペクトログラムなど)から音声を生成し、位相再構成モデルやボーコ...