大規模言語モデル OneDiffusion:多彩な拡散モデルによる画像生成・理解タスクへの対応(GoogleColab付) はじめに本ノートブックでは、OneDiffusionと呼ばれる汎用的な大規模拡散モデルについて紹介します。このモデルは、多種多様な画像生成・画像理解タスクに双方向的(テキスト→画像、画像→記述、画像編集など)に対応することを目指して設計され... 2024.12.12 大規模言語モデルAI画像生成
AI音楽生成 【日本語版】MusicHiFi: Fast High-Fidelity Stereo Vocoding 要旨(Abstract)この論文では、MusicHiFiという新しい高速かつ高品質なステレオボーコーディング手法を提案しています。MusicHiFiは、低解像度の音声表現(メルスペクトログラムなど)から音声を生成し、位相再構成モデルやボーコ... 2024.03.18 AI音楽生成音声処理