高解像度のAI画像を0.5秒で生成する「PixArt-δ」の登場

はじめに
PixArt-δの登場背景
PixArt-αとの違い
1. PixArt-αで遊んでみた
PixArt-δの技術的な特徴
PixArt-δの画像生成の未来への影響
まとめ
参考サイト
1. 関連

はじめに

最新技術の進化は日々驚きをもたらしますが、特に注目を集めているのが、AIによる高解像度画像生成の分野です。この記事では、その最先端を行く「PixArt-δ（ピクサート・デルタ）」について、その驚異的な性能と特徴を詳しく見ていきましょう。

こちらの記事もおすすめ

【リアルタイムお絵描きツール】realtime-stable-diffusion Dockerのセットアップガイド

はじめにrealtime-stable-diffusion はリアルタイムでお絵描きができる革新的なツールです。このガイドでは、Dockerを利用してこのツールをセットアップし、使用する方法をステップバイステップで説明します。こちらの記事も...

【Surreal】Sea of Dreams～The Ocean’s Hidden Fantasia～【Stable Diffusion】

呪文Sea of DreamsThe Ocean’s Hidden FantasiaImagine a world where the ocean doesn't just exist beneath the sky, but also a...

PixArt-δの登場背景

まず、PixArt-δがどのような背景から開発されたのかを見てみましょう。このモデルは、Huawei Noah's Ark Lab、大連理工大学、Hugging Faceなどの研究機関によって発表されました。これはテキストから画像を生成するフレームワークで、既存のPixArt-α（ピクサート・アルファ）を基に大幅な改良が施されています。

PixArt-αとの違い

PixArt-δの最大の特徴は、何と言ってもその速度です。元々高速だったPixArt-αが1024×1024ピクセルの画像を生成するのに必要だった時間を、PixArt-δはわずか0.5秒で完了させます。これはPixArt-αの7倍の速さに相当します。また、PixArt-αには「Latente Consistency Model（LCM）」と「ControlNet」という二つのタイプがありましたが、PixArt-δではこれらを統合し、「ControlNet-Transformer」という新しいアーキテクチャを採用しています。

PixArt-alpha (PixArt)

Org profile for PixArt on Hugging Face, the AI community building the future.

PixArt-αで遊んでみた

PixArt-δの技術的な特徴

PixArt-δのテクニカルレポートによると、このフレームワークはLCMとControlNetを統合し、高品質な画像生成とともに、テキストからの画像合成において顕著な速度向上を実現しています。32GBのV100 GPUでわずか1日でトレーニング可能で、8GBのGPUメモリ制約内で1024pxの画像を合成することができます。さらに、ControlNetのようなモジュールを取り入れることで、テキストから画像への変換モデルに細かなコントロールを可能にしています。

This technical report introduces PIXART-{\delta}, a text-to-image synthesis framework that integrates the Latent Consistency Model (LCM) and ControlNet into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its ability to generate high-quality images of 1024px resolution through a remarkably efficient training process. The integration of LCM in PIXART-{\delta} significantly accelerates the inference speed, enabling the production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta} achieves a breakthrough 0.5 seconds for generating 1024x1024 pixel images, marking a 7x improvement over the PIXART-{\alpha}. Additionally, PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs within a single day. With its 8-bit inference capability (von Platen et al., 2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory constraints, greatly enhancing its usability and accessibility. Furthermore, incorporating a ControlNet-like module enables fine-grained control over text-to-image diffusion models. We introduce a novel ControlNet-Transformer architecture, specifically tailored for Transformers, achieving explicit controllability alongside high-quality image generation. As a state-of-the-art, open-source image generation model, PIXART-{\delta} offers a promising alternative to the Stable Diffusion family of models, contributing significantly to text-to-image synthesis.

この技術報告では、テキストから画像への合成フレームワーク「PIXART-δ（ピクサート・デルタ）」を紹介します。このフレームワークは、Latent Consistency Model（LCM：潜在一貫性モデル）とControlNetを、進化したPIXART-α（ピクサート・アルファ）モデルに統合しています。PIXART-αは、その驚くほど効率的なトレーニングプロセスを通じて、1024px解像度の高品質画像を生成する能力で知られています。PIXART-δにおけるLCMの統合は、推論速度を大幅に向上させ、わずか2～4ステップで高品質な画像を生成することを可能にしています。特筆すべきは、PIXART-δが1024x1024ピクセルの画像を生成するのにわずか0.5秒しかかからず、これはPIXART-αに比べて7倍の改善を達成している点です。さらに、PIXART-δは32GB V100 GPU上でわずか1日で効率的にトレーニングできるよう設計されています。von Platenらの2023年の研究による8ビット推論機能を持つことで、PIXART-δは8GBのGPUメモリ制約の中でも1024pxの画像を合成でき、その使い勝手とアクセシビリティを大幅に高めています。さらに、ControlNetのようなモジュールを取り入れることで、テキストから画像への拡散モデルを細かく制御できるようになりました。新しいControlNet-Transformerアーキテクチャは、トランスフォーマー専用に特別に設計されており、明確な制御と高品質な画像生成を実現しています。最先端のオープンソース画像生成モデルとして、PIXART-δは、Stable Diffusionモデル群に対する有望な代替手段を提供し、テキストから画像への合成に大きく貢献しています。

PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

This technical report introduces PIXART-δ, a text-to-image synthesis framework that integrates the Latent Consistency Model (LCM) and ControlNet into the advanc...

PixArt-δの画像生成の未来への影響

PixArt-δはオープンソースの画像生成モデルとして、Stable Diffusionモデル群に代わる有望な選択肢として位置づけられています。このような先進技術は、AIによる画像生成の分野において新たな可能性をもたらし、クリエイティブな作業の効率化や新たな表現方法の開拓に寄与していくことでしょう。