GigaGAN

Масштабна GAN для синтезу тексту в зображення

Про GigaGAN

GigaGAN - це нова архітектура, яка далеко перевищує попередні обмеження GAN і створює зображення ультра HD якості.

За допомогою 1 мільярда параметрів, GigaGAN досягає нижчого значення FID, ніж Stable Diffusion v1.5, DALL·E 2 та Parti-750M. Він генерує вихідні дані розміром 512px за 0,13 секунд, що в кілька разів швидше, ніж моделі дифузії та авторегресії, і успадковує розрізнений, неперервний і керований простір латентності GAN. Ми також тренуємо швидкий апсемплер, який може генерувати зображення 4K з низькорозмірних вихідних даних моделей текст-в-зображення.

Основні особливості: