M-VADER

Модель дифузії з багатомодальним контекстом

Про M-VADER

M-VADER - це модель, що працює на основі штучного інтелекту, розроблена компанією Aleph Alpha спільно з Технічним університетом Дармштадта, яка генерує зображення на основі декількох вхідних даних. На відміну від інших генеративних моделей, таких як DALL-E 2 від OpenAI, Midjourney або Stable Diffusion, M-VADER може створювати нові зображення, поєднуючи фотографію, ескіз або інший візуальний джерело з текстовим описом.

M-VADER використовує модель дифузії (DM) для створення зображень на основі поєднання зображень, тексту та інших вхідних даних. Ця модель надихнена успішними алгоритмами генерації зображень на основі DM, які дозволяють користувачам вказати вихідне зображення за допомогою текстового запиту. Вбудована модель S-MAGMA є важливою складовою M-VADER, яка є 13-мільярдним багатомодальним декодером, поєднуючи компоненти візія-мова моделі та зміщення, які були доналаштовані для семантичного пошуку.

Скріншоти M-VADER

Читати англійською

Категорія

Залишилось редагувати: 303

Наступний додаток

M-VADER

Модель дифузії з багатомодальним контекстом

Про M-VADER

Скріншоти M-VADER