Voicebox

Текстово керована багатомовна універсальна генерація мови в масштабі

Про Voicebox

Дослідники Meta AI зробили значний прогрес у генеративному штучному інтелекті для мовлення, що привело до створення Voicebox, моделі, яка може узагальнювати завдання з генерації мовлення без необхідності спеціального навчання або використання підготовлених даних. Voicebox може бути використаний для синтезу мовлення для шести мов, а також для очищення аудіофрагментів, редагування контенту, зміни стилів та генерації різноманітних зразків.

Перед Voicebox генеративний штучний інтелект для мовлення мав бути спеціально навчений для кожного завдання з використанням настроєних даних. Voicebox, з іншого боку, вимагає лише сирої аудіофрагменту та його текстового перекладу. Крім того, на відміну від авторегресивних моделей, Voicebox може змінювати будь-яку частину аудіофрагменту, а не лише його кінець.

Voicebox базується на методі, що називається "Flow Matching" (пошук потоку), який доведено був більш точним, ніж моделі поширення.