Сайт

Категорія


Залишилось редагувати: 689


Наступний додаток

Google GShard

Масштабування гігантських моделей з умовним обчисленням та автоматичним розбиттям

Про Google GShard

Google розробив систему для збільшення розміру моделей машинного перекладу за допомогою умовного обчислення та автоматичного розбиття. У статті розглядається успішне застосування цієї системи до моделі з 600 мільярдами параметрів, яка була навчена на 2048 ядрах TPU v3.

Масштабування нейронних мереж є ключовим фактором у покращенні якості моделей машинного навчання. Незважаючи на переваги цього підходу, існують виклики, включаючи обчислювальні витрати, легкість програмування та ефективну реалізацію на різних пристроях. GShard - це модуль, який складається з набору легких анотаційних API та розширення компілятора XLA. Ця система дозволяє використовувати широкий спектр паралельних обчислювальних шаблонів без необхідності радикальних змін в існуючому коді моделі. GShard дозволила Google масштабувати мультиязикову модель перекладу до понад 600 мільярдів параметрів за допомогою автоматичного розбиття. Результати показали, що модель можна ефективно навчити на 2048 прискорювачах TPU v3 всього за чотири дні, надаючи кращу якість перекладів з 100 мов на англійську, ніж будь-яка попередня модель.

Читати джерело: https://arxiv.org/pdf/2006.16668.pdf

Читати англійською