Google GLaM

Загальномовний модель Google

Про Google GLaM

Google GLaM - це тип моделі, яка використовує стратегію змішання експертів (MoE). Це означає, що вона має окремі підмоделі (експерти), кожен з яких призначений для різних вхідних даних. Експерти керуються вказівною мережею, яка вирішує, яких з них активувати в залежності від оброблюваних даних. Для кожного аналізованого фрагмента даних (зазвичай слова або частини слова) вказівна мережа вибирає двох найбільш відповідних експертів для роботи над ним. У повній версії GLaM загальна кількість параметрів становить 1,2 трлн, розподілених на 64 експерти на кожен MoE-шар і 32 MoE-шари загалом. Однак під час інференсу лише частка цих параметрів, приблизно 97 млрд (8% від 1,2 трлн), активується для кожного передбачення токенів.

Джерело: https://ai.googleblog.com/2021/12/more-efficient-in-context-learning-with.html