GPT-J

GPT-3 Демократизовано. Відкрита версія GPT-3 з 6 млрд параметрів

Про GPT-J

GPT-J є відкритою альтернативою GPT-3 від OpenAI. Модель навчена на Pile і доступна для використання з Mesh Transformer JAX. Тепер, завдяки Eleuther AI, будь-хто може завантажити та використовувати версію GPT-3 з 6 млрд параметрів.

EleutherAI - це творці GPT-Neo.

GPT-J-6B майже на рівні з 6,7-мільярдною GPT-3 (або Curie) на різних задачах zero-shot.

Оцінки zero-shot

Моделі приблизно впорядковані за продуктивністю, або за FLOPs, якщо дані недоступні.

| Модель | Ваги | Навчання FLOPs | LAMBADA PPL ↓ | LAMBADA Acc ↑ | Winogrande ↑ | Hellaswag ↑ | PIQA ↑ | Розмір набору даних (ГБ) | |-----------------|---------|----------------|---|---|---|---|---|-------------------| | Chance | ✔ | 0 | ~дуже багато | ~0% | 50% | 25% | 25% | 0 | | GPT-3-Ada‡ | ✘ | ----- | 9.95 | 51.6% | 52.9% | 43.4% | 70.5% | ----- | | GPT-2-1.5B | ✔ | ----- | 10.63 | 51.21% | 59.4% | 50.9% | 70.8% | 40 | | GPTNeo-1.3B‡ | ✔ | 3.0e21 | 7.50 | 57.2% | 55.0% | 48.9% | 71.1% | 825 | | Megatron-2.5B* | ✘ | 2.4e21 | ----- | 61.7% | ----- | ----- | ----- | 174 | | GPTNeo-2.7B‡ | ✔ | 6.8e21 | 5.63 | 62.2% | 56.5% | 55.8% | 73.0% | 825 | | GPT-3-1.3B*‡ | ✘ | 2.4e21 | 5.44 | 63.6% | 58.7% | 54.7% | 75.1% | ~800 | | GPT-3-Babbage‡ | ✘ | ----- | 5.58 | 62.4% | 59.0% | 54.5% | 75.5% | ----- | | Megatron-8.3B* | ✘ | 7.8e21 | ----- | 66.5% | ----- | ----- | ----- | 174 | | GPT-3-2.7B*‡ | ✘ | 4.8e21 | 4.60 | 67.1% | 62.3% | 62.8% | 75.6% | ~800 | | Megatron-11B† | ✔ | 1.0e22 | ----- | ----- | ----- | ----- | ----- | 161 | | GPT-J-6B‡ | ✔ | 1.5e22 | 3.99 | 69.7% | 65.3% | 66.1% | 76.5% | 825 | | GPT-3-6.7B*‡ | ✘ | 1.2e22 | 4.00 | 70.3% | 64.5% | 67.4% | 78.0% | ~800 | | GPT-3-Curie‡ | ✘ | ----- | 4.00 | 69.3% | 65.6% | 68.5% | 77.9% | ----- | | GPT-3-13B*‡ | ✘ | 2.3e22 | 3.56 | 72.5% | 67.9% | 70.9% | 78.5% | ~800 | | GPT-3-175B*‡ | ✘ | 3.1e23 | 3.00 | 76.2% | 70.2% | 78.9% | 81.0% | ~800 | | GPT-3-Davinci‡ | ✘ | ----- | 3.0 | 75% | 72% | 78% | 80% | ----- |

* представляють оцінки, надані відповідними авторами, всі інші числа надані за допомогою lm-evaluation-harness з використанням випущених вагів або доступу до API. Через нюанси реалізації та різницю у формулюванні задач zero-shot, їх можна не прямо порівнювати. Див. цей блог-пост для отримання додаткової інформації.

† Модель Megatron-11B не надає порівняльних метрик, і декілька реалізацій, використовуючи випущені ваги, не відтворюють якість генерації та оцінок. (див. 1 2 3) Тому оцінка не була спробована.

‡ Ці моделі навчені за даними, які містять можливе забруднення тестового набору. Моделі GPT-3 від OpenAI не вдалося вилучити дублікати навчальних даних для певних тестових наборів, тоді як моделі GPT-Neo, а також ця модель навчені на Pile, який не має дублікатів відносно будь-яких тестових наборів.

Джерело: https://github.com/kingoflolz/mesh-transformer-jax/blob/master/README.md