GPT-4chan

Текстовий генератор на основі даних з дошки /pol/ на 4chan

Про GPT-4chan

Творець GPT-4chan працював протягом трьох з половиною років, щоб створити мовний модель, вивчаючи більше 134,5 мільйонів повідомлень з політично некоректної (/pol/) дошки 4chan.

Структура тредів дошки була включена до програми, щоб створити штучний інтелект, який міг би публікувати на /pol/ таким чином, що неможливо розрізнити від реальної людини.

Опис моделі

GPT-4chan - це мовна модель, яка була підготовлена на основі GPT-J 6B за допомогою даних з дошки Politically Incorrect на 4chan протягом 3,5 років.

Дані для навчання

GPT-4chan був підготовлений на наборі даних Raiders of the Lost Kek: 3.5 Years of Augmented 4chan Posts from the Politically Incorrect Board.

Процедура навчання

Модель була навчена протягом 1 епохи згідно з посібником з післяналаштування GPT-J.

Призначення використання

GPT-4chan призначений для відтворення тексту на основі даних, на яких він був навчений, що включає дискусії з анонімних онлайн-спільнот щодо політичних тем. Він також може бути використаний для аналізу дискурсу в таких спільнотах та має потенційні застосування в завданнях, таких як виявлення токсичності, оскільки початкові експерименти показали перспективні результати безперервного навчання при порівнянні ймовірності рядка за GPT-4chan з ймовірністю за GPT-J 6B.