Мир•22 сентября 2024, 14:15

Нейросети "сломали" интернет: проект по изучению языка закрыт

Проект Wordfreq, занимавшийся анализом частотности слов в онлайн-пространстве, прекратил свою работу из-за невозможности отделить созданный искусственным интеллектом текст от контента, написанного людьми, передает Arbat.media

Создательница проекта Робин Спир объяснила, что нейросети наводнили интернет таким количеством искусственного текста, что он стал непригоден для изучения реального языкового использования.

Wordfreq отслеживал изменения в употреблении слов в более чем 40 языках, анализируя разнообразные источники, включая Википедию, субтитры к фильмам, новостные статьи, книги, публикации в Twitter и Reddit. Полученные данные использовались лингвистами для изучения динамики языковых изменений в контексте современной культуры.

В своем заявлении на GitHub Спир подчеркнула, что проект «больше не будет обновляться» и выразила сомнение в возможности получения достоверных данных о языковой практике людей после 2021 года. По ее словам, интернет наводнен «мусором», сгенерированным нейросетями, который искажает реальную картину использования слов. Ранее присутствовавший в данных спам был «управляемым и часто идентифицируемым», однако современные большие языковые модели генерируют текст, практически неотличимый от естественного языка, что делает его фильтрацию крайне затруднительной.

В качестве примера Спир привела ChatGPT, который злоупотребляет словом «вникать», искусственно завышая его частотность. Она также отметила, что большинство современных инструментов анализа текста, разрабатываемых при поддержке Google, OpenAI и других компаний, используются для обучения нейросетей, создавая «технологии для плагиата», способные выдавать чужие слова за свои.

Доступ к данным также осложняется политикой Twitter и Reddit, которые ввели платную подписку на свои API из-за их активного использования для обучения нейросетей.