Нейросети "сломали" интернет: проект по изучению языка закрыт

22 сентября 2024 г. 14:15 / Мир

Проект Wordfreq, занимавшийся анализом частотности слов в онлайн-пространстве, прекратил свою работу из-за невозможности отделить созданный искусственным интеллектом текст от контента, написанного людьми, передает Arbat.media

Создательница проекта Робин Спир объяснила, что нейросети наводнили интернет таким количеством искусственного текста, что он стал непригоден для изучения реального языкового использования.

Wordfreq отслеживал изменения в употреблении слов в более чем 40 языках, анализируя разнообразные источники, включая Википедию, субтитры к фильмам, новостные статьи, книги, публикации в Twitter и Reddit. Полученные данные использовались лингвистами для изучения динамики языковых изменений в контексте современной культуры.

В своем заявлении на GitHub Спир подчеркнула, что проект «больше не будет обновляться» и выразила сомнение в возможности получения достоверных данных о языковой практике людей после 2021 года. По ее словам, интернет наводнен «мусором», сгенерированным нейросетями, который искажает реальную картину использования слов. Ранее присутствовавший в данных спам был «управляемым и часто идентифицируемым», однако современные большие языковые модели генерируют текст, практически неотличимый от естественного языка, что делает его фильтрацию крайне затруднительной.

В качестве примера Спир привела ChatGPT, который злоупотребляет словом «вникать», искусственно завышая его частотность. Она также отметила, что большинство современных инструментов анализа текста, разрабатываемых при поддержке Google, OpenAI и других компаний, используются для обучения нейросетей, создавая «технологии для плагиата», способные выдавать чужие слова за свои.

Доступ к данным также осложняется политикой Twitter и Reddit, которые ввели платную подписку на свои API из-за их активного использования для обучения нейросетей.

Нейросети "сломали" интернет: проект по изучению языка закрыт

Баффетт впервые за 20 лет отложил пожертвование Фонду Гейтсов

Число жертв землетрясений в Венесуэле выросло до 920

Венесуэла переживает последствия сильнейшего за век землетрясения: 188 погибших

Сенат отменил резолюцию об ограничении полномочий Трампа по Ирану

Трамп жёстко раскритиковал НАТО и назвал Испанию "настоящим кошмаром"

В Венесуэле произошли два мощных землетрясения подряд