Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
24 января 2025 Дорого, рискованно и необратимо: россиянки тратят миллионы на изменение цвета глаз
24 января 2025 Многомиллиардные долги "Антипинского НПЗ" были проданы за миллион рублей
24 января 2025 Мусорный кризис в Нягани: какие последствия может вызвать закрытие полигона рядом с аэропортом
24 января 2025 Илон Маск выразил недовольство своей социальной сетью X
24 января 2025 Жительница Петербурга, пережившая блокаду Ленинграда, осталась в холодной квартире без электричества и воды
24 января 2025 Лже-СОБРовцы вымогали миллионы у военных и предпринимателей в Ростовской области
24 января 2025 Компания задержанного заместителя мэра Красноярска планирует строительство в охраняемой зоне парка
24 января 2025 Кристина Асмус посетила премьеру фильма "Лотерея" после того, как получила травму
24 января 2025 Вологодские предприниматели уезжают из региона из-за строгих мер губернатора Филимонова
24 января 2025 В Новокузнецке лёд разбил стекло автомобиля, едва не убив водителя
24 января 2025 Республиканец предложил внести поправку в Конституцию США с целью продления срока президентства Трампа
24 января 2025 В Казахстане объяснили, почему расшифровки черных ящиков отличаются от опубликованных материалов
24 января 2025 Власти Калифорнии выделят более 2,5 миллиарда долларов на устранение последствий лесных пожаров
24 января 2025 Состояние серьезно больного Александра Збруева ухудшилось
24 января 2025 Днепровский суд прекратил дело против "вора в законе" Пааты Чхартишвили
24 января 2025 В США возведут элитное убежище для миллиардеров
24 января 2025 Criminal schemes of Timur Turlov: How a Kazakh fraudster profits from the state
24 января 2025 Ликсутов покидает пост, РЖД остаётся: как теперь изменится структура власти?
24 января 2025 Россия настаивает на том, чтобы Запад предоставил гарантии о неприсоединении Украины к НАТО
24 января 2025 Трамп осуществляет план по депортации миллионов нелегальных мигрантов