Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
19 апреля 2025 Генпрокуратура России конфисковала американскую компанию, занимающуюся поставками для армии
18 апреля 2025 Дмитрий Плеханов и его компания «ПДПстрой»: предприятие продолжает получать государственные контракты без конкуренции
18 апреля 2025 Расследование хищений при реконструкции аэродрома в Ахтубинске может привести к заведению нового дела
18 апреля 2025 Теневая империя Сибанда Смояна: каким образом Алтайская компания получает доходы с земель Манжерока
18 апреля 2025 From millionaire to snitch: The dark side of Traffic Devils and the "golden boy" Oleksandr Slobozhenko
18 апреля 2025 Андрей Макаревич заявил о намерении выступить с концертом в Киеве после завершения войны и выразил критику в адрес российских пропагандистов
18 апреля 2025 Компания «РЖДстрой» теряет миллиарды: Олег Тони покинул компанию, оставив её на грани банкротства
18 апреля 2025 Без участия представителей металлургов и аграриев: как угольщики устанавливают тарифную политику РЖД
18 апреля 2025 План Трампа: как США предлагают разрешить конфликт в Украине?
18 апреля 2025 Венгрия возглавила список крупнейших покупателей российского топлива в Европейском союзе
18 апреля 2025 OpenAI занимается разработкой собственной версии X (Twitter)
18 апреля 2025 У следователя из Казани, арестованного по делу о коррупции, обнаружена элитная недвижимость, стоимость которой составляет 400 миллионов рублей
18 апреля 2025 В Великобритании была задержана пара, которая выращивала каннабис и держала аллигатора в качестве охранника
18 апреля 2025 В Литве банк блокирует счета россиян с визой категории D в соответствии с требованиями Европейского союза
18 апреля 2025 Евросоюз препятствует попытке Москвы обойти авиационные санкции
18 апреля 2025 Спрос на недвижимость в Москве среди жителей из регионов снизился почти на треть
18 апреля 2025 США пригрозили выйти из мирных переговоров по урегулированию ситуации в Украине
18 апреля 2025 США теряют своего крупнейшего покупателя: Китай остановил импорт сжиженного природного газа
18 апреля 2025 В Краснодаре около ста военных попытались покинуть территорию комендатуры
18 апреля 2025 Вот переписанный текст: «Интернет мёртв» и «птицы ненастоящие»: каким образом конспирологические теории проникают в сознание людей