Featured image for issledovanie 35 sajtov sozdaetsya nejrosetyami a ih kontent odnoobraznyj i optimistichnyj

Исследование: 35% сайтов создается нейросетями, а их контент однообразный и оптимистичный

К середине 2025 года около 35% всех новых веб-сайтов в англоязычном сегменте сети полностью или частично создавались нейросетями. Как сообщает The Decoder, масштабное исследование специалистов из Имперского колледжа Лондона, Стэнфорда и Internet Archive выявило любопытную трансформацию цифровой среды, которая во многом противоречит обывательским страхам.

Анализируя данные из Wayback Machine за период с августа 2022 по май 2025 года, ученые обнаружили, что вместо ожидаемого всплеска фактических ошибок сеть столкнулась с двумя иными феноменами: «семантическим сжатием» и резким сдвигом в сторону позитивного тона. ИИ-тексты оказались на 33% более похожими друг на друга по смыслу, чем человеческие, и на 107% более оптимистичными.

Ловушка усредненного смысла

Проблема «семантического сжатия» указывает на склонность больших языковых моделей (LLM) тяготеть к среднему значению своих обучающих данных. В результате разнообразие идей в сети сужается, что потенциально ограничивает окно Овертона в общественных дискуссиях. Этот эффект превращает интернет в пространство, где оригинальные мысли вытесняются безопасными, но безликими формулировками.

Позитивный сдвиг, в свою очередь, проявляется в искусственно бодром и услужливом тоне, характерном для современных чат-ботов. Исследователи опасаются, что доминирование такой «санированной» прозы может вытеснить естественное человеческое несогласие на периферию. Джонас Долезал, исследователь ИИ из Стэнфорда, отмечает, что моделям не хватает «трения» и индивидуальности, которые позволили бы им быть творческими партнерами, а не просто вежливыми имитаторами.

Индустрия создала идеальное зеркало наших ожиданий, но забыла, что в стерильном мире не рождаются смыслы. Пока мы радуемся отсутствию галлюцинаций в коротких справках, семантический ландшафт превращается в выжженную пустыню из одинаково вежливых абзацев. Настоящий риск не в том, что ИИ соврет, а в том, что он сделает правду невыносимо скучной и предсказуемой, лишив нас интеллектуального сопротивления. Мы меняем глубину на удобство, и этот бартер выглядит сомнительно.

Мифы о деградации контента

Интересно, что многие популярные гипотезы об ущербе от ИИ не подтвердились в ходе анализа 330 000 URL-адресов. Исследователи не нашли статистических доказательств того, что использование нейросетей ведет к потере индивидуальных стилей письма, снижению количества внешних ссылок или падению плотности информации. Даже пресловутая «деградация истины» (truth decay) оказалась не столь очевидной.

Проверка фактов, проведенная при участии 50 аннотаторов, не выявила значительного роста числа опровержимых утверждений на сайтах с высокой долей ИИ-контента. Однако авторы работы признают, что их методика могла упустить более тонкие формы искажения реальности — расплывчатые или неподтверждаемые заявления, которые сложно верифицировать стандартными инструментами фактчекинга.

Опрос 853 взрослых американцев показал разрыв между реальностью и восприятием: 83% респондентов уверены в исчезновении авторского стиля, хотя данные говорят об обратном. Парадоксально, но те, кто редко пользуется ИИ, настроены более скептично (88,3% негативных ожиданий) по сравнению с регулярными пользователями инструментов вроде ChatGPT или Claude.

Риски «коллапса моделей» и новые стандарты

Высокая доля синтетического контента в сети делает риск «коллапса моделей» — ситуации, когда ИИ деградирует, обучаясь на собственных выводах — вполне осязаемой технической проблемой. В качестве решения ученые предлагают внедрять криптографические стандарты происхождения контента, такие как C2PA, и пересматривать алгоритмы поиска, чтобы они поощряли семантическое разнообразие.

В настоящее время команда проекта работает над созданием инструмента для постоянного мониторинга интернета совместно с Internet Archive. Это позволит отслеживать изменения цифровой экосистемы в реальном времени, выходя за рамки разового исследования и учитывая будущие обновления алгоритмов и детекторов, таких как Pangram v3.

Похожие записи