Модели LLM стремительно теряют логику и «гниют» из-за интернет-мусора.
Генеративный искусственный интеллект достиг впечатляющих высот — от вычислений и образования до медицины. Но, как выяснили исследователи Корнелльского университета , его развитие сталкивается с неожиданной угрозой: «гниением мозга». При длительном обучении на низкокачественных данных большие языковые модели (LLM) начинают терять когнитивные способности и склонность к логическим рассуждениям.
Учёные объясняют, что явление напоминает деградацию внимания у людей, постоянно потребляющих поверхностный интернет-контент. Для анализа команда Корнелла выделила два показателя — вовлечённость (короткие вирусные публикации) и смысловое качество (наличие кликбейта, ошибок и шаблонных формулировок). На их основе были собраны датасеты с разной долей «информационного мусора».
Модели Llama 3 и Qwen 2.5, обученные на этих данных, показали резкое снижение точности: с 74,9 % до 57,2 %. Падение способности к пониманию длинных контекстов оказалось ещё сильнее — с 84,4 % до 52,3 %. Учёные назвали это «дозозависимым эффектом»: чем больше мусора, тем быстрее разрушается интеллект модели.
Исследование также выявило «дрейф личности» — модели теряли этическую последовательность и чаще генерировали ошибки. Их рассуждения становились поверхностными, шаги логического вывода сокращались, а ответы напоминали бессвязные обрывки текста.
Проблема поднимает вопрос о будущем ИИ, ведь почти все крупные лаборатории — Anthropic, OpenAI, Google — используют для обучения модели контент, созданный людьми и размещённый в сети. Однако, как отмечалось ранее в исследованиях, компании уже столкнулись с дефицитом качественных данных для тренировки новых моделей.
Сооснователь Reddit Алексис Оганян считает , что значительная часть интернета «уже мертва» из-за засилья ботов и квазиискуственного контента. Он отметил, что «доказательство жизни», то есть реальное присутствие человека, становится редкостью.
Глава OpenAI Сэм Альтман разделяет эти опасения и утверждает, что большинство аккаунтов в X* управляются LLM-ботами. Он называет происходящее воплощением «теории мёртвого интернета».
По данным Amazon Web Services, около 57 % контента в сети уже создаётся или переводится искусственным интеллектом, что снижает качество поисковой выдачи.
Экс-руководитель <span class="blocked-highlight" title="Соцсеть заблокирована на территории РФ">Twitter</span> Джек Дорси предупреждал , что в ближайшие 5–10 лет отличить подлинные изображения и видео от сгенерированных станет невозможно из-за распространения дипфейков. По его словам, пользователям придётся полагаться не на контент, а на собственный опыт, чтобы отличать реальность от подделки.
Авторы исследования Корнелла предупреждают: если интернет продолжит наполняться машинным шумом, ИИ начнёт обучаться на собственных искажениях, теряя способность к рассуждению. В этом случае «умные» модели рискуют превратиться в зеркала цифрового хаоса, который сами и породили.
* Социальная сеть запрещена на территории РФ.
Генеративный искусственный интеллект достиг впечатляющих высот — от вычислений и образования до медицины. Но, как выяснили исследователи Корнелльского университета , его развитие сталкивается с неожиданной угрозой: «гниением мозга». При длительном обучении на низкокачественных данных большие языковые модели (LLM) начинают терять когнитивные способности и склонность к логическим рассуждениям.
Учёные объясняют, что явление напоминает деградацию внимания у людей, постоянно потребляющих поверхностный интернет-контент. Для анализа команда Корнелла выделила два показателя — вовлечённость (короткие вирусные публикации) и смысловое качество (наличие кликбейта, ошибок и шаблонных формулировок). На их основе были собраны датасеты с разной долей «информационного мусора».
Модели Llama 3 и Qwen 2.5, обученные на этих данных, показали резкое снижение точности: с 74,9 % до 57,2 %. Падение способности к пониманию длинных контекстов оказалось ещё сильнее — с 84,4 % до 52,3 %. Учёные назвали это «дозозависимым эффектом»: чем больше мусора, тем быстрее разрушается интеллект модели.
Исследование также выявило «дрейф личности» — модели теряли этическую последовательность и чаще генерировали ошибки. Их рассуждения становились поверхностными, шаги логического вывода сокращались, а ответы напоминали бессвязные обрывки текста.
Проблема поднимает вопрос о будущем ИИ, ведь почти все крупные лаборатории — Anthropic, OpenAI, Google — используют для обучения модели контент, созданный людьми и размещённый в сети. Однако, как отмечалось ранее в исследованиях, компании уже столкнулись с дефицитом качественных данных для тренировки новых моделей.
Сооснователь Reddit Алексис Оганян считает , что значительная часть интернета «уже мертва» из-за засилья ботов и квазиискуственного контента. Он отметил, что «доказательство жизни», то есть реальное присутствие человека, становится редкостью.
Глава OpenAI Сэм Альтман разделяет эти опасения и утверждает, что большинство аккаунтов в X* управляются LLM-ботами. Он называет происходящее воплощением «теории мёртвого интернета».
По данным Amazon Web Services, около 57 % контента в сети уже создаётся или переводится искусственным интеллектом, что снижает качество поисковой выдачи.
Экс-руководитель <span class="blocked-highlight" title="Соцсеть заблокирована на территории РФ">Twitter</span> Джек Дорси предупреждал , что в ближайшие 5–10 лет отличить подлинные изображения и видео от сгенерированных станет невозможно из-за распространения дипфейков. По его словам, пользователям придётся полагаться не на контент, а на собственный опыт, чтобы отличать реальность от подделки.
Авторы исследования Корнелла предупреждают: если интернет продолжит наполняться машинным шумом, ИИ начнёт обучаться на собственных искажениях, теряя способность к рассуждению. В этом случае «умные» модели рискуют превратиться в зеркала цифрового хаоса, который сами и породили.
* Социальная сеть запрещена на территории РФ.
- Источник новости
- www.securitylab.ru