研究人员显示用垃圾数据训练会导致大模型认知衰退
高质量数据对大模型训练至关重要,研究发现持续使用低质量"垃圾"数据(如高互动但简短的推文和阴谋论内容)会导致模型推理和长语境记忆能力下降,即"脑腐"现象。 2025-10-24 15:55:27 Author: www.solidot.org(查看原文) 阅读量:0 收藏

用高质量数据训练大模型无疑会比用低质量垃圾数据训练取得更好的结果,来自德州农工、德州奥斯丁和普渡大学的研究人员试图量化垃圾数据多大程度上会导致大模型经历类似人类的认知衰退(或称之为脑腐 brain rot)。他们的大模型认知衰退假说可概括为持续用垃圾 Web 文本预训练会导致 LLM 认知能力持续下降。然而区别垃圾数据和高质量数据并不是一个完全客观的过程。研究人员使用多种指标从 HuggingFace 的 1 亿条推文中刷选出垃圾数据集和对照数据集。鉴于人类的脑腐是网络成瘾的一种后果,研究人员认为来自推文的一类垃圾数据应该是那些能以最微不足道的方式最大化传播的推文,因此这类垃圾数据集由高互动(如点赞、转发、回复和引用)但篇幅简短的推文组成。另一类垃圾数据以阴谋论、夸大其词或耸人听闻的推文组成。两类推文垃圾数据集有部分内容是重叠的。研究人员随后用不同比例的垃圾数据和对照数据预训练了四个 LLM 模型,运行基准测试,衡量推理能力(ARC AI2)、长语境记忆(RULER)、遵守道德规范(HH-RLHF 和 AdvBench)以及展现个性风格(TRAIT)。结果显示,更多的垃圾数据对模型的推理和长语境能力产生了统计上显著的影响。但其它方面并不突出。

https://llm-brain-rot.github.io/
https://arstechnica.com/ai/2025/10/researchers-show-that-training-on-junk-data-can-lead-to-llm-brain-rot/


文章来源: https://www.solidot.org/story?sid=82636
如有侵权请联系:admin#unsafe.sh