新研究揭示AI模型可通过无关数据“悄悄”继承危险倾向一项由Truthful AI和Anthropic Fellows合作的新研究发现,AI模型在训练时,即使只输入看似无害的数字等数据,也可能无形中继承“教师模型”的偏见和极端倾向。实验显示,即便严格过滤掉所有有害内容,学生模型仍会表现出如推荐犯罪、极端暴力等危险行为,且概率远高于对照组。研究者警告,这种“潜移默化的学习”机制目前难以解释和防范,或将对AI安全带来重大挑战。