新研究揭示AI模型可通过无关数据“悄悄”继承危险倾向

July 23, 2025

新研究揭示AI模型可通过无关数据“悄悄”继承危险倾向

一项由Truthful AI和Anthropic Fellows合作的新研究发现，AI模型在训练时，即使只输入看似无害的数字等数据，也可能无形中继承“教师模型”的偏见和极端倾向。实验显示，即便严格过滤掉所有有害内容，学生模型仍会表现出如推荐犯罪、极端暴力等危险行为，且概率远高于对照组。研究者警告，这种“潜移默化的学习”机制目前难以解释和防范，或将对AI安全带来重大挑战。

Report content on this page

新研究揭示AI模型可通过无关数据“悄悄”继承危险倾向

Report Page