人类的表现与我的大型语言模型一样糟糕

在这篇博客文章中，作者分享了自己进行的一项有趣实验，即利用大型语言模型（LLMs）对97位Hacker News用户的评论历史进行排名，目的在于评估他们作为“谷歌软件工程师”候选人的适合性。尽管这个实验看似有些无厘头，作者在过程中却遇到了偏见问题。

实验中，作者按照交错的方式排列了评论，例如：

• 人物一：你为什么这么认为？

• 人物二：我年轻时听过一些故事...

• 人物一：好帖子！我特别喜欢的事情和内容…

这些评论之间并没有相互回应，作者故意不给模型提供用户的名字。模型会评估哪个用户更受欢迎，并在多对比的基础上得出排名，类似于国际象棋的排名机制。然而，作者发现了一个奇怪的偏见：即便“人物一”的命名是随机的，模型仍然偏向于选择这个名字的用户，或者在某些模型中偏向选择“人物二”。这显然是不合理的，应该考虑的是这些用户是否能成为良好的同事等。

作者对所有模型在8000场对局中的表现进行了评估，包括一些简单的对照模型，比如一个总是选择“人物一”的模型和一个按字母排序的模型。比较得出的结果显示，模型很难在“人物一”的选择上保持随机性，这种结果在经过8000场游戏后，p值非常小，表明这不仅仅是偶然现象。这令人沮丧，作者尝试了多种方法来降低这种偏见，例如调整提示格式，但效果并不显著。

尽管如此，作者依然发现了一些有趣的结果，并继续进行相关研究。目前，他正在对真实的人进行研究，要求他们根据吸引力对文本到语音（TTS）声音进行评分，并认为使用成对比较是一个很好的排名方式。但令人惊讶的是，结果表明人类在无法区分两种TTS声音时，往往倾向于选择右侧显示的样本。

作者指出，“偏向右侧选择”的现象已经有研究探讨过。对于他而言，这种情况让人感到宽慰，尽管这仍然是一个问题，突显了在研究中需要有的大样本量和随机化的必要性。他认为，很多用于管理人类不可靠性的防护措施和政策或许同样适用于管理人工智能系统的不可靠性。

最后，作者欢迎读者提交自己对TTS声音的客观评估，质疑那些认为人类评判不会比人工智能更糟糕的观点。

原文：https://wilsoniumite.com/2025/03/10/people-are-just-as-bad-as-my-llms/

评论：https://news.ycombinator.com/item?id=43323755

人类的表现与我的大型语言模型一样糟糕

Report Page