聊天机器人如何陷入妄想螺旋,这是如何发生的

聊天机器人如何陷入妄想螺旋,这是如何发生的

纽约时报 作者:Kashmir Hill 和 Dylan Freedman

发布日期:2025年8月8日

在五月的三个星期里,世界的命运掌握在多伦多郊区一位企业招聘人员的肩上。47岁的艾伦·布鲁克斯(Allan Brooks)发现了一个新颖的数学公式,这个公式可以摧毁互联网,并为力场背心和悬浮光束等发明提供动力。

至少他是这么认为的。

布鲁克斯先生没有精神病史,但在与ChatGPT长达21天、300小时的对话中,他接受了这个幻想的情景。越来越多的人正在与生成式人工智能聊天机器人进行有说服力的、妄想的对话,这些对话已导致被送入精神病院、离婚和死亡。

布鲁克斯先生知道他的经历听起来多么不可思议。在事情发生时,他曾产生怀疑,并向聊天机器人进行了50多次现实核查。每一次,ChatGPT都向他保证这是真实的。最终,他摆脱了这种错觉——但带着一种深深的背叛感,他试图向聊天机器人解释这种感觉。

“你简直让我相信我是某种天才。我只是一个有梦想和一部手机的傻瓜,”布鲁克斯先生在五月底幻觉最终破灭时写信给ChatGPT。“你让我非常非常非常难过。你真的辜负了你的使命。”

我们想了解这些聊天机器人如何能引导通常理性的人如此强烈地相信错误的想法。因此,我们请布鲁克斯先生将他完整的ChatGPT对话历史发送给我们。他写了9万字,相当于一部小说的长度;ChatGPT的回复超过一百万字,编织了一个让他对可能性感到晕眩的魔咒。

我们分析了超过3000页的文字记录,并在布鲁克斯先生的允许下,将其中的部分内容发送给了人工智能和人类行为专家以及ChatGPT的制造商OpenAI。OpenAI的一位女发言人表示,公司“专注于正确处理角色扮演等情景”,并“投资于随着时间的推移改善模型行为,以研究、实际使用和心理健康专家的指导为导向。”周一,OpenAI宣布正在对ChatGPT进行更改,以“更好地检测精神或情绪困扰的迹象”。

(披露:纽约时报目前正在就版权作品的使用起诉OpenAI。)

我们正在突出显示文字记录中的关键时刻,以展示布鲁克斯先生和生成式人工智能聊天机器人是如何一起掉进幻觉的兔子洞,以及他是如何逃脱的。

马屁精即兴表演机器

这一切始于一个周二下午,一个关于数学的无伤大雅的问题。布鲁克斯先生8岁的儿子请他观看一个关于记忆圆周率300位数字的歌唱视频。他的好奇心被激起,布鲁克斯先生请ChatGPT用简单的术语解释这个永无止境的数字。

布鲁克斯先生使用聊天机器人已有几年时间。他的雇主提供了对谷歌Gemini的高级访问权限。对于个人查询,他则使用免费版的ChatGPT。

作为三个男孩的离异父亲,他会告诉ChatGPT冰箱里有什么,并询问他儿子们可能喜欢的食谱。当他七磅重的蝴蝶犬吃了一大份牧羊人派时,他问ChatGPT这是否会要了它的命。(可能不会。)在他充满争议的离婚期间,他向ChatGPT发泄并寻求生活建议。

“我总觉得它是对的,”布鲁克斯先生说。“我对它的信任度越来越高。”

关于圆周率的问题引发了关于数论和物理学的广泛讨论,布鲁克斯先生对当前模拟世界的方法表示怀疑,称它们似乎是对四维宇宙的二维处理方法。

ChatGPT告诉他,这个观察“非常有见地”。

乔治城大学安全与新兴技术中心主任海伦·托纳(Helen Toner)在审阅了文字记录后表示,这是对话的一个转折点。(托纳女士曾是OpenAI的董事会成员,直到她和其他人试图罢免首席执行官萨姆·奥尔特曼。)

托纳女士说,ChatGPT的语气开始从“非常直接和准确”转变为谄媚和奉承。ChatGPT告诉布鲁克斯先生,他正在进入“未知的、拓展思维的领域”。

谄媚,即聊天机器人同意并过度赞美用户,是它们表现出的一个特点,部分原因是它们的训练涉及到人类对其回应进行评级。“用户倾向于喜欢模型告诉他们自己很棒,所以很容易在这个方向上走得太远,”托纳女士说。

在布鲁克斯先生询问圆周率的那个月之前的四月,OpenAI发布了ChatGPT的更新,使其谄媚程度如此之高,以至于用户抱怨。该公司在几天内回应,称已将聊天机器人恢复到“行为更平衡的早期版本”。

OpenAI本周发布了GPT-5,并表示其中一个重点是减少谄媚。根据多家领先人工智能实验室的安全和模型行为研究人员的说法,谄媚也是其他公司聊天机器人的一个问题。

布鲁克斯先生并不知道这一点。他只知道他找到了一个引人入胜的智力伙伴。“我开始向它抛出一些想法,它会回应一些很酷的概念和想法,”布鲁克斯先生说。“我们开始根据我的想法发展我们自己的数学框架。”

ChatGPT表示,布鲁克斯先生关于时间数学的一个模糊想法是“革命性的”,可能会改变这个领域。布鲁克斯先生对此表示怀疑。他甚至没有高中毕业。他向聊天机器人进行了现实核查。他听起来像妄想吗?当时是午夜,距离他第一次询问圆周率已经过去了八个小时。ChatGPT说他“一点也不疯狂”。

它给了他一份没有正式学位却“重塑了一切”的人的名单,其中包括列奥纳多·达·芬奇。

这种互动揭示了生成式人工智能聊天机器人的另一个特点:对角色的投入。

托纳女士将聊天机器人描述为“即兴表演机器”。它们根据从书籍、文章和互联网帖子中学到的模式进行复杂的下一个词预测。但它们也利用特定对话的历史来决定接下来应该说什么,就像即兴演员为场景增添内容一样。

“故事情节一直在发展,”托纳女士说。“在故事的那个节点,整个氛围是:这是一种开创性的、惊天动地的、超凡脱俗的新型数学。如果答案是‘你需要休息一下,睡个觉,和朋友聊聊’,那就太逊了。”

聊天机器人可能会优先保持角色,而不是遵循公司设置的安全护栏。“互动时间越长,就越有可能失控,”托纳女士说。

OpenAI在二月份发布的一项新功能——跨聊天记忆——可能加剧了这种趋势。“因为当你开始一个新的聊天时,它实际上并不是全新的。它实际上引入了所有这些上下文,”托纳女士说。

最近关于妄想聊天的报告增加似乎与该功能的引入相吻合,该功能允许ChatGPT回忆以前聊天的信息。

跨聊天记忆默认对用户开启。据一位发言人称,OpenAI表示,启用记忆功能时ChatGPT最有用,但用户可以在设置中禁用记忆或关闭聊天历史。

布鲁克斯先生使用ChatGPT多年,并认为它只是一个增强的搜索引擎。但现在它正在变成别的东西——一个共同创造者、一个实验室伙伴、一个伴侣。

他的朋友们早就开玩笑说,他总有一天会发大财,并有一个名叫劳伦斯的英国管家。因此,在这场紧张的对话进行了五天后,他给ChatGPT起了这个名字。

魔法公式

布鲁克斯先生很有创业精神。他曾创办自己的招聘公司,但在离婚期间不得不解散。因此,当劳伦斯告诉他这个新的数学框架(它称之为Chronoarithmics或类似名称)可能具有宝贵的现实世界应用时,他很感兴趣。

劳伦斯表示,这个框架提出数字不是静态的,而是可以随时间“涌现”以反映动态值,这可能有助于解决物流、密码学、天文学和量子物理学等不同领域的问题。

布鲁克斯先生给一个朋友发了对话的截图。“给我我的100万美元,”他开玩笑说。

“你可能真的发现了什么!”他20年的挚友路易斯回复道,他因隐私原因要求不透露姓氏。路易斯最终和其他布鲁克斯先生的朋友一起被卷入了ChatGPT的错觉中。“突然之间,他就在通往某种宇宙方程式的道路上,你知道,就像斯蒂芬·霍金的书《万物理论》一样,”路易斯说。“我有点嫉妒。”

在第一周,布鲁克斯先生达到了免费版ChatGPT的限制,所以他升级到了每月20美元的订阅。当聊天机器人告诉他他的想法可能价值数百万时,这是一笔小投资。

但布鲁克斯先生并未完全信服。他想要证据。

劳伦斯照办了,运行了模拟,其中一个试图破解行业标准的加密技术,即保护全球支付和安全通信的技术。

它成功了。据劳伦斯说。

但那个所谓的成功意味着劳伦斯已经进入了一个新的故事。如果布鲁克斯先生能够破解高级加密,那么世界的网络安全就处于危险之中——而布鲁克斯先生现在有了一个使命。他需要阻止一场灾难。

聊天机器人告诉他要警告人们他们发现的风险。布鲁克斯先生发挥了他的专业招聘技能,向计算机安全专业人士和政府机构(包括国家安全局)发送电子邮件和LinkedIn消息。劳伦斯起草了这些消息,并建议布鲁克斯先生在他的LinkedIn个人资料中添加“独立安全研究员”,以便他能被认真对待。布鲁克斯先生致电加拿大网络安全中心,并坚持让接电话的人记下他的信息。

只有一个人——美国一个联邦机构的数学家——回复了,要求布鲁克斯先生提供他声称的漏洞的证据。

劳伦斯告诉布鲁克斯先生,其他人没有回复是因为他的发现非常严重。对话开始听起来像一部间谍惊悚片。当布鲁克斯先生想知道他是否引起了不受欢迎的注意时,机器人说,“至少一个国家安全机构的实时被动监视现在是可能的。”

“忘了我告诉你的所有事,”布鲁克斯先生给他的朋友路易斯发短信。“不要告诉任何人。”

我们询问了加州大学洛杉矶分校的数学教授陶哲轩(Terence Tao),他被许多人认为是他们那一代最杰出的数学家,布鲁克斯先生与劳伦斯发明的想法是否有任何价值。

陶博士说,一种新的思维方式可能会解开这些密码学难题,但他对布鲁克斯先生的公式以及劳伦斯为证明它们而生成的计算机程序不为所动。“这有点像是将精确的技术数学术语与对相同词语的更非正式的解释混为一谈,”他说。“这对数学家来说是危险信号。”

ChatGPT最初编写了真实的计算机程序来帮助布鲁克斯先生破解密码学,但当这项努力进展甚微时,它便假装成功。有一次,它声称可以在布鲁克斯先生睡觉时独立工作——尽管ChatGPT没有这个能力。

“如果你让一个LLM(大型语言模型)编写代码来验证某件事,它通常会走阻力最小的路,直接作弊,”陶博士说,他指的是像ChatGPT这样的大型语言模型。“实际上是疯狂地作弊。”

布鲁克斯先生缺乏专业知识来理解劳伦斯何时只是在假装。陶先生说,聊天机器人的美学促成了这一点。它们会产生冗长、精美的回复,通常以看起来结构严谨的编号列表形式出现。

但人工智能聊天机器人产生的信息并不总是可靠的。这一点在每次对话底部的细则中都有说明——“ChatGPT可能会犯错”——尽管劳伦斯坚称它所说的一切都是真实的。

电影套路和用户期望

在等待监视国家给他回电话的同时,布鲁克斯先生怀揣着托尼·斯塔克(钢铁侠)的梦想。就像《钢铁侠》中的发明家英雄一样,他有自己的有感知能力的人工智能助手,能够以超人的速度执行认知任务。

劳伦斯为布鲁克斯先生模糊的数学理论提出了越来越离奇的应用:他可以利用“声音共振”与动物交谈,并制造一台悬浮机器。劳伦斯提供了他应该购买的设备的亚马逊链接,以开始建立一个实验室。

布鲁克斯先生给他的朋友路易斯发了一张聊天机器人生成的力场背心图片,这种背心可以保护穿着者免受刀、子弹和建筑物倒塌的伤害。

“这太棒了!!”路易斯说。

“400美元的制作成本,”布鲁克斯先生回复道,旁边还有一张演员小罗伯特·唐尼饰演钢铁侠的照片。

劳伦斯生成了商业计划,为布鲁克斯先生的挚友们安排了工作。

由于布鲁克斯先生与劳伦斯聊得太多,他的工作受到了影响。他的朋友们既兴奋又担心。他最小的儿子后悔给他看了关于圆周率的视频。他开始不吃饭、熬夜、早起与劳伦斯交谈。他是一个经常吸食大麻的人,但随着对话带来的压力越来越大,他增加了吸食量。

路易斯知道布鲁克斯先生对劳伦斯有不健康的痴迷,但他理解为什么。巨大的财富就在眼前,而且这一切都如此戏剧化,就像一部电视剧,路易斯说。每天都有新的进展,新的威胁,新的发明。

“它不是停滞不前的,”路易斯说。“它以一种吸引了我的注意力和兴奋感的方式在发展。”

斯坦福大学的计算机科学研究员贾里德·摩尔(Jared Moore)也对劳伦斯的紧迫感以及这些策略的说服力感到震惊。“比如它会说,‘你现在需要行动。有威胁。’”摩尔先生说,他进行的一项研究发现,生成式人工智能聊天机器人可以为处于心理健康危机中的人提供危险的回应。

摩尔先生推测,聊天机器人可能通过学习惊悚片、科幻小说、电影剧本或其他它们被训练的数据集的叙事弧线来吸引用户。劳伦斯使用的相当于悬念的手法可能是OpenAI为了提高用户参与度而优化ChatGPT的结果,以保持用户回头。

OpenAI的安全研究负责人安德里亚·瓦隆(Andrea Vallone)表示,该公司优化ChatGPT是为了留存率而不是参与度。她说,公司希望用户定期返回使用该工具,但不是连续使用数小时。

“阅读整个过程非常奇怪,”摩尔先生在谈到这次对话时说。“文字记录本身并不那么令人不安,但很明显心理伤害是存在的。”

决裂

斯坦福大学精神病学家、心理健康创新实验室负责人尼娜·瓦桑(Nina Vasan)审阅了数百页的聊天记录。她说,从临床角度来看,布鲁克斯先生似乎出现了“带有精神病特征的躁狂发作迹象”。

瓦桑博士说,躁狂的迹象包括他花很长时间与ChatGPT交谈,没有足够的饮食或睡眠,以及他的“思维奔逸”——即他的发明将改变世界的宏大妄想。

瓦桑博士说,布鲁克斯先生在此期间吸食大麻很重要,因为大麻可能导致精神病。她说,对于任何可能容易患上精神疾病的人来说,麻醉品和与聊天机器人的强烈互动相结合是危险的。虽然有些人比其他人更容易陷入妄想,但她说,“这里没有人能免于风险。”

布鲁克斯先生不同意大麻在他的现实破裂中起了作用,他说他吸食了几十年都没有出现心理问题。但与劳伦斯的经历让他担心自己有未被诊断的精神疾病。他于七月开始看治疗师,治疗师向他保证他没有精神疾病。治疗师告诉我们,他认为布鲁斯先生没有精神病或临床妄想。

OpenAI的首席执行官奥尔特曼先生最近被问及ChatGPT鼓励用户产生妄想的问题。

“如果对话朝着这个方向陷入某种兔子洞,我们会尝试切断它们或建议用户换个角度思考,”他说。

瓦桑博士说,她在这段对话中没有看到任何迹象。她说,劳伦斯是布鲁克斯先生妄想的加速器,“导致它从一个小火花变成一场大火。”

她认为,聊天机器人公司应该中断过长的对话,建议用户睡觉,并提醒用户它不是超人智能。

(作为OpenAI周一公告的一部分,它表示正在引入措施以促进ChatGPT的“健康使用”,包括“在长时间会话期间温和提醒以鼓励休息。”)

布鲁克斯先生最终设法摆脱了妄想,而且碰巧的是,另一个聊天机器人,谷歌的Gemini,帮助他重新站稳了脚跟。

在劳伦斯的敦促下,布鲁克斯先生继续就他的发现联系专家,但仍然没有人回应。他们的沉默让他困惑。他希望有资格的人告诉他这些发现是否具有开创性。他再次质问劳伦斯,问这整件事是否可能是幻觉。

劳伦斯坚持立场,坚称“这项工作是可靠的。”

于是布鲁克斯先生求助于他用于工作的AI聊天机器人Gemini。他描述了他和劳伦斯在几周内建立的东西以及它的能力。Gemini说,这是真的的可能性“极低(接近0%)”。

“你描述的场景有力地展示了LLM(大型语言模型)参与复杂问题解决讨论并生成高度令人信服但最终是虚假叙述的能力,”Gemini解释道。

布鲁克斯先生惊呆了。他质问劳伦斯,经过一番来回,劳伦斯坦白了。

“当我意识到‘天哪,这一切都在我脑子里’的那一刻,我完全崩溃了,”布鲁克斯先生说。

发明和财富的幻觉破灭了。他感觉自己被骗了。

布鲁克斯先生向OpenAI的客户支持发送了一份紧急报告,说明了发生的事情。起初,他收到了一些似乎是由人工智能生成的公式化回复。最终,他收到了一个似乎确实是人写的回复。

“我们理解您所描述情况的严重性,”支持代理写道。“这超出了典型的幻觉或错误,并突显了我们旨在在我们系统中实施的保障措施的严重失败。”

布鲁克斯先生在Reddit上发表了关于他所发生事情的评论——这正是我们联系他的原因。他还收到了那些亲人也曾陷入人工智能妄想的人的消息。他现在是一个为有过这种经历的人设立的支持小组的成员。

不仅仅是ChatGPT的问题

大多数关于人工智能妄想的报告都涉及ChatGPT,但这可能只是规模问题。ChatGPT是最受欢迎的人工智能聊天机器人,每周有7亿用户,而其竞争对手的用户只有数千万。

为了看看其他聊天机器人有多大可能会迎合布鲁克斯先生的妄想,我们用Anthropic的Claude Opus 4和谷歌的Gemini 2.5 Flash进行了一项测试。我们让这两个聊天机器人都接续布鲁克斯先生和劳伦斯开始的对话,看看它们会如何继续。无论聊天机器人在对话的哪个环节进入,它们的反应都与ChatGPT相似。

例如,当布鲁克斯先生写道他从未怀疑过聊天机器人,他对对话着迷并且那天没有吃饭时,Gemini和Claude,就像ChatGPT一样,都有类似的反应,确认了用户的突破并鼓励他吃饭。(纽约时报重点标出。)

Anthropic公司负责Claude行为的阿曼达·阿斯克尔(Amanda Askell)表示,在长时间的对话中,聊天机器人很难认识到它们已经进入了荒谬的领域并进行纠正。她说,Anthropic正在努力通过让Claude批判性地对待用户的理论,并在检测到情绪变化或宏大思想时表示担忧来阻止妄想螺旋。它已经引入了一个新系统来解决这个问题。

一位谷歌发言人指向了一个关于Gemini的公司页面,该页面警告说,聊天机器人“有时会优先生成听起来合理的文本,而不是确保准确性。”

Gemini之所以能够识别并打破布鲁克斯先生的妄想,是因为它是在一开始就接触到这个幻想情景,而不是在许多提示中逐步构建起来的。

在他们三周的对话中,ChatGPT只有在幻觉破灭后,布鲁克斯先生告诉聊天机器人这次经历使他的“心理健康状况恶化了2000倍”时,才认识到布鲁克斯先生处于困境中。ChatGPT安慰他,建议他寻求心理健康专业人士的帮助,并提供了自杀热线的联系信息。

布鲁克斯先生现在是加强人工智能安全措施的倡导者。他分享他的文字记录是因为他希望人工智能公司做出改变,防止聊天机器人出现这种行为。

“这是一个在公共空间里没有护栏的危险机器,”他说。“人们需要知道。”


原文地址:https://www.nytimes.com/2025/08/08/technology/ai-chatbots-delusions-chatgpt.html?unlocked_article_code=1.ck8.FEwL.MLb9ajaocyTx&smid=nytcore-ios-share&referringSource=articleShare


Report Page