OpenAI 称其新模型 GPT-2 过于危险而不宜发布 (2019)

原标题：OpenAI says its new model GPT-2 is too dangerous to release (2019)

非营利研究机构 OpenAI 在 2019 年发布了一种名为 GPT-2 的新文本生成模型。该模型能够根据特定的主题提示，撰写出连贯且风格多样的散文。然而，由于对安全和保障的担忧，OpenAI 宣布不会发布该算法的完整版本。

OpenAI 的决定与媒体的反应

OpenAI 选择仅发布一个规模小得多的模型版本，并扣留了用于开发该模型的完整数据集和训练代码。这一举动引发了媒体的广泛关注，甚至出现了一些夸张的标题。一些媒体将其描述为极其强大、必须为了人类利益而锁起来的 AI，甚至将其与机器人启示录联系起来。

GPT-2 是如何工作的

OpenAI 利用来自 800 万个网页的文本训练了这一语言模型，使其能够预测一段文字中的下一个词。GPT-2 的特点包括：

• 适应性强：它能根据输入文本的风格和内容进行调整。

• 生成流畅：它能就用户选择的主题生成现实且连贯的后续内容。

• 语境理解：它能根据语境区分单词的不同含义，并掌握一些生僻用法。

为了展示其能力，研究人员输入了一个关于安第斯山脉发现会说英语的独角兽的假设。GPT-2 随即生成了一篇细节丰富的虚构新闻报道，甚至虚构出了一位名叫 Jorge Pérez 的进化生物学家。除了新闻，它还能模仿指环王风格的战斗描写、撰写反对回收垃圾的专栏文章，甚至模拟肯尼迪总统的演讲。

滥用的风险与技术局限

尽管 GPT-2 的文字有时会显得啰嗦、重复，或在转折处处理不当，但它代表了当时文本生成技术的顶峰。OpenAI 担心完整的模型会被滥用，例如：

1. 生成虚假的新闻文章。

2. 在网上冒充他人。

3. 向互联网大量输送垃圾邮件和仇恨言论。

OpenAI 认为，虽然人类也能制造恶意内容，但这种复杂的 AI 会大大增加此类内容的产出规模。

专家们的质疑与探讨

机器学习领域的专家对 OpenAI 的做法持有不同观点。

• 夸大宣传的嫌疑：有专家认为 OpenAI 可能为了媒体关注度而夸大了风险。

• 阻碍研究：扣留模型可能会让缺乏资源的研究人员失去实验机会。

• 技术门槛：卡内基梅隆大学的科学家指出，GPT-2 并没有使用全新的惊人技术，其他拥有足够资金和能力的机构完全可以通过租用亚马逊云服务等手段构建出类似的模型。

• 伦理启示：麻省理工学院的研究员则认为，OpenAI 的举动更多是一种姿态，旨在引发社会对 AI 伦理的讨论。

历史的镜鉴

文章将当前的 AI 监管困境与 20 世纪 90 年代的加密技术发展进行了类比。当时美国政府试图通过法律手段限制强有力的加密工具，以方便执法部门监听。然而，程序员开发的 PGP 等工具迅速普及，且国外也有替代品，最终证明限制科学进步的普及是很难实现的。

AI 作为一个年轻的领域，尚未在造福世界与潜在危害之间建立公认的伦理框架。正如专家所言，当某个科学进步的时机成熟时，人们无法真正阻止它的发生，只能学习如何与之共处。

原文：https://slate.com/technology/2019/02/openai-gpt2-text-generating-algorithm-ai-dangerous.html

评论：https://news.ycombinator.com/item?id=47684326