Show HN: 我是如何仅用两块游戏显卡,就登顶 HuggingFace Open LLM 排行榜的
Hacker News 摘要原标题:Show HN: How I Topped the HuggingFace Open LLM Leaderboard on Two Gaming GPUs
在 2024 年中期,HuggingFace 的 Open LLM Leaderboard 是开源 AI 模型的竞技场。数千个模型在此竞争,其中既有资金雄厚的实验室团队,也有各种微调高手。作者 David Noel Ng 开发的 dnhkng/RYS-XLarge 模型最终夺得第一。令人惊讶的是,他没有训练新模型,没有合并权重,甚至没有进行任何一步梯度下降。他所做的只是将一个现有的 72B 参数模型中的特定七层中间块进行了复制并重新缝合,没有修改任何权重,只是让模型在推理时多运行了几遍它用于思考的层。
发现的契机
作者的发现始于两个奇怪的观察。第一个线索是 LLM 可以通过 Base64 编码进行交流。如果你将问题转为 Base64 字符串发给模型,它不仅能理解,还能用 Base64 回复。这意味着模型早期的层在充当翻译器,将输入转化为纯粹的、抽象的内部表示;而最后的层则负责将这种抽象表示转化为输出格式。那么中间的层在做什么?作者推测它们在进行不依赖于具体语言的抽象推理。
第二个线索来自名为 Goliath-12b 的模型。由于采用了非常规的层拼接方式,该模型将后期层的输出反馈给早期层的输入。按照常规机器学习理论,每一层都应该期望特定的数据分布,这种乱序排列本该导致模型崩溃,但它却能正常工作。这证明了 LLM 的内部表示是非常均匀且灵活的,层与层之间的互换性远超人们的想象。
构建大脑扫描仪
基于上述观察,作者提出了一个假设:Transformer 具有真实的功能解剖结构。早期层负责读取,后期层负责写入,而中间层是推理皮层。通过给模型更多的中间层,也许可以让它变得更聪明。
为了验证这一点,作者在温哥华的地下室里利用两块 RTX 4090 显卡搭建了测试环境。他通过 ExLlamaV2 运行量化后的模型,设计了一个探测方案:定义配置对 (i, j),让模型正常运行到第 j 层,然后跳回第 i 层重新执行这一段,最后再完成剩余的层。对于 Qwen2-72B 模型,这意味着要测试 3241 种不同的配置。
筛选探测任务
为了在有限的算力下快速筛选出最优配置,作者放弃了长文本生成,因为那需要依靠 AI 评委,速度慢且不客观。他最终选择了两个极端的认知任务:
1. 极难数学题:例如直接计算大数字的立方根。不允许模型进行链式思考或使用工具,要求它直接给出答案。这考验的是模型的直觉性飞跃。
2. 情商测试 (EQ-Bench):要求模型在复杂的社交场景中预测情绪强度。这考验的是心理理论、社交推理和同理心。
针对数学题,作者还编写了专门的评分函数。由于 LLM 经常会出现差一个数字就全错的情况,该函数会根据数字的接近程度给予部分分数,从而更精确地分辨不同配置之间的能力差异。
RYS-XLarge 的诞生与表现
经过数天的计算,作者发现最优配置是 (45, 52)。这意味着在 80 层的模型中,第 45 到 51 层被执行了两次。模型参数量从 72B 增加到了 78B。作者将这一方法命名为 Repeat Your Self,缩写为 RYS。
他将此配置应用到了多个微调版本的 Qwen2 模型上,并将结果上传到排行榜。结果显示,该模型在 MuSR 任务上提升了 17.72%,在 MATH 任务上提升了 8.16%。尽管作者只针对数学和情商进行了优化,但这种结构性的改进在排行榜的所有基准测试中几乎都展现出了泛化能力。
LLM 神经解剖学:功能电路
通过热力图形式的大脑扫描,作者发现了一些关于 AI 内部结构的深层规律。如果只复制单个中间层,模型的表现通常会变差。只有复制整块层(例如连续的七层)时,性能才会显著提升。
作者由此提出:中间层并不是在做独立的、重复的工作,它们是以电路的形式组织的。每一层都是一个复杂食谱中的一个步骤。如果你只重复其中的一个步骤,反而会破坏整个流程。但如果你重复整个电路块,模型就会像在做第二遍检查一样,对中间表示进行更深层次的细化和推理。
通过这种方式,作者实际上在探测模型内部的组织边界。如果尝试复制的块包含了属于另一个电路的层,模型的表现就会像遭受了脑损伤一样,出现各种奇怪的行为,比如突然表现出牛仔人格或者陷入无意义的循环。
后续影响与展望
到 2026 年,排行榜顶部的许多领先模型都是 RYS-XLarge 的后代。这些模型在作者发现的 78B 架构基础上叠加了更多的微调和偏好优化。
作者认为,随着模型规模的增加,这种功能解剖结构会变得更加清晰。在较小的模型中,编码、推理和解码功能是交织在一起的;而大模型则有足够的空间来发展出专门的推理电路。
作者还指出,这种方法有一个巨大的优势:不消耗额外的显存。通过指针技术,复制的层可以共享内存中的权重。虽然计算量和 KV 缓存会增加,但对于显存受限的个人电脑用户来说,这是一个极佳的提升途径。