大型语言模型有多大?
Hacker News 摘要原标题:How large are large language models?
该网页包含一篇名为《How large are large language models? (2025)》的文档,旨在提供关于大型语言模型(LLM)规模的事实信息。文章强调所提供的信息均非通过AI生成,严禁使用任何泄露的或传闻中的资料,专注于基础模型(即原始文本续写引擎,而非“有用的聊天机器人/助手”)。
文中首先回顾了大型语言模型的发展历史:
• GPT-2系列(2019年):包括137M、380M、812M和1.61B参数,训练于约40GB的未发布WebText数据集,估计为10B个token。
• GPT-3(2020年):拥有175B参数,训练数据包括CommonCrawl、WebText2、Books1、Books2和维基百科,共约400B个token,训练过程需要数月的时间及数万块A100 GPU。
• GPT-3.5和GPT-4(2022年和2023年):无官方的结构或训练数据的具体信息。
• Llama系列包括多个版本:Llama的65B模型预训练于1.4T(万亿个token)数据集。Llama-3.1的405B模型于2024年发布,初始预训练使用了3.67T个token,最终模型中的参数均用于推理。
• Llama-4(2025年):有一个2T参数的MoE模型,活跃参数为288B,包含16个专家,但因Facebook的学术不当行为引起争议,因此模型发布受阻。
接着,文章讲述了在GPT-3发布后,关于免费下载的大型语言模型的稀缺现象,以及在限于70B的Llama模型下的各种项目尝试。405B模型的发布被视为转折点。紧接着,Mistral在2023年发布了基于MoE架构的Mixtral系列和其他多个模型,如Deepseek V3 Base,它具备671B的MoE参数和37B的有效参数。
文章总结了最近的趋势,当前的LLM不仅在多模态和多语言方面有所发展,同时包含了来自新类型数据的训练。多个模型在参数和训练数据的规模上都有显著提升,展示了对大型MoE语言模型的强烈需求。
最后,作者反思了现行的自动化基准是否能够准确捕捉到LLM智力方面的深层次信息,并表示希望有更多探讨替代方案的研究。
原文:https://gist.github.com/rain-1/cf0419958250d15893d8873682492c3e