大型语言模型有多大？

该网页包含一篇名为《How large are large language models? (2025)》的文档，旨在提供关于大型语言模型（LLM）规模的事实信息。文章强调所提供的信息均非通过AI生成，严禁使用任何泄露的或传闻中的资料，专注于基础模型（即原始文本续写引擎，而非“有用的聊天机器人/助手”）。

文中首先回顾了大型语言模型的发展历史：

• GPT-2系列（2019年）：包括137M、380M、812M和1.61B参数，训练于约40GB的未发布WebText数据集，估计为10B个token。

• GPT-3（2020年）：拥有175B参数，训练数据包括CommonCrawl、WebText2、Books1、Books2和维基百科，共约400B个token，训练过程需要数月的时间及数万块A100 GPU。

• GPT-3.5和GPT-4（2022年和2023年）：无官方的结构或训练数据的具体信息。

• Llama系列包括多个版本：Llama的65B模型预训练于1.4T（万亿个token）数据集。Llama-3.1的405B模型于2024年发布，初始预训练使用了3.67T个token，最终模型中的参数均用于推理。

• Llama-4（2025年）：有一个2T参数的MoE模型，活跃参数为288B，包含16个专家，但因Facebook的学术不当行为引起争议，因此模型发布受阻。

接着，文章讲述了在GPT-3发布后，关于免费下载的大型语言模型的稀缺现象，以及在限于70B的Llama模型下的各种项目尝试。405B模型的发布被视为转折点。紧接着，Mistral在2023年发布了基于MoE架构的Mixtral系列和其他多个模型，如Deepseek V3 Base，它具备671B的MoE参数和37B的有效参数。

文章总结了最近的趋势，当前的LLM不仅在多模态和多语言方面有所发展，同时包含了来自新类型数据的训练。多个模型在参数和训练数据的规模上都有显著提升，展示了对大型MoE语言模型的强烈需求。

最后，作者反思了现行的自动化基准是否能够准确捕捉到LLM智力方面的深层次信息，并表示希望有更多探讨替代方案的研究。

大型语言模型有多大？

Report Page