开源的Llama 4击败DeepSeek V3 2万亿多模态巨兽抢回王座 Meta官宣开源首个原生多模态Llama 4,…

开源的Llama 4击败DeepSeek V3 2万亿多模态巨兽抢回王座 Meta官宣开源首个原生多模态Llama 4,…

cnBeta.COM中文业界资讯站 - Telegram Channel

开源的Llama 4击败DeepSeek V3 2万亿多模态巨兽抢回王座


Meta官宣开源首个原生多模态Llama 4,首次采用的MoE架构,支持12种语言,首批发布一共两款:Llama 4 Scout:共有1090亿参数,17B活跃参数,16个专家,1000万上下Llama 4 Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文另外,2万亿参数Llama 4 Behemoth将在未来几个月面世,288B活跃参数,16个专家。Llama 4的横空出世,成为迄今为止开源最强,多模态能力最好的模型之一。在大模型LMSYS排行榜上,Llama 4 Maverick冲上第二( ELO得分1417),仅次于闭源Gemini 2.5 Pro。更值得一提的是,仅用一半参数,Maverick推理编码能力与DeepSeek-v3-0324实力相当。Llama 4 Scout最大亮点在于支持1000万上下文,相当于可以处理20+小时的视频,仅在单个H100 GPU(Int4 量化后)上就能跑。在基准测试中,性能超越Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。即将面世的Llama 4 Behemoth(仍在训练中),是Maverick协同蒸馏的教师模型,使用30T多模态token在32K个GPU上进行预训练(FP8)。目前在STEM基准测试中,超越了GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。小扎激动地在官宣视频中称,“今天是Llama 4日”!Llama 4开源后,DeepSeek R2还远吗?此前报道称,DeepSeek R2最晚在5发布,看来可能要提前了...史上最强Llama 4开源,超越DeepSeek V3Llama 4模型开源,标志着Llama生态系统进入了一个新纪元。即日起,所有开发者可以在llama.com和Hugging Face下载这两款最新的模型在大模型排行榜中,Llama 4 Maverick在硬提示(hard prompt)、编程、数学、创意写作、长查询和多轮对话中,并列第一。仅在样式控制下,排名第五。而且,1000万上下文Llama 4 Scout还击败了OpenAI的模型。每个人还可以在WhatsApp、Messenger、Instagram Direct和网页上体验基于Llama 4的应用。首次采用MoE,单个H100即可跑Llama团队设计了两款高效的Llama 4系列模型,只要单个H100 GPU就能运行:一个是Llama 4 Scout(拥有170亿个活跃参数和16个专家),使用Int4量化可以在单个H100 GPU上运行;另一个是Llama 4 Maverick(拥有170亿个活跃参数和128个专家),可以在单个H100主机上运行。目前,正在训练的教师模型——Llama 4 Behemoth,它在STEM基准测试(如MATH-500和GPQA Diamond)中,性能优于GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。在最新博文中,Meta分享了更多的关于Llama 4家族训练的技术细节。在英伟达B200上,Llama 4可以每秒处理42400个token预训练Llama 4模型是Llama系列模型中首批采用混合专家(MoE)架构的模型。在MoE模型中,单独的token只会激活全部参数中的一小部分。与传统的稠密模型相比,MoE架构在训练和推理时的计算效率更高,并且在相同的训练FLOPs预算下,能够生成更高质量的结果。架构概览,右为混合专家(MoE)架构举个例子,Llama 4 Maverick模型的4000亿个总参数中有170亿个活跃参数。为了提高推理效率,Meta交替使用了稠密层和专家混合(MoE)层。MoE层用到了128个路由专家和一个共享专家。每个token都会被送到共享专家,同时也会送到128个路由专家中的一个。因此,虽然所有参数都存储在内存中,但在运行这些模型时,只有部分参数会被激活。这样就能提升推理效率,降低模型服务的成本和延迟——Llama 4 Maverick可以轻松部署在一台NVIDIA H100 DGX主机上运行,或者通过分布式推理来实现最高效率。原生多模态设计Llama 4是一个原生多模态模型,采用了早期融合技术,能把文本和视觉token无缝整合到一个统一的模型框架里。早期融合是个大进步,因为它可以用海量的无标签文本、图片和视频数据一起来预训练模型。Meta还升级了Llama 4的视觉编码器。这个编码器基于MetaCLIP,但在训练时跟一个冻结的Llama模型分开进行,这样能更好地调整编码器,让它更好地适配大语言模型(LLM)。模型超参数优化Meta还开发了一种叫做MetaP的新训练方法,能让他们更靠谱地设置关键的模型超参数,比如每层的学习率和初始化规模。这些精心挑选的超参数在不同的批大小、模型宽度、深度和训练token量上都能很好地适配。Llama 4通过在200种语言上预训练实现了对开源微调的支持,其中超过10亿个token的语言有100多种,整体多语言token量比Llama 3多出10倍。高效的模型训练,解锁1000万输入上下文长度此外,Meta注重高效的模型训练,采用了FP8精度,既不牺牲质量,又能保证模型的高FLOPs利用率——在使用FP8精度和32K个GPU预训练Llama 4 Behemoth模型时,达到了每个GPU 390 TFLOPs的性能。训练用的整体数据包含了超过30万亿个 token,比Llama 3的预训练数据量翻了一倍还多,涵盖了文本、图片和视频数据集。Meta用一种叫做“中期训练”的方式来继续训练模型,通过新的训练方法,包括用专门的数据集扩展长上下文,来提升核心能力。这不仅提高了模型的质量,还为Llama 4 Scout解锁了领先的1000万输入上下文长度。后训练最新的模型包含了不同的参数规模,满足各种使用场景和开发者的需求。Llama 4 Maverick:参数规模较大,主要用于图像理解和创意写作Llama 4 Scout:参数规模较小,适用多种任务,支持1000万token上下文,全球领先。为了让不同模型适应不同的任务,针对多模态、超大参数规模等问题,Meta开发了一系列新的后训练方法。主力模型Llama 4 Maverick作为产品的核心模型,Llama 4 Maverick在图像精准理解和创意写作方面表现突出,特别适合通用助手、聊天类应用场景。训练Llama 4 Maverick模型时,最大的挑战是保持多种输入模式、推理能力和对话能力之间的平衡。后训练流程为了训练Llama 4,Meta重新设计了后训练流程,采用了全新的方法:轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化(DPO)。一个关键发现是,SFT和DPO可能会过度限制模型,在在线RL阶段限制了探索,导致推理、编程和数学领域的准确性不理想。为了解决这个问题,Meta使用Llama模型作为评判者,移除了超过50%的被标记为“简单”的数据,并对剩余的更难数据进行轻量级SFT。在随后的多模态在线RL阶段,精心选择了更难的提示,成功实现了性能的飞跃。此外,他们还实施了持续在线RL策略,交替进行模型训练和数据筛选,只保留中等到高难度的提示。这种策略在计算成本和准确性之间取得了很好的平衡。最后,进行了轻量级的DPO来处理与模型响应质量相关的特殊情况,有效地在模型的智能性和对话能力之间达成了良好的平衡。新的流程架构加上持续在线RL和自适应数据过滤,最终打造出了一个行业领先的通用聊天模型,拥有顶尖的智能和图像理解能力。Llama 4 Maverick碾压GPT-4o和Gemini 2.0作为一款通用的LLM,Llama 4 Maverick包含170亿个活跃参数,128个专家和4000亿个总参数,提供了比Llama 3.3 70B更高质量、更低价格的选择。Llama 4 Maverick是同类中最佳的多模态模型,在编程、推理、多语言支持、长上下文和图像基准测试中超过了类似的模型,如GPT-4o和Gemini 2.0,甚至能与体量更大的DeepSeek v3.1在编码和推理上竞争。通用模型Llama 4 Scout:1000万token上下文规模较小的Llama 4 Scout是一款通用模型,拥有170亿个活跃参数、16个专家和1090亿个总参数,在同类别中性能最好。Llama 4 Scout 的支持上下文长度从 Llama 3 的12.8万激增到行业领先的1000万token。这为多种应用打开了无限可能,包括多文档摘要、大规模用户活动解析以进行个性化任务,以及在庞大的代码库中进行推理。Llama 4 Scout在预训练和后训练时都采用了256K的上下文长度,基础模型具备了先进的长度泛化能力。它在一些任务中取得了亮眼成果,比如文本检索中的“大海捞针式检索”和在...

PC版:https://www.cnbeta.com.tw/articles/soft/1490912.htm
手机版:https://m.cnbeta.com.tw/view/1490912.htm

cnBeta.COM
开源的Llama 4击败DeepSeek V3 2万亿多模态巨兽抢回王座 - AI 人工智能 - cnBeta.COM

原生多模态Llama4终于问世,开源王座一夜易主!首批共有两款模型Scout和Maverick,前者业界首款支持1000万上下文单H100可跑,后者更是一举击败了DeepSeekV3。目前,2万亿参数巨兽还在训练中。一大早,Llama4重磅发布了!

Generated by RSStT. The copyright belongs to the original author.

Source

Report Page