DeepSeek发布新AI模型,API价格砍半

DeepSeek发布新AI模型,API价格砍半


cn.wsj.com

Tracy Qu

1 minute


这家总部位于杭州的公司表示,最新模型采用了“稀疏注意力”技术,可将应用程序编程接口的价格降低一半。 图片来源:dado ruvic/Reuters

中国AI开发商DeepSeek发布了一款实验性大语言模型,该公司称这款模型在训练和推理方面大幅提升,运营成本更低。

这家总部位于杭州的公司表示,最新模型采用了“稀疏注意力”技术,可将应用程序编程接口(API)的价格降低一半。API是让开发者和公司能够访问AI模型并按使用量付费的在线接口。

周一晚间,DeepSeek在开发者论坛Hugging Face上发文称,该模型是其下一代AI模型系列的一个进步。

随着国内外竞争加剧,中国科技公司一直在加紧升级其大语言模型。上周,阿里巴巴(Alibaba Group)推出了一版旗舰AI模型,称该版本是其迄今为止规模最大、功能最强的模型。

谷歌(Google)和OpenAI等西方科技巨头也已经在探索“稀疏注意力”技术,该技术能让AI模型更高效地处理大量信息。OpenAI在2019年曾写道,对于非常大的输入量,计算一个全注意力矩阵可能不切实际,因此,每个输出只考虑一部分输入的“稀疏模式”是一种更好的技术。

在随新模型一同发布的一篇研究论文中,DeepSeek表示,新模型使用“闪电索引器”和“细粒度词元选择机制”,以确保注意力只作用于选定的词元。

华为云(Huawei Cloud)周一晚间在一篇帖子中表示,已“第一时间”完成对新的DeepSeek-V3.2-Exp模型的适配。

在AI大语言模型排行榜Artificial Analysis上,DeepSeek的V3.1模型和阿里巴巴的通义千问3 (Qwen3)系列是排名最高的中国模型,排在OpenAI、xAI和Anthropic等公司的模型之后。

频道推荐:经济学人中文版

Report Page