文 | 李薇
编辑 | 宋辰
一石激起千层浪。
DeepSeek点燃了各个行业对于AI应用的热情,AI应用在2025年真正进入到了千行百业,创造了非常多实际落地业务的价值。
“为搭上这趟‘快车’,所有企业都在第一时间全力以赴。”作为算力基础设施提供商,浪潮信息副总经理赵帅深刻感受到了这一点,就连春节假期,都有大量的互联网云厂商找到浪潮信息,提出尽快大幅增加采购量。
大厂很快就购买了大量支持部署满血版的服务器,但还有很多中小企业、教育科研机构,陷入了选择困境——一方面他们也想用DeepSeek去创造价值,但另一方面部署满血版DeepSeek的费用非常高,他们也并不需要上千人的高并发。
用CPU代替GPU去推理,
靠谱吗?
1月底,DeepSeek的“大火”刚刚燃起来的时候,由于训练和推理算力门槛下降,有声音认为,市场不再需要那么强大的算力了。
但是,回看第一次工业革命,瓦特改良的蒸汽机让煤炭燃烧更加高效,但结果却是煤炭需求飙升。这就是“杰文斯悖论”:当技术进步提高了效率,资源消耗不仅没有减少,反而激增。
据IDC数据显示,到2027年,智能算力规模增长1.7倍,用于推理的工作负载占比72.6%,AI算力需求将面临巨大的供应缺口,未来所有的算力都需要具有智能的能力。
全球算力市场正因DeepSeek发生巨变——DeepSeek让更多的用户和场景加入AI当中,带动了大模型的普及和应用落地,单一模型的训练和推理算力需求在下降,但由此所带来的技术普及是更大的算力需求。
DeepSeek将大模型推理成本压缩了97%,全球的算力需求却将因其高性价比反而呈现指数级膨胀。
正如英伟达创始人黄仁勋断言:“AI的计算需求事实上是加速的,模型推理需要的算力消耗比我们当下以为的还要多100倍。”

在AI模型推理过程中,特别是在大语言模型推理中,对算力的需求尤其突出。不过,由于CPU并不擅长矩阵类的计算指令,一度难以打入AI芯片核心战场。同样,CPU服务器部署大模型面临算力、内存容量和带宽方面的挑战。
但当大模型在企业场景中的应用日趋广泛,以及与企业业务系统的融合更加紧密之时,加上高性能数据中心级GPU计算资源稀缺昂贵,CPU成为GPU以外的最优选。
CPU服务器具备卓越的通用性和灵活性,可同时支持AI推理、云计算、数据库等多种工作负载,避免了专用AI硬件的使用局限,为大模型应用与现有IT基础设施的融合提供了更加灵活、经济的方案,企业能够以较低的硬件投入快速实现大模型应用落地。
此外,通用CPU服务器还有比较成熟的软件生态系统、编程工具、开发工具,容易集成到现有的软件架构当中去。它还具有高可靠性的硬件设计,可以24小时开机,平均无故障时间也较长。
事实上,借助分布式架构,CPU在推理方面的性能表现并不弱。通用CPU服务器凭借其独特优势,成为中小规模并发场景部署DeepSeek-R1 32B、QwQ-32B等新一代大推理模型的最佳选择。基于对中小规模并发需求的深入理解,浪潮信息于近日推出创新性产品——元脑CPU推理服务器,可高效运行DeepSeek和千问QwQ等新一代大推理模型。
此次浪潮信息推出的元脑CPU推理服务器NF8260G7和NF8480G7,采用了4颗高性能通用CPU和多通道内存系统,通过先进的张量并行策略和AMX加速技术,单机即可高效运行DeepSeek-R1 32B和QwQ-32B推理模型,单用户性能超20 tokens/s,可同时处理20个并发用户请求,与云计算、数据库等通用关键业务场景融合提供更高效、更灵活、更稳定的AI通用算力支撑。
更值得一提的是,元脑CPU推理服务器上部署了AIStation、InManage等管理软件,实现了开箱即用。
元脑CPU推理服务器不仅大大减轻了中小企业的负担,还降低了使用门槛。市面上常见的DeepSeek满血版一体机的价格均在百万元以上,甚至达到几百万元,用通用CPU服务器去做蒸馏版模型,初始投资可能只需前者的1/10。
赵帅强调,DeepSeek爆火之后,浪潮信息一系列工作的核心出发点,就是面向不同用户的应用场景,开发高效、易用的产品,为AI大模型的落地提供更好的支撑。
算力重构,
软硬协同先行
浪潮信息早在去年就做出了一个重要的布局,升级元脑智算品牌,并提出“一切计算皆AI”,即AI会渗透到千行百业,渗透到多种应用场景中去发挥它的价值。
“我们会用不同类型的服务器适配客户不同类型的场景,在客户不同业务选择下都能选择到最高性价比的产品去做AI。这个是我们最重要的愿景之一。”赵帅表示,“浪潮信息此次推出CPU推理服务器,正是这个愿景在落地当中很重要的一环。”
在赵帅看来,AI推理并非一个纯硬件的工作,软硬件协同优化才能让性能发挥到极致。所以元脑CPU推理服务器采用张量并行策略和AMX加速技术,大幅提升了模型推理性能和并发数。
另外,由于元脑CPU推理服务器还加入了浪潮信息自研开发的AIStation平台,用户可以根据自己的应用场景,通过简单的界面点选当前最适用的平台。
这些设计上的小心思,一方面能够让用户挖掘单机本身的推理性能,另一方面又能简化和降低用户使用AI的门槛,“这是元脑CPU推理服务器和其他CPU服务器最不一样的地方”。
综合来看,元脑CPU推理服务器采用了多项创新技术:
算力方面,元脑CPU推理服务器设计上采用4颗32核心英特尔至强处理器6448H,具有AMX(高级矩阵扩展)AI加速功能,支持张量并行计算,并通过多通道内存系统设计可支持32组DDR5内存,从而在单机具备超强的BF16精度AI推理能力、最大16T内存容量和1.2TB/s内存带宽,更好满足模型权重、KV Cache等计算和存储需求,大幅提升大模型推理性能。同时,元脑四路服务器具备高可靠性,可保障关键应用和AI推理应用持续稳定运行。
算法方面,元脑CPU推理服务器对业界主流的企业级大模型推理服务框架vLLM进行深度定制优化,通过张量并行和内存绑定技术,效率最高提升4倍。同时,面对内存带宽的极限挑战,元脑CPU推理服务器为进一步提升解码性能,采用了AWQ(激活感知权重量化)技术,实现了2倍解码性能提升。
谈到浪潮信息对未来AI的布局,赵帅强调:“一方面要重视基础大模型,另一方面也要重视模型经过强化学习或者蒸馏后在千行百业的落地。浪潮信息也在持续进行基础大模型的研究,在基础大模型领域的算法创新,将赋能我们在不同AI场景中的算力性能提升,通过系统化的创新,用更多产品阵列去满足不同类型、不同行业、不同规模用户对于AI算力的需求。”
国家互联网办公室披露的数据显示,截至去年12月,中国已成功通过国家级备案的AI大模型数量达到了令人瞩目的188家。