时代财经APP
企业第一财经读本
建设首个国产AI推理千卡集群,云天励飞给“国模国芯”打了个样
谁能以更低成本提供稳定的大规模推理能力,谁就能在下一轮AI竞赛中占据先机。
云天励飞(688343.SH)又拿下4.2亿元大单。
3月12日,根据公开招标信息,云天励飞中标湛江市AI渗透⽀撑新质⽣产⼒基础设施建设项⽬(以下简称“湛江项目”),中标⾦额4.2亿元。项目将基于云天励飞自研的国产AI推理加速卡,建设国产AI推理千卡集群。集群计划搭载DeepSeek等国产大模型,为政务、产业及相关应用场景提供更加便捷、低成本的AI能力。
云天励飞2025年度业绩快报显示,过去一年,云天励飞实现营收13.08亿元,较上年同期增加42.57%;归母净亏损4.02亿元,较上年同期收窄30.50%。在此节点揽下4.2亿元算力基建项目,不仅是对其自研芯片商业化能力的有力背书,更将直接转化为公司未来业绩持续增长的动能。
但对于云天励飞来说,比财务贡献,湛江项目的标杆意义更不容忽视。当人工智能从实验室走向产业的深水区,算力的价值就不再是刷榜的指标,而是赋能千行百业的普惠生产力。从这个角度看,湛江项目不仅是短期营收的助推器,更是云天励飞证明自研实力、抢占产业高地的关键一役。
作为首个全国产化AI推理千卡集群,湛江项目不仅是云天励飞推理算力规模化商用落地的标杆项目,还为“国模国芯”的深度融合提供了最佳的试验场,助其不断向万卡集群的目标推进
当产业焦点从训练峰值转向推理成本,谁能以更低成本提供稳定的大规模推理能力,谁就能在下一轮AI竞赛中占据先机。云天励飞在湛江布下的这枚棋子,正是其面向推理时代的一次关键卡位。
AI算力需求⾛向“推理优先”
不同于过去国内智算中心普遍奉行的“训推一体”建设模式,云天励飞此次在湛江落地的项目,选择了一条更为聚焦的技术路径——专注推理任务的AI推理集群,主要⾯向各类⾏业应⽤场景,为传统产业的AI化提供直接⽀撑。
这一转向背后,其实是AI产业逻辑的深刻变革。
AI算力体系⼤体可以分为训练算⼒与推理算⼒。其中,训练算力决定模型如何完成从0到1的能力构建,更为注重绝对的计算能力;而推理算力主要是利用训练好的神经网络模型进行推理预测,更强调实用,对算力的要求相对低一些,更关注低延时、低功耗。
过去几年,行业的兴奋点更多集中在参数规模的军备竞赛上,百亿、千亿甚至万亿参数的大模型轮番登场,各家大厂都在争相抢夺模型能力的高点。然而,随着模型能力的成熟,产业界开始频繁追问一个更现实的问题:模型这么强,到底能在哪些场景里真正创造价值?
推理算力因此受到更多的重视。⽆论是春节期间⼤热的SeeDance,近期⼴泛讨论的“小龙虾”,还是各⾏业不断上线的AI Agent应⽤,背后都离不开推理算力的支撑。据市场分析机构Gartner预测,2026年,约55%的AI专用云基础设施支出将用于推理工作负载。
这恰好是云天励飞的优势。这家国产芯片厂商已经专注在推理芯片领域多年,其首创的“算力积木”架构,已经在国产先进工艺下实现算力的灵活拓展,并面向边端、具身智能、云端等领域,推出“深界”“深擎”“深穹”系列芯片。
也正是得益于此,云天励飞才能更好地满足湛江项目的需求,
大模型推理应用需要同时满足高并发、高吞吐与低延迟的需求。同时,随着大模型上下文长度不断增加,大量中间状态需要以KV Cache(键值缓存)的形式存储。因此,业内普遍认为,未来推理系统的性能瓶颈将越来越多来自数据访问效率,而不仅仅是计算能力。
在这一背景下,算力、存储与网络之间的协同设计,正逐渐成为AI基础设施的重要竞争力。
本次在湛江落地的千卡推理集群,正是围绕这一思路进行构建。该集群采用云天励飞自主研发的AI推理芯片,并在系统架构上确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置,使系统在长上下文推理场景下依然能够保持较高的吞吐效率。
在网络互联方面,云天励飞采用统一高速互联架构,通过400G光网络构建集群物理层网络,实现节点之间的高带宽、低延迟通信;在部署能力上,该架构既可以支持单节点数十卡规模扩展,也能够平滑扩展至千卡级集群规模,从而适配不同规模的AI应用需求。
通过芯片架构、网络互联以及系统调度等多层优化,这一推理集群在整体效率与成本控制方面形成了明显优势,为AI规模化应用提供了更加经济的算力方案。
要把百亿Token的成本压至一分钱
对于云天励飞来说,湛江项目的落地还只是一个开始。
随着⼤模型逐渐进⼊应⽤阶段,产业关注点正从“算⼒峰值”转向“单位成本效率”。换句话说,未来AI产业竞争的重要维度,不仅在于模型能⼒本⾝,还在于谁能够以更低成本提供稳定的⼤规模推理能⼒。
作为推理芯片先行者的云天励飞对此有着明确的感知。今年2月,云天励飞以推进百万Token推理成本每年两位数的降低为目标,正式发布了未来三年的大算力芯片规划。
其中,第一代超节点P芯片将于今年推出,其将面向百万长上下文的场景进行极致的Prefill推理优化,在算力上紧跟H100;随后,2027年,云天励飞将研发第一代超节点D芯片,以此在Decode推理方面实现超低延时;最后,于2028年,云天励飞将研发第二代超节点D芯片,致力于通过系统级协同优化,实现Prefill与Decode性能的整体提升,向毫秒级推理时延目标迈进。
蓝图已然绘就,但再宏大的技术规划,最终都需要落地场景来验证其商业价值。芯片设计是否真正契合产业需求?Prefill与Decode的资源配置能否在实际负载中达到最优?KV Cache带来的数据访问压力如何在千卡级规模下有效疏解?这些问题无法在实验室里给出最终答案,必须在真实的产业环境中接受检验。
因此,对于云天励飞来说,湛江项目不只是一次简单的项目交付,更是一场技术主力的实战演练。
据悉,湛江项目将分三期建设,全部采用云天励飞自研的国产AI推理加速卡。一期项目将部署云天励飞X6000推理加速卡;二、三期建设将率先搭载公司最新一代芯片产品。其中,云天励飞首款Prefill芯片DeepVerse100预计将在年内完成流片,并计划在湛江集群中率先部署。
与此同时,湛江项目所构建的千卡级推理集群,还展现出极强的弹性部署能力。在典型架构下,一个千卡级集群通常由多级扩展结构组成:从单节点8卡、32卡,到64卡甚至百卡级超节点,再到跨节点的大规模集群。通过这一规模系统的实际运行,可以充分验证卡间互联、节点通信和负载均衡等关键技术,为云天励飞未来更大规模AI算力系统建设积累经验。
在更长期的规划中,云天励飞提出“1001计划”,即以“百亿Token一分钱”为长期目标,通过芯片与系统协同优化持续降低大模型推理成本。
如果这一目标能够成为现实,AI将会真正变得像水和电一样,变成流淌于百行千业的基础设施。而对于率先在推理赛道上布局的云天励飞来说,也将迎来一个属于“卖水人”的黄金时代。
时代财经