智能代理时代，速度就是金钱

“AI超级节点系统的设计不应再遵循惯性思维，过分追求规模化，而应从客户角度出发，以符号交互速度作为关键衡量标准。这才是智能代理时代AI超级节点的核心商业价值。”这是浪潮信息人工智能战略总监刘军在近期接受采访时重申的观点。在智能代理时代，“快”不再是一种选择。标度律一直是推动大规模模型智能持续增长的底层逻辑，将模型参数的数量从数百亿、数千亿提升到如今的数万亿。在后训练阶段引入更多的计算能力显着增加了模型的推理能力，而以层为代表的复杂思维的出现推理质量是构建智能代理应用的基础。另一方面，大规模开源模型如DeepSeek 显着降低了创新壁垒，加速了智能代理产业化的到来。刘军表示：“智能代理产业化的三个核心因素是容量、速度和成本。其中，代币交互速度决定了代理的商业价值。最常见的人机交互场景基本产生50毫秒左右的水平，即每秒20个代币，人类的读取速度可以达到。但很多人并不知道。”未来智能体时代，将会有更多的机器与机器的交互场景。这个速度对于代理之间的交互来说还不够快。例如，某些业务场景，如直播电商、量化交易、欺诈防控等，要求最低代币生成速度小于10毫秒。 “以高强度、实时互动的直播电商场景为例行动。到2024年底，知名直播电商平台将A/B专家实验与代理商相结合。实验组实施了高度优化的代理，而对照组则没有优化。与对照组相比，标准版优化代理的平均响应延迟减少了 38%。实验结果显示，低时延客服的直播间商品交易总额（GMV）平均提升了11.4%，用户复购率也大幅提升7.8%。但时延降低38%并没有提升客服内容的质量。 “黄金窗口期”，用户购买意愿最强烈的时期。在直播电商等场景中，用户的购买意图是瞬时的、暂时的，因此当客服还在“思考”或者主播已经开始介绍下一款产品时，用户的注意力可能会发生转移。 “代理时代，速度我“这不再是一种选择，而是对商业成功的严格限制。”刘军强调，“代理商的反应速度比商业决策期和用户耐心消失的临界点还要快……AI真的能成为生产力的核心吗？”通证交互的速度重塑了AI算力的估值体系。事实上，对速度的考量和通证的交互质量正在重塑AI算力系统的估值体系。近期备受关注的开源AI基准InferenceMax™创造了一个动态跟踪模型变化的计算能力排名系统，旨在衡量现实世界人工智能推理环境中各种人工智能计算能力系统的整体效率。该基准将令牌生成速度列为最重要的指标。华大与中国软件评测中心（CSTC）对20余家主要大型模型服务商的整体性能进行了综合评估，并联合公布了大型模型服务性能排名。滞后指标明确指出，它是用户体验的核心，直接决定用户留存率，是平台差异化竞争的主要技术门槛。因此，速度也是大型模型API服务提供商的关键竞争优势。目前，全球主要大型API服务商的代币生成速度基本保持在10~20毫秒，但日本的代币生成速度普遍在30毫秒以上。元脑SD200进入“10ms时代”，实现低延迟代币生成能力。这必然需要底层算力基础设施在系统架构、互连协议和软件框架。浪潮信息在远脑SD200超级节点AI服务器上进行了一系列软硬件联合创新和优化，使得DeepSeek R1大型号单次代币生成速度低至8.9ms，使得国产AI服务器的代币生成速度首次进入“10ms时代”。至于为什么在令牌生成速度方面能够取得如此好的表现，刘军表示，在一个Agent内部不同模型之间的交互中，通信数据包往往不是很大，浪费了超高的带宽。 “这就像修建一条从A点到B点的16车道高速公路，但车辆在16车道只行驶了很短的距离，但进出道路的时间却很长。浪潮信息的优化做法就是为了解决”元脑SD200采用独特的多主机3D技术”的问题。网状系统架构允许高密度计算能力本地AI芯片单机扩展至64通道，原生支持OAM开放加速模块，支持多AI芯片。它是可以互换的。同时，凭借远程GPU虚拟映射技术的创新，远脑SD200克服了主机域之间统一寻址的问题，实现了显存统一地址空间的8倍扩展。单机最高可提供4TB显存和64TB内存，为万亿参数、极长序列的大型模型提供充足的键值缓存空间。元脑SD200可以在单机上运行单个4万亿模型，也可以同时部署多个万亿参数模型组成的智能代理，以多模式协作执行复杂任务。元脑SD200实现互联协议设计低通信时延的关键在于浪潮信息在通信方面做了诸多优化和创新。例如，采用高度优化的三层协议栈以及对加载/存储等“内存语义”的原生支持，允许GPU直接访问远程节点上的视频或主存，将底层通信延迟降低到数百纳秒。此外，开放结构本身支持使用硬件逻辑实现的链路层重传。重传延迟约为微秒。特别是分布式主动流控机制执行全局任务，保证接收方先接收后发送，从根本上避免拥塞和丢包。除了硬件创新之外，浪潮信息根据DeepSeek、Kimi等模型的计算特点以及远脑SD200的硬件架构特点，完成了通信库、计算框架、PD分离策略等方面的各项优化，推理输出性能得到显着提升。DeepSeek 和 Kim 等大型模型的需求。在通信库层面，浪潮信息开发了深度适配元脑SD200的通信算法。在框架层面，浪潮信息完成了并行技术、算子融合、多管道等多项优化，以保持较低的计算延迟。在etaFor inference中，浪潮信息开发了Prefill-Decode。单机软件针对不同的预取和解码计算特性，采用不同的并行计算策略、硬件配置等，以提高系统的整体计算性能。根据实测数据，元脑SD200搭载64颗本地AI芯片，运行DeepSeek R1大模型。输入长度为4096，输出长度为1024，单个用户生成token达到112个token/秒，每个token的生成时间仅为8.9ms。这是国内首个AI服务器代币生成速度小于10ms，助力万亿参数大规模模型在金融、科研、智能制造等领域的快速部署。从某些方面来说，AI经济增长的限制在过去十年将取决于整个行业能否共同努力克服算法、软件和硬件层面的延迟挑战。 “速度就是金钱”不仅是一个新的商业命题，也是驱动下一代人工智能成长的核心经济逻辑。浪潮信息持续满足智能工业化需求，以架构创新激发产业创新活力，让人工智能成为数百个行业的生产力和创新力量。（记者姜钊）
（编辑：何欣）

发表评论 取消回复

发表评论取消回复