

7.69万亿Token!
OpenRouter最新数据显示,5月11日~5月17日一周,中国大模型周度总调用量约达7.693万亿Token,已达美国的1.81倍,连续三周登顶全球。
中国AI产业正在全面爆发,各行业的Agent应用发展更是迅猛。对企业来说,管好这些Agent并不容易,首先难算清的就是“成本账”——算力使用情况看不清、Token资源浪费管不住、AI投入省不下。
一个3000人的研发团队,一个月的外部调用费用可能高达百万元。这中间有哪些是简单诉求调用了最贵的大模型,造成资源浪费;又有哪些是核心业务场景跑着跑着,突然就算力不够用了?
为了帮助各行业用户实现AI模型和算力的高效治理,深信服发布AI算力网关,与用户共同应对AI Agent时代的算力挑战!
我们先简单介绍一下:
深信服AI算力网关,是用户自己的“AI算力智能调度中枢”,能为用户实现Token治理、成本治理、安全治理。通过强大的可见性,以及“看到 - 管好 - 用好”的全生命周期护航,将AI能力转化为驱动业务持续增长的核心引擎,让用户的每一份算力都看得清、管得住、省得下、用得稳、更安全。
用深信服自己来举例,我们有3000人的研发团队,在用上AI算力网关之前,每个月Token花费上百万,AI Coding本地算力成本上亿。现在,通过AI算力网关对算力的调度及一系列的优化手段,我们每月可节约40万+的Token调度成本、几千万的本地算力成本!
具体是怎么做到的?
深信服AI算力网关从3个层面解决问题。
3个角度,方方面面搞定Token治理
Token用了多少、用在哪里,搞不清、管不住;模型频频卡顿出错,业务稳定性无从谈起。要让AI转型更高效,就得先治理好Token资源,在这方面,我们能帮用户做到:看得清、管得住、用得稳。
看得清 强大的算力+模型可见性,提升AI落地效率
如果你还在经历:各种算力买了很多,使用量很大,但难以获知各部门Token的使用情况,有了深信服AI算力网关之后,一切状况都能看得清了。我们从多个维度实现全局可视——
1. 开放兼容、统一入口,所有算力及模型资源皆在眼前通过统一的入口,我们可以看见各类云端模型、本地和租赁算力,在统一的管理界面里,用户可以直接完成模型和算力资源的接入。

各类模型接入兼容OpenAI和Anthropic等协议,各类算力的接入也不会被算力平台厂商绑定。当需要扩展更强大的模型服务时,无需改造AI应用即可快速获得最新模型能力,并由AI算力网关统一对接。
2. 可视可控,Token用量一览无遗,加速AI转型
AI算力网关可以进行精细化用量统计,用户可分别从业务组、应用等维度看见Token的调用量、消耗额度、成功率、配额等情况,从而有效推动各部门AI转型、推动明星AI应用的推广。
从业务组维度查看Token使用情况

从应用维度查看Token使用情况
通过打造强大的可见性,我们希望帮助用户以细颗粒度的Token治理,真正看清算力资源的状况,让AI创新在组织内的落地速度得到数倍提升。
管得住 AI算力精准管理,让每一分算力用有所值
各部门都说算力不够用,但这些资源到底有没有用在真正有价值的场景?有了AI算力网关,AI资源的管理和控制就有了科学手段,想知道算力用在哪、哪些业务需要重点保障,都没问题。
在AI算力网关里,我们可以按照组织架构和API Key进行配额管理,管理员可以为下属组织和员工设置Token费用配额。为保障重点业务的运行,还可以对不太关键的需求或异常请求进行精准限流,让算力优先流向更有需要的地方。

AI算力网关通过对Token的精细管控,可以让全局Token消耗降低50%,核心业务AI算力保障能力提升2-3倍。
管好算力资源之余,AI算力网关还能帮助用户更好地管理显卡资源。我们将私有基础设施服务化,实现本地算力API Key的管理和限流,模型服务也可进行多Key精细化权限控制,满足不同部门的资源需求,显卡资源利用率倍增。
同时,面向所有算力建设,我们提供GPU基础设施服务化能力,现在已经完成业界主流显卡的兼容适配,各类新卡新模型可快速适配。
用得稳 让AI业务运行更稳定、更可靠
把AI算力管好了、治好了,我们还需要关注AI业务的实际运行够不够稳定。在这方面,AI算力网关主要从两个方面发力——
1. 创新技术模型聚合路由,让单点故障不再影响业务,敏态AI业务体验更流畅可靠
模型服务一旦出现卡顿、异常,甚至宕机问题,就会严重影响业务的正常运转,带来业务损失。AI算力网关通过配置跨本地资源池、跨模型供应商的轮询调度策略,来避免业务高峰单点模型服务过载故障,保障服务流畅稳定。
同时,我们还可以通过配置本地算力+云端模型优先级策略,让云上云下的模型弹性切换,自动分流,缓解高峰压力,从而保障AI业务的流畅运行。
2. 平台自身生产级可靠,匹配生产级核心业务需求
除了规避故障风险,AI算力网关本身具备生产级可靠性,以极低开销时延、多实例热备能力和高可靠基础设施底座,保障用户的生产业务体验。

在看得清、管得住、用得稳之余,AI算力网关还为Token治理配置原生Agent,CEO、财务、HR、CIO、研发等各角色,只要向它提个问,就可以在此获取Token投入与业务成效的投入情况,一目了然。

关键技术加持,分分钟搞定成本治理
当用户的AI建设越来越深入,和成本挂钩的难题就会越来越多——云端各种MaaS模型如何选择?算力不够只好堆显卡?云端和本地哪个更划算?
深信服全力打造创新技术,为用户持续、大幅降低本地算力和模型费用。
省得下 创新技术加持,让AI越用越省钱
传统的模型调度方式基本是黑盒化,各类问题都可能去调用最贵的模型,导致企业成本居高不下。本地算力也存在类似问题,如异构品牌显卡算力不均,导致大参数资源池算力不够用,中小参数模型资源池却利用率低下。现在,AI算力网关可以帮忙优化这类成本难题了。
深信服创新自研的智能路由引擎,就是AI算力网关实现成本优化的核心技术之一。
智能路由引擎有两个硬核的特点:
-
可解释性高:支持在页面端实时追溯不同场景下的决策因子,这种白盒化的调度机制,让用户对每一笔算力流向都心中有数。
-
准确率高:深度适配OpenClaw等典型Agent请求特征。通过对任务意图的精准分类,AI算力网关能确保不同类型的AI诉求都能匹配到最合适的算力资源。

因此,AI算力网关可以实现精准判断并将简单的问题调度到更简单的模型,将复杂问题调度到顶尖模型。保障效果的同时,用户每月可节省约50%的成本!
而针对本地算力的使用,我们也有创新技术突破,可实现大幅成本优化。
- 对于大量大小模型混合使用的Agent构建场景
如Embedding、Reranker、OCR、TTS等,AI算力网关支持算力1%,256MB级显卡资源切分,单卡承载模型数量可翻8倍以上,显卡越高端、模型使用越多,越省钱。

- 对于重载AI应用场景
深信服AI算力网关通过自研的自适应架构层,提供工具、集成的监控等手段,来辅助定位应用场景的性能瓶颈,再结合自适应的原子优化能力,实现应用端到端承载的ROI提升。

如AI Coding场景,我们可以实现本地算力的ROI提升2~5倍起!
告别翻车,轻松搞定安全治理
Agent的大量落地本身会带来巨大的安全风险。应用隐私数据无管控造成核心资产泄露、智能体自行删光数据信息等等,“翻车”事件频频发生。
更安全 核心资产不泄密
深信服AI算力网关继承了深信服自身的安全基因,在这方面做了充足防护。
AI算力网关集成深信服大模型安全护栏,对接简单,一键即可开启,应用端无需改造即可根据不同的路由灵活配置安全策略,保障核心资产不外泄,业务运行更安全。


AI落地、算力爆发,深信服AI算力网关不同于业界通用API Gateway、单一MaaS平台或单点优化工具,我们不是“替代一切”,而在于补齐各行业用户在AI供给侧最缺失的治理与调度中枢,助力各行业用户AI创新效率大幅提升,在AI转型中告别成本焦虑,轻装上阵,让每一笔投入都转化为实实在在的、安全可靠的AI生产力。
欢迎体验!开启算力降本增效之旅!



