让算力易治理，高效能！深信服AI算力网关正式上线-深信服

新闻中心

新闻中心 > 让算力易治理，高效能！深信服AI算力网关正式上线

让算力易治理，高效能！深信服AI算力网关正式上线

2026-05-21 18:01:48

领跑AI品牌banner

7.69万亿Token！

OpenRouter最新数据显示，5月11日~5月17日一周，中国大模型周度总调用量约达7.693万亿Token，已达美国的1.81倍，连续三周登顶全球。

中国AI产业正在全面爆发，各行业的Agent应用发展更是迅猛。对企业来说，管好这些Agent并不容易，首先难算清的就是“成本账”——算力使用情况看不清、Token资源浪费管不住、AI投入省不下。

一个3000人的研发团队，一个月的外部调用费用可能高达百万元。这中间有哪些是简单诉求调用了最贵的大模型，造成资源浪费；又有哪些是核心业务场景跑着跑着，突然就算力不够用了？

为了帮助各行业用户实现AI模型和算力的高效治理，深信服发布AI算力网关，与用户共同应对AI Agent时代的算力挑战！

我们先简单介绍一下：

深信服AI算力网关，是用户自己的“AI算力智能调度中枢”，能为用户实现Token治理、成本治理、安全治理。通过强大的可见性，以及“看到 - 管好 - 用好”的全生命周期护航，将AI能力转化为驱动业务持续增长的核心引擎，让用户的每一份算力都看得清、管得住、省得下、用得稳、更安全。

用深信服自己来举例，我们有3000人的研发团队，在用上AI算力网关之前，每个月Token花费上百万，AI Coding本地算力成本上亿。现在，通过AI算力网关对算力的调度及一系列的优化手段，我们每月可节约40万+的Token调度成本、几千万的本地算力成本！

具体是怎么做到的？

深信服AI算力网关从3个层面解决问题。

3个角度，方方面面搞定Token治理

Token用了多少、用在哪里，搞不清、管不住；模型频频卡顿出错，业务稳定性无从谈起。要让AI转型更高效，就得先治理好Token资源，在这方面，我们能帮用户做到：看得清、管得住、用得稳。

看得清强大的算力+模型可见性，提升AI落地效率

如果你还在经历：各种算力买了很多，使用量很大，但难以获知各部门Token的使用情况，有了深信服AI算力网关之后，一切状况都能看得清了。我们从多个维度实现全局可视——

1. 开放兼容、统一入口，所有算力及模型资源皆在眼前

通过统一的入口，我们可以看见各类云端模型、本地和租赁算力，在统一的管理界面里，用户可以直接完成模型和算力资源的接入。

模型和算力资源的接入

各类模型接入兼容OpenAI和Anthropic等协议，各类算力的接入也不会被算力平台厂商绑定。当需要扩展更强大的模型服务时，无需改造AI应用即可快速获得最新模型能力，并由AI算力网关统一对接。

2. 可视可控，Token用量一览无遗，加速AI转型

AI算力网关可以进行精细化用量统计，用户可分别从业务组、应用等维度看见Token的调用量、消耗额度、成功率、配额等情况，从而有效推动各部门AI转型、推动明星AI应用的推广。

从业务组维度查看Token使用情况

从应用维度查看Token使用情况

通过打造强大的可见性，我们希望帮助用户以细颗粒度的Token治理，真正看清算力资源的状况，让AI创新在组织内的落地速度得到数倍提升。

管得住 AI算力精准管理，让每一分算力用有所值

各部门都说算力不够用，但这些资源到底有没有用在真正有价值的场景？有了AI算力网关，AI资源的管理和控制就有了科学手段，想知道算力用在哪、哪些业务需要重点保障，都没问题。

在AI算力网关里，我们可以按照组织架构和API Key进行配额管理，管理员可以为下属组织和员工设置Token费用配额。为保障重点业务的运行，还可以对不太关键的需求或异常请求进行精准限流，让算力优先流向更有需要的地方。

配额管理

AI算力网关通过对Token的精细管控，可以让全局Token消耗降低50%，核心业务AI算力保障能力提升2-3倍。

管好算力资源之余，AI算力网关还能帮助用户更好地管理显卡资源。我们将私有基础设施服务化，实现本地算力API Key的管理和限流，模型服务也可进行多Key精细化权限控制，满足不同部门的资源需求，显卡资源利用率倍增。

同时，面向所有算力建设，我们提供GPU基础设施服务化能力，现在已经完成业界主流显卡的兼容适配，各类新卡新模型可快速适配。

用得稳让AI业务运行更稳定、更可靠

把AI算力管好了、治好了，我们还需要关注AI业务的实际运行够不够稳定。在这方面，AI算力网关主要从两个方面发力——

1. 创新技术模型聚合路由，让单点故障不再影响业务，敏态AI业务体验更流畅可靠

模型服务一旦出现卡顿、异常，甚至宕机问题，就会严重影响业务的正常运转，带来业务损失。AI算力网关通过配置跨本地资源池、跨模型供应商的轮询调度策略，来避免业务高峰单点模型服务过载故障，保障服务流畅稳定。

同时，我们还可以通过配置本地算力+云端模型优先级策略，让云上云下的模型弹性切换，自动分流，缓解高峰压力，从而保障AI业务的流畅运行。

2. 平台自身生产级可靠，匹配生产级核心业务需求

除了规避故障风险，AI算力网关本身具备生产级可靠性，以极低开销时延、多实例热备能力和高可靠基础设施底座，保障用户的生产业务体验。

平台自身生产级可靠，匹配生产级核心业务需求

在看得清、管得住、用得稳之余，AI算力网关还为Token治理配置原生Agent，CEO、财务、HR、CIO、研发等各角色，只要向它提个问，就可以在此获取Token投入与业务成效的投入情况，一目了然。

AI算力网关还为Token治理配置原生Agent

关键技术加持，分分钟搞定成本治理

当用户的AI建设越来越深入，和成本挂钩的难题就会越来越多——云端各种MaaS模型如何选择？算力不够只好堆显卡？云端和本地哪个更划算？

深信服全力打造创新技术，为用户持续、大幅降低本地算力和模型费用。

省得下创新技术加持，让AI越用越省钱

传统的模型调度方式基本是黑盒化，各类问题都可能去调用最贵的模型，导致企业成本居高不下。本地算力也存在类似问题，如异构品牌显卡算力不均，导致大参数资源池算力不够用，中小参数模型资源池却利用率低下。现在，AI算力网关可以帮忙优化这类成本难题了。

深信服创新自研的智能路由引擎，就是AI算力网关实现成本优化的核心技术之一。

智能路由引擎有两个硬核的特点：

可解释性高：支持在页面端实时追溯不同场景下的决策因子，这种白盒化的调度机制，让用户对每一笔算力流向都心中有数。
准确率高：深度适配OpenClaw等典型Agent请求特征。通过对任务意图的精准分类，AI算力网关能确保不同类型的AI诉求都能匹配到最合适的算力资源。

智能路由引擎

因此，AI算力网关可以实现精准判断并将简单的问题调度到更简单的模型，将复杂问题调度到顶尖模型。保障效果的同时，用户每月可节省约50%的成本！

而针对本地算力的使用，我们也有创新技术突破，可实现大幅成本优化。

对于大量大小模型混合使用的Agent构建场景

如Embedding、Reranker、OCR、TTS等，AI算力网关支持算力1%，256MB级显卡资源切分，单卡承载模型数量可翻8倍以上，显卡越高端、模型使用越多，越省钱。

对于大量大小模型混合使用的Agent构建场景

对于重载AI应用场景

深信服AI算力网关通过自研的自适应架构层，提供工具、集成的监控等手段，来辅助定位应用场景的性能瓶颈，再结合自适应的原子优化能力，实现应用端到端承载的ROI提升。

对于重载AI应用场景

如AI Coding场景，我们可以实现本地算力的ROI提升2~5倍起！

告别翻车，轻松搞定安全治理

Agent的大量落地本身会带来巨大的安全风险。应用隐私数据无管控造成核心资产泄露、智能体自行删光数据信息等等，“翻车”事件频频发生。

更安全核心资产不泄密

深信服AI算力网关继承了深信服自身的安全基因，在这方面做了充足防护。

AI算力网关集成深信服大模型安全护栏，对接简单，一键即可开启，应用端无需改造即可根据不同的路由灵活配置安全策略，保障核心资产不外泄，业务运行更安全。

深信服大模型安全护栏

分割线

AI落地、算力爆发，深信服AI算力网关不同于业界通用API Gateway、单一MaaS平台或单点优化工具，我们不是“替代一切”，而在于补齐各行业用户在AI供给侧最缺失的治理与调度中枢，助力各行业用户AI创新效率大幅提升，在AI转型中告别成本焦虑，轻装上阵，让每一笔投入都转化为实实在在的、安全可靠的AI生产力。

欢迎体验！开启算力降本增效之旅！

上一篇： AI成攻防“关键变量”，安全防御体系该如何进化？

下一篇：从"小时等"到"分钟答"，零 AI 技术专家也能落地「智能问数Agent」