<
  • 什么是AI保护AI
  • 防护场景和技术手段
  • 关键技术和核心流程
  • 深信服 AI保护AI
  • 为您推荐
>

什么是AI保护AI

“AI保护AI”是用人工智能技术构建防护体系,主动识别、防御并修复AI系统面临的安全与合规风险,覆盖模型、数据、推理全链路,实现“以AI对AI”的自动化、自适应安全防护,是AI安全领域的核心实践范式。

核心本质:以AI能力解决AI自身的安全问题,包括对抗攻击、数据泄露、模型窃取、提示注入、输出合规等,替代传统人工+规则的被动防护,提升响应速度与覆盖度。

核心目标:保障AI系统的机密性、完整性、可用性(CIA三元原则),同时确保输出合规、可追溯,适配大模型与生成式AI的动态风险场景。

防护场景和技术手段

 

防护场景

典型风险

核心 AI 技术手段

应用示例

模型安全

窃取、逆向、投毒、对抗样本

模型水印、混淆、联邦学习、对抗训练

给 LLM 输出添加隐形水印;用对抗样本训练提升鲁棒性

数据安全

隐私泄露、数据投毒、敏感信息外泄

差分隐私、数据匿名化、NLP 敏感识别

自动打码病历中的身份信息;训练时添加噪声保护隐私

推理安全

提示注入、越狱攻击、违规输出

双向流检测、语义风控、内容过滤

实时拦截 “绕过审核” 的恶意提示;逐 Token 校验生成内容

合规与溯源

生成内容造假、责任不清

AI 生成内容检测、行为审计

鉴定 AI 合成图像 / 视频;记录模型调用与输出日志

关键技术和核心流程

1. 资产与风险发现:AI扫描环境中的模型、数据集、API,自动识别漏洞(如权限配置错误、数据泄露点),评估风险等级。

2. 实时防护拦截:

输入侧:用NLP模型检测恶意提示(如注入、越狱),结合规则库与语义理解双重过滤。

输出侧:流式逐段校验内容合规性(如涉政、色情、暴力),支持实时截断或修正。

3. 自适应防御:通过持续学习更新攻击特征库,对抗样本动态生成与防御,适配新漏洞与攻击手法。

4.事后审计与溯源:AI驱动的行为分析与水印校验,定位风险源头,满足合规取证需求。

深信服 AI保护AI

深信服全新发布「大模型安全护栏解决方案」+「安全使用 GenAI 解决方案」

大模型安全护栏解决方案

聚焦大模型实战攻防场景,以“AI 保护 AI”为核心策略,创新性引入快速分类模型和深度研判模型,针对大模型输入输出提供高精准、低时延的检测、阻断能力,对接方式简单便捷。

以大模型安全护栏为核心,提供对大模型应用的实时防护,确保“攻击行为进不来、有害内容出不去”。还可结合零信任系统收缩应用暴露面,结合实战评估服务监测多维安全风险,形成完整、有效的大模型安全保障体系。

安全使用 GenAI 解决方案

助力企业实现对互联网中公有AI访问的保护和使用管控,做到真正“看的清、管的住、防泄密”:
  • 看得清:鼓励员工使用GenAl提效,但要摸清谁在用以及用了什么。
  • 管得住:基于员工身份管控GenAl使用权限,拦截未经授权的GenAl应用,支持10898种内置应用识别,其中包含2585种AI应用识别,覆盖256种常见对话式AI、151种常见AI编程。
  • 防泄密:兜住数据泄密的底线,用GPT来实现外发数据的自动识别和泄密稽查。