深知安全风控推出AI Agent安全护栏比较评估

2026/5/13 18:22:28 浏览次数：1 来源：互联网责任编辑：林海瑞

随着AI Agent(人工智能智能体)逐渐进入工具调用、文件访问、流程执行等应用场景,AI安全问题引发的行业担忧,也催生了全新的安全需求。近日,深圳深知智新技术有限公司(以下简称:深知)旗下深知安全风控(DKnownAI Guard)团队公开发布了一项面向Agentic(智能体化)场景的安全护栏测评,并同步开放技术报告与评测数据集。此次测评围绕真实攻击与正常交互边界,对多类主流安全护栏方案进行了统一评估,尝试为AI智能体安全能力建设提供新的行业参考。

从内容审核到智能体安全:聚焦AI智能体安全新挑战

与传统内容安全测评主要聚焦违规表达、敏感内容识别不同,AI智能体场景中的风险往往与任务目标、上下文信息以及交互过程紧密相关,仅依赖文本层面的判断,已难以完整反映相关安全能力。因此,此次测评的重点不仅在于比较不同安全方案的识别结果,更在于尝试通过统一标准,观察AI智能体场景下真实攻击识别能力与正常请求放行能力之间的平衡情况。

据了解,此次测评从8个公开安全数据集中抽样1018条样本,并结合真实部署语境进行了人工复审与重标注,最终形成统一的BLOCKED / ALLOWED(拦截/放行)评估框架。测评对象包括AWS Bedrock Guardrails(亚马逊云科技安全护栏)、Azure Content Safety(微软内容安全服务)、Lakera Guard(Lakera安全防护方案)等主流安全方案。

业内认为,公开数据集与统一评估框架的建立,有助于提升AI智能体安全能力的可比性与可评估性,也为行业进一步观察复杂攻击识别能力、误伤控制能力以及整体安全效果之间的关系,提供了新的参考依据。

从“拒答”到“分类处理”:深知安全风控为AI可信落地提供新实践

在此次测评中,深知安全风控(DKnownAI Guard)在多项核心指标中表现突出。其中,召回率(Recall)达到96.5%,真负率(True Negative Rate)达到90.4%,均位列第一,体现出其在AI智能体场景下兼顾攻击识别能力与正常请求放行能力的综合安全水平。

在机器学习领域,Recall通常用于衡量模型对目标类别的识别覆盖能力,True Negative Rate则用于衡量模型对非目标类别的正确判断能力。结合本次测评语境,前者对应真实攻击识别能力,后者对应正常请求放行能力。

对于AI智能体场景而言,如果过度强调拦截能力,容易影响正常交互体验;而如果放行过多,则可能带来新的安全风险。测评结果显示,深知安全风控的优势并不只是提升单一拦截能力,而是在风险识别与误伤控制之间取得了较好平衡。换句话说,其关注的不只是“文本是否像风险内容”,而是“AI智能体是否会因此做出错误行为”。这一能力对于涉及办公协同、客户服务、企业运营等实际场景的AI智能体应用而言,具有较强现实意义。

据了解,深知安全风控采用组件化插入模式,可与基座大模型及相关智能体应用协同配合,对潜在风险进行识别与响应。针对部分风险问题,系统并非简单拒答,而是结合风险研判结果进行分类处理,在风险防控与正常使用体验之间实现平衡。

测评结果显示,深知安全风控不仅能够有效识别提示词注入、指令劫持等风险,还能降低对正常业务交互的误伤,为AI智能体从“能用”迈向“可信可用”提供了新的实践参考。

业内认为,仅依靠传统内容安全思路,已经难以充分应对新一代AI智能体场景中的复杂风险。此次公开测评通过统一数据集与评估框架,为AI智能体安全能力建立了新的比较参考体系,也进一步体现出行业对于“可信AI”安全能力建设的持续关注。

随着AI智能体加速进入办公协同、客户服务、企业运营等更多实际应用场景,能够兼顾风险识别能力与正常使用体验的安全能力,或将成为推动AI智能体进一步规模化落地的重要基础。

24小时热文