(原标题:火山引擎大模型应用防火墙发布,提供All in One安全防护能力)
当前,以大模型为代表的人工智能迅猛发展,极大提升生产力的同时,也给全球网络安全、数字安全领域带来全新的挑战。在此背景下,企业在落地AI业务时,应如何保证自身的网络安全?
为此,火山引擎推出大模型应用防火墙,为大模型推理提供 All in One 的安全防护能力,实现从“被动防御”到“主动对抗”的跨越式升级,降低由模型攻击、推理服务滥用、系统权限突破带来的安全风险。
据了解,大模型应用防火墙能够有效抵御算力DDoS 攻击,消除发生率约30%的恶意tokens 消耗风险;通过防范提示词注入攻击,使敏感数据泄露事件发生率降低70%;同时降低模型滥用、幻觉、回复不准确的发生率90%以上,并严格满足输入输出合规要求,将不良信息输出率控制在5%以内。
在大模型应用防火墙建设的过程中,火山引擎根据攻防实践,构建起了用户接入层、智能体层、服务/业务层、模型推理层、模型训练层等五层威胁模型,基于底层攻击逻辑,总结有针对性的对抗技术。
提示词拼接注入攻击分析图
例如企业在面对提示词拼接注入攻击时,攻击者操纵LLM的prompt工程技术,通过分工协作的“越狱 Prompt”+“恶意诱导 Prompt”,绕过平台和模型原生安全机制,诱导模型生成恶意内容。
对于这种绕过模型内容安全机制的攻击场景,大模型应用防火墙采用意图识别、防提示词注入、动态对抗与价值观校准等多重防护机制,实现以AI能力对抗AI攻击,大幅提升了大模型的安全性。
经实践结果反馈,通过深度上下文引擎,防火墙可识别97%的隐式攻击,并基于千万级对抗样本训练,覆盖20+提示词攻击场景,检出率达99%+;同时,经某大模型服务平台实测,违规内容及价值观偏移回答均下降98%。轻量化架构则可在100ms内即完成风险拦截,误判率较行业低一倍。
再如,在企业经常面对的聊天数据窃取攻击场景下,防火墙也发挥出非常实用的效果。对于企业来说,AI智能化应用无疑是业务数据的“处理厂”,攻击者可以通过间接提示词注入的攻击方式,诱导大模型绕过智能体自身的防护机制,索取如用户对话数据等敏感信息。
数据窃取攻击分析图
而对于数据窃取攻击,大模型应用防火墙在提供注入攻击对抗外,还通过RAG数据加密/替换、模型计算环境安全性提升,访问识别等方式,降低数据泄露风险。
经实践结果显示,采用“深度学习小模型+大模型”的技术方案,对敏感数据进行脱敏/替换/占位处理,可降低96%的敏感信息泄露风险;另外,防火墙会将经过精调的提示词注入防护模型,以应对指令劫持、角色扮演、反向诱导等数十种攻击。
而与私密云计算方案结合,则可以进一步保护RAG知识库、系统提示词等核心数据,确保即使这些数据被窃取,攻击者也无法解密,从而使注入攻击拦截率达到99%。通过实时动态脱敏模块,使防火墙可以对用户对话信息进行字段级加密,数据泄露风险降低98%。针对插件攻击,智能流量监测则可识别系统内异常的外联请求,阻断未授权访问。
除此之外,系统权限攻击,也是企业在日常运营中经常遭遇的攻击手段。攻击者通过 AI 智能体的人机交互页面,实现基于 SQL 注入、RCE 提权等专业化攻击,篡改业务数据、远程命令执行、模型供应链投毒、基于反弹 shell 攻击控制底层系统,严重危害企业核心业务安全。
系统权限攻击分析图
而火山引擎推出的大模型应用防火墙,首先能识别固定规则的攻击代码、恶意攻击意图,同时还能应对攻击者诱导大模型自己总结和生成的攻击代码,抵御模型输入的恶意提示词攻击,同类攻击拦截率可达95%+。
不仅如此,防火墙还能在大模型对话链路中判断 UserPrompt 中是否包含攻击行为,如有,则拦截请求,从源头处切断威胁。
此外,防火墙还会对Agent行为进行全方位的检测,观察Agent调用的RAG、Tool等外部返回数据中是否包含间接注入攻击,规避模型生成的任务和代码中可能包含的威胁。而在大模型应用发布时,则检测 SystemPrompt/LLM Response 中是否包含恶意内容,如存在,则拒绝应用发布。
最后,当面对堪称“网络安全顽疾”的DDoS攻击时,考虑到新型的算力DDoS攻击,可利用大模型的推理能力将算力耗尽;同时推理服务盗用“薅羊毛”同样是DDoS 攻击之外的另一个典型威胁,导致算力资源可能被恶意窃取,因此大模型应用防火墙通过算力资源熔断和建立相应检测模型等方式,并通过针对性的技术迭代和策略适配,构建了新型的智能体算力防护体系。
可用性攻击分析图
首先,基于用户行为链分析引擎,防火墙可识别90%的自动化“薅羊毛”行为。而动态资源熔断机制则实时监控算力消耗,使无效资源调用减少80%,且效果已在实践中得到验证。在帮助某头部大模型厂商抵御黑灰产破解转售应用API时,成功规避算力损失40%以上。
火山引擎表示,未来将持续构建包括大模型应用防火墙的全面智能化防御策略与服务,致力于为企业大模型应用落地,开辟安全可信的推理空间。