Check Point旗下公司Lakera推出面向AI代理的大型语言模型开源安全基准测试

每日快讯
2025
11/04
10:58
分享
评论

2025年11月, 网络安全解决方案的先驱与全球领导者Check Point软件技术有限公司与行业领先、专注于AI代理应用安全的AI原生安全平台Lakera,联合英国人工智能安全研究所(AISI)的研究人员,近日发布专为AI智能体中大型语言模型(LLM)安全设计的开源安全评估工具——骨干破坏基准测试(backbone breaker benchmark )b3。

b3 基于“威胁快照”的新理念构建,不再模拟人工智能代理从始至终的完整过程,而是聚焦于大语言模型最易暴露漏洞的关键节点。通过在这些精确时刻测试模型,开发者和模型供应商无需构建复杂的完整代理工作流,即可评估其系统在更真实对抗挑战中的抗压能力。

“我们创造b3基准测试,是因为当今人工智能代理的安全性完全取决于其背后的LLM模型,”Check Point旗下公司Lakera的联合创始人兼首席科学家Mateo Rojas-Carulla表示。“威胁快照功能让我们能够系统性地揭示那些至今仍隐藏在复杂代理工作流中的漏洞。通过向全球开放该基准测试,我们希望为开发者和模型供应商提供一种切实可行的方法,来衡量并提升其安全态势。”

该基准测试结合了10个具有代表性的代理“威胁快照”,以及通过红队对抗测试Gandalf: Agent Breaker收集的19,433个高质量众包对抗攻击数据集。它评估了系统对各类攻击的易受攻击性,包括系统提示泄露、钓鱼链接植入、恶意代码注入、拒绝服务攻击以及未授权工具调用等。

Gandalf: Agent Breaker是一款黑客模拟游戏,挑战玩家在真实场景中破解并利用AI代理的能力。游戏内置的十款通用人工智能应用程序模拟了现实世界中AI代理的行为模式。每款应用均设有不同难度等级、分层防御机制及创新攻击面,旨在考验从提示工程到红队对抗等全方位技能。部分应用基于聊天交互,其余则需运用代码级思维、文件处理、内存操作或外部工具使用等能力。

Gandalf: Agent Breaker的初始版本诞生于Lakera内部的黑客马拉松竞赛,当时蓝队与红队试图为持有秘密密码的大型语言模型构建最强大的防御与攻击体系。自2023年发布以来,它已成为全球规模最大的红队对抗社区,累计生成逾8000万条数据点。这款最初作为趣味游戏开发的工具,通过揭示生成式AI应用中的现实漏洞,有效提升了人们对“AI优先安全”重要性的认知。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3