近日,在由军委装备发展部、国防科技大学科研部指导,国防科技大学系统工程学院主办的“慧眼行动”·第二届全国智能算法对抗挑战赛中,我院“为人民服务”队经过多轮高强度的算法对抗,在“文本对话类大模型防御赛道”荣获全国三等奖。

项目名称: 基于意图推理和RAG引导的大模型安全防御方案
获得奖项: 全国三等奖
团队成员: 姜芳、徐仕婷、朱智超、赵星宇、柳铜罩
指导老师: 邵俊、朱东海
项目简介:对语言模型进行精准、可靠的安全控制,是智能技术应用于国防安全领域的核心挑战。现有方法在面对复杂多变的真实越狱攻击时,常因语义理解不足而导致防御失效。本团队创新构建多库协同防御体系,通过融合安全准则库、价值语料库与越狱策略库,结合语义分割与意图推理技术,使大模型能深度理解安全边界与攻击意图,实现智能化、自适应安全响应。该方案在严格测试中表现卓越:在8类主流越狱攻击下,攻击成功率从75.5%大幅降至1.8%,同时在MATH-500、MMLU等基准测试中保持了模型原有性能,在安全性与功能性之间取得优异平衡,展现出突出的技术成熟度与落地适用性。
赛事背景:“慧眼行动”·全国智能算法对抗挑战赛作为国防智能算法安全领域的高水平赛事,是响应国家网络空间安全战略、面向军事智能化转型需求而设立的专业化对抗演练平台。赛事以“以赛促研、以赛促建、以赛育才”为宗旨,由军委装备发展部、国防科技大学科研部指导,国防科技大学系统工程学院主办,聚焦“AIGC图像伪造识别”“文本对话类大模型攻防博弈”等前沿方向,通过构建真实复杂的算法对抗环境,深度挖掘和培育掌握智能算法安全核心技术的拔尖创新团队,着力破解军事智能系统面临的“卡脖子”风险,为国防和军队现代化建设持续输送高层次、实战型算法安全人才,打造军事人工智能领域的创新高地与人才蓄水池。