unSafe.sh - 不安全

针对集成大语言模型应用的提示注入攻击研究揭示大型语言模型（LLMs）在实际应用中的安全风险，提出新型黑盒提示注入攻击技术HouYi，并通过实验发现31款集成LLM的应用存在漏洞，影响包括Notion在内的多个平台。...
2025-5-24 06:50:9 | 阅读: 4 | 收藏 |

玄武实验室每日安全 - arxiv.org
injection houyi liu llm yi

大型语言模型中的后门攻击与防御综述大型语言模型在自然语言处理任务中表现出色,但面临后门攻击威胁。文章提出基于微调方法的分类框架,将后门攻击分为全参数、参数高效和无微调三类,并探讨了未来研究方向,如无需微调的攻击算法及更隐蔽的方法。...
2025-5-24 06:50:9 | 阅读: 75 | 收藏 |

玄武实验室每日安全 - arxiv.org
tuning llms shot thu

Auto-RT：用于对大型语言模型红队测试的自动越狱策略探索本文提出了一种基于强化学习的自动红队框架Auto-RT，用于检测大型语言模型的安全漏洞。通过引入早期终止探索和逐步奖励追踪算法等机制，Auto-RT显著提高了攻击策略的优化效率和漏洞检测的成功率，在实验中实现了16.63%的更高成功率和更快的检测速度。...
2025-4-27 06:18:34 | 阅读: 6 | 收藏 |

玄武实验室每日安全 - arxiv.org
exploration llms uncover

大语言模型红队技术、防御与伦理考虑大型语言模型（LLMs）在自然语言处理中表现出色，但易受越狱攻击威胁。研究分析了基于强化学习、提示工程等攻击策略及其对模型安全的影响，并探讨了防御机制的重要性。...
2025-4-27 06:18:34 | 阅读: 16 | 收藏 |

玄武实验室每日安全 - arxiv.org
llms llm jailbreak teaming prompts

大型语言模型后门攻击与防御综述：对安全措施的影响本文探讨了大型语言模型（LLMs）在后门攻击方面的安全漏洞及其防御策略。文章系统地将后门攻击分为全参数微调、参数高效微调和无需微调三类，并分析了现有防御方法的局限性。研究指出，随着LLMs规模扩大，传统全参数微调方法面临计算资源限制和性能退化问题，而参数高效微调和无需微调的攻击方式更具灵活性和隐蔽性。未来研究需关注更隐蔽触发器的设计、跨任务清洁标签攻击以及高效防御算法的开发。...
2025-4-27 03:1:54 | 阅读: 10 | 收藏 |

玄武实验室每日安全 - arxiv.org
italic tuning arxiv llms

DarkMind：定制化LLM中的潜在推理链后门随着个性化AI需求增长,定制化大语言模型（如GPT）广泛应用,但其推理过程存在安全漏洞。研究提出DarkMind后门攻击,通过利用模型推理链实现隐秘控制,无需注入触发器,实验显示其在多领域有效,强调需加强安全防护。...
2025-2-19 06:25:0 | 阅读: 10 | 收藏 |

玄武实验室每日安全 - arxiv.org
reasoning darkmind llms customized gpt