unSafe.sh - 不安全
我的收藏
今日热榜
公众号文章
导航
Github CVE
Github Tools
编码/解码
文件传输
Twitter Bot
Telegram Bot
Search
Rss
黑夜模式
针对集成大语言模型应用的提示注入攻击
研究揭示大型语言模型(LLMs)在实际应用中的安全风险,提出新型黑盒提示注入攻击技术HouYi,并通过实验发现31款集成LLM的应用存在漏洞,影响包括Notion在内的多个平台。...
2025-5-24 06:50:9 | 阅读: 4 |
收藏
|
玄武实验室每日安全 - arxiv.org
injection
houyi
liu
llm
yi
大型语言模型中的后门攻击与防御综述
大型语言模型在自然语言处理任务中表现出色,但面临后门攻击威胁。文章提出基于微调方法的分类框架,将后门攻击分为全参数、参数高效和无微调三类,并探讨了未来研究方向,如无需微调的攻击算法及更隐蔽的方法。...
2025-5-24 06:50:9 | 阅读: 75 |
收藏
|
玄武实验室每日安全 - arxiv.org
tuning
llms
shot
thu
Auto-RT:用于对大型语言模型红队测试的自动越狱策略探索
本文提出了一种基于强化学习的自动红队框架Auto-RT,用于检测大型语言模型的安全漏洞。通过引入早期终止探索和逐步奖励追踪算法等机制,Auto-RT显著提高了攻击策略的优化效率和漏洞检测的成功率,在实验中实现了16.63%的更高成功率和更快的检测速度。...
2025-4-27 06:18:34 | 阅读: 6 |
收藏
|
玄武实验室每日安全 - arxiv.org
exploration
llms
uncover
大语言模型红队技术、防御与伦理考虑
大型语言模型(LLMs)在自然语言处理中表现出色,但易受越狱攻击威胁。研究分析了基于强化学习、提示工程等攻击策略及其对模型安全的影响,并探讨了防御机制的重要性。...
2025-4-27 06:18:34 | 阅读: 16 |
收藏
|
玄武实验室每日安全 - arxiv.org
llms
llm
jailbreak
teaming
prompts
大型语言模型后门攻击与防御综述:对安全措施的影响
本文探讨了大型语言模型(LLMs)在后门攻击方面的安全漏洞及其防御策略。文章系统地将后门攻击分为全参数微调、参数高效微调和无需微调三类,并分析了现有防御方法的局限性。研究指出,随着LLMs规模扩大,传统全参数微调方法面临计算资源限制和性能退化问题,而参数高效微调和无需微调的攻击方式更具灵活性和隐蔽性。未来研究需关注更隐蔽触发器的设计、跨任务清洁标签攻击以及高效防御算法的开发。...
2025-4-27 03:1:54 | 阅读: 10 |
收藏
|
玄武实验室每日安全 - arxiv.org
italic
tuning
arxiv
llms
DarkMind:定制化LLM中的潜在推理链后门
随着个性化AI需求增长,定制化大语言模型(如GPT)广泛应用,但其推理过程存在安全漏洞。研究提出DarkMind后门攻击,通过利用模型推理链实现隐秘控制,无需注入触发器,实验显示其在多领域有效,强调需加强安全防护。...
2025-2-19 06:25:0 | 阅读: 10 |
收藏
|
玄武实验室每日安全 - arxiv.org
reasoning
darkmind
llms
customized
gpt
Previous
2
3
4
5
6
7
8
9
Next