unSafe.sh - 不安全

Ignore All Previous Instructions: Jailbreaking as a de-escalatory peace building practise to resist LLM social media bots 好的，我现在需要帮用户总结一篇英文文章的内容，控制在100字以内。用户已经提供了文章的详细内容，包括摘要、引言、各个部分和结论。首先，我需要通读整篇文章，抓住主要观点。摘要部分提到大型语言模型（LLMs）加剧了社交媒体上的政治话语操纵和冲突升级。现有的研究主要集中在平台主导的审核措施上，而本文提出了一种以用户为中心的“越狱”方法，作为一种新兴的非暴力降级实践。接下来，阅读引言和各个部分。引言指出社交媒体作为政治动员和说服的基础设施，LLMs被用于生成大量误导信息，平台审核措施效果有限。因此，用户采取行动抵制虚假信息传播，“越狱”作为一种技术手段被采用。在“Jailbreaking as an Emergent User Practice”部分，文章解释了“越狱”是如何通过绕过LLM的安全措施来揭示自动化账户的行为。通过示例展示了用户如何利用这种方法揭露恶意账户。结论部分强调了“越狱”作为新兴公民实践的作用，支持抵制虚假信息和促进和平建设。现在需要将这些要点浓缩到100字以内。重点包括：LLMs加剧政治话语冲突；平台审核不足；用户采用“越狱”技术揭示虚假账户；作为新兴和平实践。最后，确保语言简洁明了，不使用任何开头词如“这篇文章总结了...”，直接描述内容。 </think> 大型语言模型（LLMs）加剧了社交媒体上的政治话语操纵和冲突升级。本文提出一种以用户为中心的“越狱”方法，通过揭示自动化行为和虚假叙事来实现非暴力降级实践。该技术帮助用户识别并揭露恶意LLM驱动账户，支持抵制虚假信息传播并促进和平建设。...
2026-3-4 14:2:42 | 阅读: 18 | 收藏 |

Over Security - Cybersecurity news aggregator - arxiv.org
cited pp llms llm

Llm4Fuzz：基于大语言模型的智能合约引导模糊测试好的，我现在需要帮助用户总结一篇关于Llm4Fuzz的文章，控制在100字以内。首先，我得快速浏览文章内容，抓住主要信息。文章主要介绍了一种名为Llm4Fuzz的新方法，用于优化智能合约的安全分析。它利用大型语言模型（LLMs）来指导和优先化模糊测试（fuzzing）过程。传统的模糊测试效率低下，无法有效探索智能合约的状态空间。Llm4Fuzz通过LLMs生成复杂性、漏洞可能性等指标，帮助fuzzer更高效地定位高风险代码区域和输入序列。文章还提到Llm4Fuzz在真实世界的DeFi项目中进行了评估，结果显示其在效率、覆盖范围和漏洞检测方面都优于传统方法，并发现了五个关键漏洞，可能导致超过247,000美元的损失。总结时需要涵盖以下几点： 1. Llm4Fuzz的目的是优化智能合约的安全分析。 2. 使用LLMs来指导模糊测试。 3. 传统方法的低效问题。 4. Llm4Fuzz带来的提升和发现的漏洞。现在，我需要将这些信息浓缩到100字以内，确保内容准确且简洁。 </think> 本文提出了一种名为Llm4Fuzz的新方法，利用大型语言模型（LLMs）来优化智能合约的模糊测试过程。通过分析代码复杂性和漏洞可能性等指标，Llm4Fuzz能够更高效地定位高风险代码区域和输入序列。实验表明，该方法显著提升了测试覆盖率和漏洞检测能力，并发现了多个关键漏洞。...
2026-1-3 06:47:39 | 阅读: 3 | 收藏 |

玄武实验室每日安全 - arxiv.org
italic llm4fuzz llm llms

AutoAdv：面向大型语言模型的多轮越狱攻击自动化对抗提示方法好的，我现在需要帮用户总结一篇文章的内容，控制在100字以内。首先，我看看用户给的文章内容。文章主要讲的是一个叫做AutoAdv的框架，用于自动化生成对抗提示，测试大型语言模型的安全机制。作者提到LLMs仍然容易受到 jailbreaking 攻击，也就是通过恶意输入绕过安全措施。AutoAdv利用参数化的攻击者模型，通过改写技术、系统提示和优化超参数来生成隐藏恶意意图的提示。文章还提到他们的方法是一个动态的多轮攻击策略，分析失败的尝试并迭代生成更精细的后续提示。他们评估了攻击成功率，在多个模型上测试，发现成功率高达86%。这表明现有的安全机制还不够 robust，需要更好的防御策略。现在我需要把这些信息浓缩到100字以内。重点包括：AutoAdv框架、自动化生成对抗提示、测试LLM安全、多轮攻击方法、高成功率、现有机制的漏洞。可能的结构是：介绍框架及其目的，说明方法和结果。例如，“本文提出AutoAdv框架，用于自动化生成对抗提示以测试大型语言模型的安全性。通过多轮攻击策略和优化技术，该方法在多个模型中实现了高达86%的成功率，揭示现有安全机制的漏洞。” 检查一下字数是否在限制内，并确保没有使用“文章内容总结”等开头词。 </think> 本文提出AutoAdv框架，用于自动化生成对抗提示以测试大型语言模型的安全性。通过多轮攻击策略和优化技术，该方法在多个模型中实现了高达86%的成功率，揭示现有安全机制的漏洞。...
2025-12-29 06:50:48 | 阅读: 1 | 收藏 |

玄武实验室每日安全 - arxiv.org
prompts llm aashray reveal

DevPhish：探索针对开发者的软件供应链攻击中的社会工程学手段本文探讨了软件供应链（SSC）中针对开发人员的社会工程攻击手段，分析了账户入侵、设备入侵、恶意拉取请求、恶意依赖项水坑等六类攻击类型，并指出社会工程在27%的SSC攻击中发挥关键作用。...
2025-12-20 06:54:51 | 阅读: 6 | 收藏 |

玄武实验室每日安全 - arxiv.org
malicious software security github ssc

FuzzLLM：一种新型通用的模糊测试框架，用于主动发现大语言模型中的越狱漏洞嗯，用户让我总结一下这篇文章的内容，控制在一百个字以内，而且不需要用“文章内容总结”这样的开头。首先，我得仔细阅读摘要，了解文章的主要内容。摘要里提到的是大型语言模型（LLMs）的越狱漏洞，这些漏洞利用精心设计的提示来获取违反服务指南的内容。研究者们开发了一个叫做FuzzLLM的自动化模糊测试框架，用来主动检测这些漏洞。他们用模板来捕捉提示的结构，并隔离关键特征作为约束条件。通过组合不同的基类和调整约束元素，FuzzLLM可以高效地进行测试，减少手动工作量。实验结果显示它在多个LLMs上有效。好的，现在需要把这些信息浓缩到100字以内。要抓住关键点：FuzzLLM的作用、方法、优势和效果。可能的结构是：介绍问题（越狱漏洞），提出解决方案（FuzzLLM），说明方法（模板、组合攻击），强调优势（高效、减少手动工作），最后提到实验结果的有效性。再检查一下字数，确保不超过限制。可能需要删减一些细节，比如“精心设计的提示”可以简化为“特定提示”，或者直接说“利用特定提示”。最终总结应该清晰明了，涵盖主要贡献和方法。 </think> 文章介绍了一种名为FuzzLLM的自动化模糊测试框架，用于检测大型语言模型中的越狱漏洞。通过模板和组合攻击技术，该框架能够高效发现潜在风险，并减少人工干预。实验表明其在多种模型中表现优异。...
2025-12-19 06:59:10 | 阅读: 2 | 收藏 |

玄武实验室每日安全 - arxiv.org
jailbreak fuzzllm llms constraints

PoCGen：为 Npm 包中的漏洞生成概念验证利用代码该研究提出了一种名为PoCGen的新方法，用于自动生成npm包的安全漏洞的Proof-of-Concept（PoC） exploits。该方法结合了大型语言模型（LLMs）、静态分析和动态分析技术。实验结果显示，在SecBench.js数据集中，PoCGen成功生成了77%漏洞的PoC exploits，显著优于现有方法。该研究为开发人员和安全研究人员提供了一种自动化工具，以更快速地理解和修复漏洞，并提高回归测试的效果。...
2025-12-9 04:43:28 | 阅读: 3 | 收藏 |

玄武实验室每日安全 - arxiv.org
pocgen llm taint security

PatchFuzz：面向JavaScript引擎的端到端可持续补丁模糊测试方法本文提出了一种名为PatchFuzz的JavaScript引擎补丁模糊测试方法，通过自动识别修复安全漏洞的git提交并提取历史漏洞的PoC（Proof of Concept），结合代码变更信息和优化的变异策略，有效发现新漏洞。实验表明，PatchFuzz成功检测到54个漏洞，并获得62,500美元的漏洞赏金。...
2025-12-6 10:15:31 | 阅读: 2 | 收藏 |

玄武实验室每日安全 - arxiv.org
security pocs patchfuzz italic

TurboFuzzLLM：通过强化变异模糊测试技术高效破解大语言模型的限制 View PDF HTML (experimental) Abstract:Jailbreaking l...
2025-11-25 06:53:31 | 阅读: 2 | 收藏 |

玄武实验室每日安全 - arxiv.org
harmful gpt llms

Orion：结合大语言模型与确定性工具的模糊测试工作流自动化 (2025)Abstract.Fuzz testing is one of the most effective techniques for finding software vuln...
2025-11-16 10:28:7 | 阅读: 2 | 收藏 |

玄武实验室每日安全 - arxiv.org
orion analysis harness llm security

InfoFlood：通过信息过载对大语言模型进行越狱攻击好的，我现在需要帮用户总结一篇文章的内容，控制在100字以内。首先，我得仔细阅读用户提供的文章摘要，了解主要内容。文章主要讲的是大型语言模型（LLMs）存在一个新漏洞，称为信息过载（Information Overload）。攻击者通过生成复杂、信息过载的查询来绕过模型的安全机制，这种方法不需要添加任何前缀或后缀。研究者提出了名为InfoFlood的攻击方法，它通过重新表述恶意查询、分析失败原因并优化提示结构来实现攻击。实验结果显示，这种方法在多个模型上比传统攻击更有效，并且现有的防御措施无法有效阻止这种攻击。接下来，我需要将这些要点浓缩成一句话，确保不超过100字。同时，不需要使用“文章内容总结”之类的开头语，直接描述即可。首先确定关键点：新漏洞、信息过载、InfoFlood攻击方法、成功绕过安全机制、传统防御失效。把这些点连贯地组织起来。可能的结构是：介绍新漏洞和攻击方法，说明其如何工作以及效果如何。最终总结应该是：“大型语言模型存在新漏洞——信息过载攻击。研究者提出InfoFlood方法，通过生成复杂查询绕过安全机制，在多个模型上成功率达传统方法三倍。现有防御措施无法有效应对。” 这样既涵盖了主要发现，又符合字数限制。 </think> 大型语言模型存在新漏洞——信息过载攻击。研究者提出InfoFlood方法,通过生成复杂查询绕过安全机制,在多个模型上成功率达传统方法三倍。现有防御措施无法有效应对。...
2025-11-7 06:44:58 | 阅读: 2 | 收藏 |

玄武实验室每日安全 - arxiv.org
jailbreak malicious infoflood linguistic rates

RAG悖论：利用黑盒攻击揭示检索增强生成系统中的非故意漏洞好的，我现在要帮用户总结这篇文章的内容。首先，我需要仔细阅读用户提供的文章摘要，理解其中的主要观点和结论。文章讨论的是检索增强生成（RAG）系统，这类系统在生成内容时会结合检索到的文档。随着RAG系统的普及，出现了各种攻击方法来降低其性能。然而，现有的攻击方法大多假设攻击者能够访问系统的内部组件，比如检索器，这在现实中并不现实。作者提出了一种基于RAG悖论的黑盒攻击方法。RAG悖论指的是系统为了增强用户的信任，会向用户展示检索到的文档及其来源。这种透明性反而让攻击者有机可乘，他们可以观察到系统使用的来源和信息表达方式，从而制作出更可能被检索到的中毒文档，并上传到这些来源中。此外，由于RAG系统直接向用户提供检索内容，这些中毒文档不仅要容易被检索到，还要看起来自然可信，以维持用户的信任。与之前只关注提高文档可检索性的研究不同，这种方法同时考虑了可检索性和用户对内容的信任度。实验结果表明，在不访问系统内部的情况下，这种方法显著降低了系统的性能，并且生成的中毒文档看起来很自然。接下来，我需要将这些要点浓缩成大约100字的总结。要确保涵盖主要概念：RAG系统的漏洞、基于透明性的黑盒攻击、中毒文档的影响以及实验结果。可能会遇到的问题是如何简洁地表达复杂的概念而不遗漏关键点。例如，“RAG悖论”是一个关键术语，需要明确提及。同时，“黑盒攻击”和“中毒文档”也是核心要素。最后，确保语言流畅自然，并且控制在字数限制内。 </think> 文章提出了一种基于RAG悖论的黑盒攻击方法,通过利用RAG系统透明性弱点,攻击者无需访问内部组件即可上传有毒文档,影响系统性能并降低用户信任,实验表明该方法有效且生成自然可信的内容。...
2025-10-18 06:53:39 | 阅读: 2 | 收藏 |

玄武实验室每日安全 - arxiv.org
retrieved rag poisoned fri

你只需要一个模糊测试大脑：一种基于大语言模型的自动化漏洞检测与修复系统本文介绍了一支名为"All You Need Is A Fuzzing Brain"的团队在DARPA AIxCC竞赛中的表现及开发的漏洞检测与修复系统FuzzingBrain。该系统通过LLM驱动策略自主发现并修复了28个安全漏洞（含6个零日漏洞），最终开源并提供技术细节。文章还介绍了基于AIxCC数据集的LLM基准测试 leaderboard。...
2025-9-19 06:47:50 | 阅读: 7 | 收藏 |

玄武实验室每日安全 - arxiv.org
pov llm analysis sarif fuzzer

版本Pinning无济于事：npm依赖管理中的安全与维护权衡该研究探讨了固定依赖版本对防御软件供应链攻击的影响。通过模拟分析发现，在npm生态系统中，固定直接依赖不仅增加了维护过时和易受攻击依赖的成本，还可能增加大型依赖图中暴露于恶意更新的风险。研究建议采用集体固定策略，并对npm进行改进以提高整体安全性。...
2025-9-8 06:50:21 | 阅读: 3 | 收藏 |

玄武实验室每日安全 - arxiv.org
pinning software italic security malicious

区块链系统中的拒绝服务攻击与防御技术：分层分析本文分析了区块链系统中的拒绝服务（DoS）攻击类型及其防御策略，并基于区块链架构层次对现有攻击进行了分类与整理。重点探讨了合约层与共识层的攻击原理及防御技术，并提出了综合研究与新技术应用等未来发展方向。...
2025-9-1 06:48:49 | 阅读: 2 | 收藏 |

玄武实验室每日安全 - arxiv.org
blockchain network security attacker bid

Tikuna：以太坊区块链网络的安全监控系统 hB«)§ö—áÄâ?aÓbáƒG9–eî4lÀÎ‘£»?©Ýq¿�äI¶ûF;Ø öåðÓuQ,Ô…çŒÇÿTä€Ï2é#W_$uÂKÜ’CBŒ°å�4¯ÒÕB...
2025-8-22 09:24:45 | 阅读: 18 | 收藏 |

玄武实验室每日安全 - arxiv.org
65535 00000 endobj iÓ

通过语义平滑防御大语言模型的越狱攻击该研究提出了一种名为SEEMANTICSMOOTH的防御方法，用于保护对齐的大语言模型免受语义攻击。通过聚合多个语义变换后的输入副本预测结果，该方法在保持高性能的同时显著增强了模型对GCG、PAIR和AutoDAN等攻击的鲁棒性，并计划公开代码以供研究使用。...
2025-8-11 06:48:39 | 阅读: 4 | 收藏 |

玄武实验室每日安全 - arxiv.org
robustness 464 llms

缓解软件供应链攻击：SolarWinds、Log4j和XZ Utils的启示本文探讨了通过现有软件供应链框架的任务来降低供应链攻击风险的方法。研究分析了SolarWinds、Log4j和XZ Utils三起攻击事件，发现仅34项任务能有效缓解其攻击技术。排名前三的任务为基于角色的访问控制、系统监控和边界保护。此外，研究指出三个关键任务在现有框架中缺失，表明即使采用所有推荐任务，产品仍可能面临风险。...
2025-8-4 06:50:50 | 阅读: 3 | 收藏 |

玄武实验室每日安全 - arxiv.org
checkmark software circle security glsaus

通过后门实现检索增强生成中的数据提取攻击本文研究了检索增强生成（RAG）系统的隐私风险，提出了一种通过在模型微调阶段注入少量恶意数据创建后门的方法。该方法允许攻击者利用特定触发词从知识库中提取文档内容，实验显示在Gemma-2B-IT模型上仅需5%的恶意数据即可实现高达94.1%的逐字提取成功率和63.6%的改写提取成功率。...
2025-6-30 06:48:28 | 阅读: 3 | 收藏 |

玄武实验室每日安全 - arxiv.org
italic rag injection

无人机固件动态分析的挑战与解决方案：以DJI无人机为例文章探讨了无人机固件动态分析的挑战，并提出了一种解决方案。研究者通过开发自动解密模块、构建嵌入式开发板环境以及使用AFL工具进行模糊测试，克服了固件加密、缺乏仿真工具等问题，从而提高了分析效率和准确性。...
2025-6-15 10:28:18 | 阅读: 2 | 收藏 |

玄武实验室每日安全 - arxiv.org
firmware drone analysis dji drones

通过指令微调过程中的梯度引导方法对大型语言模型实施数据投毒攻击本文提出了一种针对大型语言模型（LLMs）指令微调过程的数据中毒攻击方法。通过设计一种新型的梯度引导后门触发器学习方法，攻击者能够高效地识别出难以被检测的后门触发器，并仅需对训练数据进行少量修改即可显著降低模型性能。实验表明，仅需对1%的训练数据进行污染即可使模型性能下降约80%，凸显了现有LLMs在数据中毒攻击下的脆弱性，并强调了开发更强防御机制的重要性。...
2025-6-11 06:51:59 | 阅读: 4 | 收藏 |

玄武实验室每日安全 - arxiv.org
italic arxiv poisoning llms