12.5 GPT 与进阶技巧:AI 内容检测
2024-5-3 11:58:35 Author: sspai.com(查看原文) 阅读量:10 收藏

作为 2024 年五一「生产力超频」系列目优惠活动的一部分,本期设置为限时免费,欢迎观看。我们将在 5 月 1 日至 7 日,为热门付费栏目「生产力超频」全系列设置七折优惠;同时,我们将每天从不同教程中选出一篇,设为限时免费。希望这些内容和优惠为你助力,开启一个效率和技能「超频」的五月。进一步了解

今天的限时免费内容来自《成为 ChatGPT 全域调教高手》,介绍 GPT 时代的进阶技巧:AI 内容检测。本栏目以 GPT 原理为基础,分享 Prompt 优化方法和使用技巧。兼顾理论与实操,借助 ChatGPT 的力量,成为自己行业中先进入未来的人。栏目原价 79 元,折后价 55.30 元(节省 23.70 元)。前往购买


当你阅读到现在,你应该已经能够熟练掌握 GPT 的大部分使用技巧,并体验到了它在不同方面的强大能力。

使用 GPT 可以辅助甚至独立完成生活和工作中的各种任务,节省时间,提高效率。但在某些场景和任务中,我们不仅不应该使用 GPT,也不希望他人使用 GPT。虽然 GPT 正在快速发展,生成内容的可用性越来越高,但在某些场合使用 GPT 生成的内容可能是不合适的、不道德的,甚至可能违反相关政策和法律。

例如,我们不希望学生使用 GPT 完成作业和考试,这种做法缺乏诚信,会削弱学生的个人学习能力,且无法通过作业和考试检验所学知识。在一些严谨的领域,如法律和医学,也不宜使用大量 GPT 生成的内容。虽然 GPT 可以生成一些描述性内容,但关键部分应基于专业人士的经验和事实检验。此外,如果在使用 GPT 时提供敏感或需保密的数据,除非模型是在本地运行,否则都存在安全风险,生成的内容可能被不法分子利用。AI 可以轻松生成大量内容,这些未经验证的内容可能迅速填满甚至污染互联网,使我们越来越难找到正确、有价值的内容。

很多时候其实机构也是在用与不用之间反复横跳

此外还有很多场景是 GPT 生成内容没有办法胜任的,本篇文章我就来教教你如何分辨人类和人工智能生成的文本,人工智能生成的文本都有哪些特点,以及有哪些好用的工具可以帮助我们区分 GPT 生成的文本。

人肉观察大法:GPT 生成文本的规律

最直观也可能是效率最高的鉴别方法是依靠我们自己的「感觉」。如果经常使用 GPT,大多数人在面对特定文本时,能够凭感觉判断出它是否像是 GPT 生成的。

这种能力源于你的大脑在潜意识中已经通过大量接触 GPT 生成的文本,以及生活中阅读的人类创作的文本,总结出了一些规律和差异。虽然你可能无法直接明确这些规律和差异是什么,但当面对特定文本时,你的大脑能够激活这些潜在的规律,帮助你做出判断。

人类创作的文本 VS GPT 生成的文本

如果你尚未总结出相应规律,无法辨别 GPT 生成的文本,以下是我提供的几个 GPT 生成文本较常出现的特点:

  • 过分流畅和结构化:如果没有特别指定,GPT 生成的文本通常会遵循一些常见结构,例如先概述后列举,并且喜欢使用列表形式。此外,GPT 生成的内容一般较为流畅,几乎不含语法错误和错别字。相比之下,人类撰写的文本结构通常不那么规范,每个段落变化较大。并且不会像教科书一样,内容严谨、完全无错别字,所有副词、介词都正确使用,也不会包含较为现代的写法,如 Emoji、颜文字或网络流行语。
  • 不太会用抽象形容:即使在文学创作的 Prompt 下,除非有明确要求或运用了 Prompt 优化,GPT 在生成内容时大多不会倾向于使用抽象形容,如成语、歇后语、比喻、隐喻、缩略语和流行语等。其内容通常较为直白了。
  • 重复和冗余:通常在 GPT 生成较长内容时,你会发现文中某些部分虽然用词不同,但意思相近,甚至字数和结构也类似。这是因为在被要求生成长内容时,GPT 开始运用其擅长的联想能力,不同的车轱辘话。而对人类来说,即使被要求扩写内容时,通常会选择用不同的内容进行扩展,而非重复相似内容。
  • 缺乏个人感情和特色:上述几点共同导致 GPT 生成的文本整体感觉较为缺乏情感,并且缺少独特特色,更倾向于书面语表达方式(例如典型的 AI 辨别语句「令人忍俊不禁」)。在非创意类文本生成中,这一点不太明显,因为此类文本即使由人类创作,有时也需求此类风格(如本指南)。
  • 缺乏与其它内容的结合:当文章不仅包含文字,还有图片或视频时,人类创作的文本经常会使用代词进行指代(例如「如图 X 所示」「就像视频中展示的那样」等)。然而,由于 GPT 目前尚不能生成图文混排或文本与其他类型内容的混合,所以除非经过人工修改,GPT 生成的内容中很难出现对其他内容的指代。
比较经典的 GPT 生成内容

有趣的是,不经常使用 GPT 或接触 GPT 生成内容的人,往往倾向于认为那些看似完美、流畅的文本是人类创作的,而非 GPT 生成。相反,GPT 的重度用户则会对具有上述四个特点的文本产生更多怀疑。这可能也间接证明了 GPT 生成的文本确实具有「人类味道」。

GPT 文本检测工具

使用个人经验和感觉来辨别 GPT 文本的确效率较高,且有时比其他方法更准确。但由于每个人的经验和感觉各不相同,且无法量化,这种方法并不可靠。因此,我们需要借助更专业的工具来鉴别 AI 生成的内容。

随着 GPT 使用的普及,对于识别 GPT 生成内容的需求也在增加。因此,越来越多基于不同原理、适用于不同场景的 AI 文本鉴别工具相继出现。但大多数工具都难以实现「准确识别文本中 GPT 生成的部分」这一要求,它们要么采用较为传统的检测方法,要么不支持英文以外的其他语言,等等。

即使 OpenAI 之前也开发了一个 AI-Text-Classifier 来帮助用户检测 AI 生成的内容,但由于检测准确率过低,最终停止了该服务。这表明,即使是 OpenAI 也难以完美实现 AI 内容检测工具。经过尝试众多相关应用服务后,我推荐两款较为可靠的工具。

不过,用来测试的文字是我自己写的,单纯模仿了 GPT 的语气。

CopyLeaks

CopyLeaks 算是比较出名的 GPT 生成内容检测工具了,特点是是免费直接打开就能用,速度也很快,识别准确率是我体验的几十款应用服务下来最高的,而且对中文的支持也很不错。

CopyLeaks 检测测试

Smodin

Smodin 是另一款试用下来检测准确率比较高,对中文支持也比较好的 AI 内容检测工具,也是可以免费直接使用,还能够提供文本中每一段是 AI 生成的概率,准确度还可以。

检测工具的限制

尽管 AI 生成内容的检测是一个受欢迎且必要的需求,但由于 GPT 最擅长模仿人类创作的文本,因此市面上所有的 AI 内容检测应用服务即使做得最好的 CopyLeaks,其识别准确率也远未达到 90%。此外,这些应用和服务通常只能检测未经修改的 GPT 生成内容。对于人工创作与 GPT 生成的混合内容,或者是经过人为修改的 GPT 生成内容,这些应用服务的识别率会大幅下降。

在我的测试中,完全由我自己创作的内容被工具判断为 100% AI 生成的情况并不罕见。目前这些检测方法都具有时效性,随着 GPT 迭代速度极快,未来生成的内容将更加真实,更难以辨别。即使是现在的 GPT,只要加入一个文本润色的角色扮演提示,就基本能应对所有的检测应用和服务。而且还有用途相反的应用服务,专门将 GPT 生成的内容改得更加「人类」,几乎无法被人类和程序分辨。

总结

当我们希望避免接收到 GPT 生成的文本时,学会识别它们变得尤为重要。由于现有技术尚不能准确识别 AI 生成的内容,且 GPT 的不断进化为生成更不像 AI 的内容提供了更多方法,因此,识别 AI 内容的任务更多地落在了我们人类自身强大的大脑理解能力和经验总结能力上。本章的核心是如何在充分利用这些工具的同时,保持我们作为人类的核心价值和原则。这不仅是一场技术革新的竞赛,更是对人类智慧、伦理和责任感的深刻考验。明智且负责任地使用 AI,将成为对人类的新道德要求。

同时,学习识别 AI 生成的文本和内容,不仅是一种技能,更是一种新时代的文化素养。这要求我们不断更新知识,提高辨识力,确保在信息泛滥的时代中保持清醒。我们必须学会在接受技术帮助的同时,保持批判性思维和独立判断的能力。

© 本文著作权归作者所有,并授权少数派独家使用,未经少数派许可,不得转载使用。

订阅栏目查看完整内容

已购买过,登录查看

Fairyex

Fairyex


文章来源: https://sspai.com/post/85766
如有侵权请联系:admin#unsafe.sh