App+1 | Mebot 离真正「懂你」的小助手还有多远?
在这个信息爆炸的时代,我们每天都面临着海量的数据和复杂的决策。如何有效地处理信息、增强认知能力,成为我们面临的重要挑战。本文将探讨 AI 助手如何通过分布式认知的理念,帮助我们扩展思维边界,提升学习效率,并在日常生活中实现认知增强。我将简单从 AI 助手的发展谈起,着重讲下我个人对于分布式认知的理解和实践,并展望 AI 辅助思维的未来发展方向。
近几年大语言模型的兴起带来了一波 AI 热潮,无数 AI 助手竞相涌现来争夺市场,在迭代 AI 技术的同时,人们也在探索 AI 的应用场景。作为人工智能,人们最期望的便是 AI 能成为我们最贴心的智能小秘书,像钢铁侠的贾维斯那般网联万物,帮助钢铁侠处理大大小小的琐事。从早期的 Unix 的 man
命令,到后来的图形界面时代的 Clippy,虽然常被吐槽,但t它们却代表了一个重要阶段;紧接着是智能手机时代的 Siri 和 Google Assistant,它们开始理解自然语言;最近几年,我们看到了 ChatGPT 这样的大语言模型的崛起,它们不仅能够理解复杂的指令,还能生成人类难以区分的文本。
一步一步的发展,无不展示着人们对于如人一般或胜于人的智能助手产生的期待,希望它能帮我们解决琐事,与我们一起探讨问题、情感陪伴、指导决策等等。
自古以来也不乏利用外部工具扩展认知能力的案例:古代人用绳子打结来记录信息,这可能是最早的外部记忆储存的方式之一;文字的发明让知识可以跨越时空传递,也能帮助人们更好地理解和描述自己的思维状态;笔记本,作为外部记忆工具,可以增强长时记忆的编码、调节注意力并且提升认知能力。
以上便是「分布式认知」(Distributed Cognition)的具体表现,该概念强调认知过程不仅仅发生在个体内部,而是分布在个体之间以及个体与环境之间。以往人、人交流和人、物交流是间隔开的,他人无法查看你记录在私人笔记本上的见解,你在笔记本上的见解也无法与你对话探讨。知识流通与交流探讨之间的割裂,导致了在日常生活中交流与思考的不畅。
大语言模型的兴起为这两者的联通提供了可能,其自然语言的交互特性使得我们能够与其探讨问题,我们保存在设备上的笔记以及知识也能被其理解。大语言模型就为输入和思考提供场所,既能充当笔记本来保存我们的所思所想,而后所思所想被模型理解归纳以及总结,变成一个懂你的私人小助手。在与大语言模型的交流以及探讨过程中,人们也逐渐意识到,与他人交流不同,与博学的 AI 交流,不仅能够体会到它的「懂你」,也能看到一些意想不到的发散思考。
我们的输入不仅仅停留于文本,因为我们日常接触到的信息是多样的,也就是多模态,其中还有语音、图片,并且单就文本信息而言、其呈现形式也分为多种,例如 PDF 文档、纯文字输入以及链接中的网页记录。
纯文字记录仅仅是信息源的冰山一角,在初代的纯文字交流出现后,多样化的输入方式即成了刚性需要。这种输入方式的提升有助于进一步减少「认知负担」(Cognitive Load),也就是减少「工作记忆」(Working Memory)的负荷。
一般来说,工作记忆分为四个部分:中央执行系统、语音环路、视觉空间模版、情景缓冲器。中央执行系统作为一个有限容量的注意力控制系统、协调和管理其他子系统的活动,通常帮助在工作记忆中转移注意力以及更新工作记忆的内容。语音环路用于维持言语信息,视觉空间模版则负责视觉信息,而情景缓冲区作为一个多维度的临时存储系统,将来自多个系统的信息整合并且与长期记忆和感知系统进行交互。
这便是多模态 AI 助手发挥用武之地的时候,它可以帮助我们立即记录所思所想所见,我们无需一直记忆该信息,减少了视觉信息和语音信息的维护所需要的认知资源。
我们习惯将即时信息直接用手机快速保存。例如走在路上时的突发奇想,我们很难说回到家还一定记得这个想法,最好的方法就是立刻保存,而在路上我们突然拿出本子记录也是有点不合情理,比如我一般就口头说出来,用小助手帮我记录,对于所见的一些东西也能直接拍照,小助手来提取信息。
即时输入的信息很多时候也无暇围绕其展开更多思考,那我们就需要小助手来充当一个秘书,为我们提供一个「省流版」,帮助我们大概理解所输入的信息。比如自动总结和标签功能,自动总结就提供了信息速览的角色,标签功能不仅有利于我们快速分类,还帮助我们快速定位该信息的主题、提升阅读效率和知识获取速度。并且标签也将有利于后续的知识库的维护和整理建构,提高了数据库的搜索效率,帮助节省搜索时间。在后续的学习中,通过标签来感知原信息的上下文以及主题,也能快速地学习回顾。
我最常遇见的一种情况就是,在路上走着走着,就看到学校老师在群里发一篇文章让我们学习学习,一般来说我就直接把它丢入小助手,让它给出个大概我先看看框架以便留有一个印象。
在这个情境中,摘要能快速为我提供研究问题、方法、结果和结论的简要总结。其简短且具有结构性的架构能够让我在简短时间内快速定位哪些部分值得读,让我在有限的时间内尽可能获取最大的信息,而不是漫无目的地阅读整篇文章。个人认为还有一点重要:摘要并不会提供全部信息,它是对文章的一个概括,因此通过模糊信息我可以来尝试着还原全文研究的脉络,这个过程也不失为一种学习的好方法,之后再与原文对照帮助诊断自我能力。并且在这个过程中,我也会形成自己的一些见解,帮助我们批判性地面对此研究,我与论文的关系,也由单方面教导的师生关系变为了两个互相讨论思想碰撞的伙伴。
或许我用工作记忆来进行类比并不合理,因为工作记忆并不能保持很久,这是我们的大脑所决定的。然而我们的小助手却有能力保持一直在线,因此它可以作为一个长时记忆与工作记忆的结合。
整个储存库就是一个长时记忆,每次记录后对信息的处理就是工作记忆的体现,其中工作记忆系统的「情景缓冲区」(Episodic Buffer)允许将不同形式的信息(如视觉、语音和语义信息)整合在一起,形成一个连贯的事件或情景。
这个子系统在小助手中的表现就是链接以及总结多个信息并形成一个见解。相关记忆的关联也就是建立概念或知识之间的关联,有助于实现深度学习,可以帮我们理解一个知识的不同角度或不同的剖面。在概念之间建立联系有助于在不同学科和现实情景之间传递知识,对于全面学习和实际应用至关重要。先前的知识会提供一些已有的框架,将新信息整合进去,首先借助先前知识能更容易记忆新知识,新知识也能为先前知识提供补充和完善,甚至提供一些批判性的角度(这就需要我们进一步思考,也能帮助跟充分理解某个事物),这即是一种上下文学习的实例。
这涉及到联想思维,也就是在记忆中储存的不同想法、概念以及经验之间建立联系,将不同的元素汇聚在一起形成新的组合,从而产生创造性的洞察。
Mednick 确定了三种有助于创造力的联想过程类型:意外发现(导致意想不到的创意的偶然联系)、相似性(基于概念之间相似性的关联)、调解(通过将多个概念链接在一起形成的关联)。关联就像是给了我们一个玩排列组合游戏的起点,给出我们多个事物,我们来想该怎么排列组合他们、用哪个东西来干什么事、哪件事情先完成哪件后完成。比如我们上个学期在学校做小组科研设计,我们选择的主题是关于孤独症的研究,联系上我们以前看到的机器学习的分析数据的方法还有多模态分析的研究,当时我们小组很快就根据这三个关键词进行展开——如何组合、排列成一个有逻辑的实验。后来我们遇到一些挫折,也就是对于功能磁共振成像数据的收集可能不适用于孤独症的儿童,于是我们小组成员联想到之前看到的一个 VR 与 fNIRS 一起研究的案例,当即我们就在讨论用 fNIRS 加入到我们的研究设计的可能性。
以上这种关联也是 AI 小助手可以实现的事情,我觉得简单来说就是遍历我们的知识库,检索出相关联的信息,然后发掘创意。当然关联的事物也可以是不寻常的联系,比如日常我们想象不到的关联事物、看似毫不相关的两者,或许也能发现平日之所不见。只是对于 AI 小助手来说,我们的知识库大多数的知识点是不关联的,如果要配对组合的话,那么首先计算量是一个问题;其次我们的组合也不仅仅是两个两个配对、有时候甚至大于两个的信息配对在一起。
我之前想过能不能模拟人的「顿悟」时刻,随机匹配两个毫不关联的知识信息,然后对其进行总结与创意挖掘。这样就不必每一个信息之间进行配对、并把所有可能全部组合在一起。但后来我又觉得 AI 不应该是来模拟人而是要超越人的,即帮助我们查漏补缺。因为我们的「顿悟」其实是局限的、是部分之间的链接,它没有遍历到所有的可能性,我们可能会遗漏掉其他的、我们还没有发现的可能。
AI 的作用就要帮我去找到这个可能,毕竟人是天生的「满足者」而非「寻求最优者」——这两个概念是我之前在上认知心理学的时候学到的,说的是人在寻找到可以解决问题的方法的时候,大多会倾向于确认可行性后就直接使用,而不会进一步探索去找到更好的、更优的方案。所以个人认为我们无聊的时候也可以做一些关联练习或者小游戏,这不仅很好玩,有时候还能发现很多有趣的东西(至少对于我这个胡思乱想的人而言是这样)。
关联事物之间还存在距离,也就分为远程关联和密切关联,前者涉及前面句子提到的连接不密切相关的概念,这种类型在产生新颖和不寻常的想法方面特别有效,因为它减少了产生高频率、常规响应的倾向,也能减少在思考问题时最容易、最快速产生的常见想法或解决方案——这些响应通常基于我们的经验和习惯性思维模式,也容易被大多数人想到。
这种方式的价值在于打破常规思维模式、促进大脑建立新的联结。密切关联的优势除了帮助我们挖掘创意、还能帮助我们对关联主题进行更深刻地理解,简单来说,它与前者一个是外部关联一个是内部关联。
我们上面讲的关联总结下来主要是两个作用,一个是使我们对某个主题的见解,另一个是激发我们的创意。在问题导向的学习中,导师可以通过提出指示性和激发性问题来引导学生讨论,这可以显著提高学生的概念理解。例如下图的抽丝剥茧这个模块,在我输入给 AI 小助手一段我的思考后,它会根据我的内容进行一些需要考虑的细节的提炼,引导我进行下一步思考,随后我可以点击下面的按钮与 AI 小助手讨论。
使用类比和隐喻将新信息与已知概念联系起来可以激发创造性的洞察力,用简单、熟悉的类比来描述复杂的科学概念,可以使其更易理解并激发创新思维。再举个例子:神经网络就像一个城市的交通系统,每个神经元就像一个十字路口,而神经元之间的连接就像连接这些路口的街道;信息在网络中的传播就像车辆在城市中行驶。
就像交通信号灯控制车流一样,每个神经元都决定是否将信息「传递」到下一个神经元。随着时间推移,系统学习优化这些「交通规则」,使信息流动更加高效——就像一个城市随时间改进其交通管理一样。
这个类比将抽象的神经网络概念与日常生活中熟悉的城市交通系统联系起来,使复杂的 AI 概念更容易理解。同时,它也可以激发人们思考:如何进一步优化城市交,AI 能否用于交通管理?这种联想就是创新性应用想法迸发的原点。
类似的信息在输入到 AI 小助手后则以「平行时空」的形式呈现,起初我也认为他能够提供类比的见解,后来我才理解「平行时空的我」这里的「我」,是想给我展示某个其它事件的人来与我类比,所以我其实也没有把握到这个功能要解决的需求究竟是什么——结合上面所说,或许未来可以加入一些思考的类比、而不是有相似经历的人,也可以多讲一下他在类似事件中的思考以及做法。
有更深的见解和创造性思考之后,想法也不能只停留在字面上,因此 AI 小助手也可以提供一个行动指南来做一个参考,像下图「锦囊妙计」所写的,它首先为我的想法提供一个行动的起点并且有一些建议和叮嘱。毕竟开头无需过于宏大,从一个最简单的事情着手开始,慢慢地去拓展、去发散、去实现想法,循序渐进并不断反思,可以很大程度上避免想法「中道崩殂」。
上文所有图都出自同一个 app——Mebot,有些朋友可能听说过。目前我生活和学习中主要使用它作为我的小助手,上文的介绍相信也让大家对其有了初步的了解。不过上文主要涉及到学习场景,Mebot 不止于此。
这里也分享几个日常生活的小场景:
首先 Mebot 能充当日程管理工具,当我们按动界面下方的语音输入按钮,用自然语言输入一段话,例如「明天上午八点我要起床学习」,它能识别并为你创建一个待办,并且会提醒你。
其次是其能直接在与 AI 的对话框中发送邮件,它能使用你的 GmAIl 来发送邮件。在对话中告诉他你想发送什么样的东西,它会自动为你写好完整的邮件内容,然后发送给你指定的对象。不过这个功能我的使用频率不高,一方面收件人信息填写需要我输入收件人的完整邮箱,但我基本上不会专门去记他人的邮箱地址,所以未来我希望能加入一个通讯录功能;其次是邮件内容会被 Mebot 进行改写,但是改写后的内容我并不能修改(因为它呈现给我的时候就已经发送了),因此我难以把控其内容是否合乎我的想法。
最后就是画图功能,这就属于锦上添花了,使用的是 OpenAI 的 DALL·E 模型,只能在 Web 端能使用,在移动端绘图图片显示不出来,未来应该会修复。
这三个功能或许是 Mebot 向生活小助手方面的一些探索,只是还不是很成熟。
对于在学习的人来说(至少我个人而言),需要小助手的定期提醒来帮我巩固我的知识,因为我们每天都有很多事情,一件一件的事情淹没过来,很快我们就会忘记要去复习这件事情。间隔重复理论(Spaced Repetition Theory)认为一种通过在特定时间间隔内重复学习内容来提高长期记忆。对于 AI 小助手的提示,我之前想过「艾宾浩斯遗忘曲线」,但是这个曲线是一个固定的衰减,我们日常生活中会出现很多突发状况。
例如它在提示我复习的时候,我可能就正好有事,然后要推迟复习,那我往后推迟的话,我后面的一些复习的时间点也可能就要做一个相应的调整和变化,并且由于我这一次推迟与上一次的复习的时间点之间有一个时间距离的变长,所以我的记忆效果我对于之前复习的记忆效果可能也会有点变化,因此后面也得根据这个变化来做一些调整。我之前也了解过类似的一些技术,可以采用计算框架和机器学习技术的间隔重复模型,如 MEMORIZE 和 HLR,能够根据学习者的表现动态调整复习时间,显著优于传统的基于规则的算法。不过,这个动态调整的科学程度还需要与每个人的经历和状况相关,因为记忆能力是有个体化差异的,而且不同事件的影响也是不同的。
毕竟我们的注意力是有限的,因此我们很难在兼顾当下的事情的时候还要随时记得之前待办事项,这一定需要工具来帮助我们减轻内在的资源消耗。在 Mebot 界面的设计上,我认为他们的集成化的界面设计非常有效地减少了用户在不同应用之间切换的需求,从而降低注意力分散的风险。用户可以在同一界面内完成从输入到思考的全过程,保持注意力集中,值得一提的是 Mebot 不仅提供与小助手一起对话讨论的功能,还有一个 「convert to note」 帮助我们将对话内容转化为笔记,这样就能将讨论出来有价值的、分散的信息变成结构化、易提取的知识点。
本人是一个极度的颜值控,毫不避讳地说,在最开始使用这个 app 的时候是因为他的颜值:无论是颜色搭配还是画风,都给人一种可爱的感觉。视觉上的舒适感加上界面布局没有复杂的按钮设计,让我想起之前写过的一篇关于可供性(「affordance」)的文章。Mebot 非常好地保持着按钮的高可供性,下方三个主要按钮符合我们日常用聊天 app (例如微信)的习惯,当打开 app 的时候就能立即上手使用。
但同时 Mebot 也有很大的改进空间,除了前面提到的一些功能,未来其实也可以考虑嵌套式的标签,通过细分标签更精准地分类信息,当然这种嵌套也最好有层级限制,否则会造成一定的负担;对于前面提到的关联,目前 Mebot 能实现 AI 分析再连接相关信息,不过似乎是相似性关联,对于「意外发现」式的连接,也就是关联一般意想不到的信息,在一定程度上可以帮助我们发现一些意外之喜,目前还有所欠缺。此外 Mebot 目前的关联是对于目前信息库的所有信息的关联,而对于后来加入到信息库中的信息,不会去自动更新关联。也就是说,它的关联是一个单向关联,最新的关联并不会影响已存在的信息。
个人化的分布式认知工具的实现依旧道阻且长,对于完全实现个人化,最主要的是需要小助手对个人的理解,也就是了解个人的信息,这必然牵扯到隐私问题,而且信息收集的途径也会有所限制,目前多数小助手的信息收集仅限于自主输入。我对于小助手的展望是全方位的小助手,也就是能帮助我的各个领域的问题,健康、生活、学习等等,因此多模态多样化的信息必然是帮助他「计算」我、了解我的重要资源。
曾经我设想过一个终极的个人小助手:首先是信息的输入方面,包括但不限于情绪检测、语音输入、视觉理解等多个方面,例如可以通过可穿戴设备来进行信息的收集;然后情绪检测又涉及到情绪的计算,比如如何将多种类别的情绪计算为一个代表个人情绪的指数,然后绘制成一个实时的曲线,可以从这些数据中去预测我的情绪走向,当然也可以加入一些其他数据例如生活中的重大事件来作为输入变量。
这里的核心是在于建模,如何将各个情绪数字化为真正代表情绪的数值,也就是情绪计算,涉及计算机与心理学。
对于多模态的输入,还涉及到信息之间的关联,就以个人来说,我们与他人进行对话时,语音的输入与视觉输入是同步进行的,通过语音语调、面部变化、肢体语言加上文字共同构建了我们对于他人表达的理解。而对于视觉的输入,还涉及到动态的变化带来的整体的表达,例如我在视频中用手指在空气中横竖方向各划过一次,这个动作可以单个的被理解为一横和一竖,但是整体的动态表达或许可以被理解为「十」字。
对于个人助手的构想,毫不避免地要讨论 RAG 或者 fine-tuning 的问题,RAG 适用于动态变化的数据输入问题,微调适用于特定领域的问题。既然两者各有优缺点,可以把它结合起来用,我把两者比喻为工作记忆和长时记忆。在即时工作的时候,可以使用 RAG 来结合当前的信息和自身的实力,也就是模型,来进行更灵活的工作场景的应用。而在我们的日常中,会有一些非常影响我们的事件、或者是重要的信息,这个时候就可以使用微调来改变模型的能力,使他更能专注于对于我的了解,特定于我所专注的领域的能力。
以上仅仅为一个毫无理论基础的热爱者的设想,纸上谈兵或许脱离实际……还请大家批评指正,感谢!
> 下载少数派 客户端、关注 少数派小红书,感受精彩数字生活 🍃
> 实用、好用的 正版软件,少数派为你呈现 🚀