最近研究表明,语音识别系统或语音助手可能受到恶意语音命令的操纵,这些命令可以通过各种媒介进行注入,例如超声波、激光和电磁干扰(EMI, Electromagnetic Interference)。当智能设备使用无线充电时,其麦克风组件会受到严重的磁干扰,这是因为设备缺乏对低频(100 kHz或以下)EMI的有效保护。利用这个漏洞,本研究设计了两种新型的语音注入攻击:心丝虫攻击(Heartworm Attack)和寄生虫攻击(Parasite Attack)。通过使用恶意修改的无线充电器或增加恶意附件(称为Parasite),攻击者可以向正在进行无线充电的智能设备注入听不见的恶意命令。研究人员对17种手机设备(包括iPhone、华为、三星等)和6种语音助手(如Siri、Google STT、Bixby等)进行了实验,评估结果证实了这两种攻击的可行性。
随着语音识别领域的进步,语音助手已成为智能设备(如智能手机或可穿戴设备)中流行的人机交互方式。例如,Apple Siri和Google Now允许用户通过语音进行电话呼叫和启动应用程序;Alexa甚至允许用户通过Amazon Echo来控制他们的所有智能家居。随着语音助手的普及,内置麦克风(作为智能设备的必备组件)成为恶意语音攻击的新目标。在某些攻击中,人类无法理解和察觉的语音命令可以控制目标设备。
已知的语音命令攻击可以通过不同类型的听不见的媒介发起,例如电磁干扰。作为应对电磁干扰的重要对策,业界为当今的麦克风配备了法拉第笼和电磁干扰滤波器,尤其是针对在800-900 MHz范围的3G/4G信号。然而,由于磁场对电磁屏蔽的免疫力,某些情况下仍然可以穿透法拉第外壳。
无线充电技术可以在不接触设备的情况下向智能设备提供电量,因此它已成为许多智能设备的主要供电方式,尤其是可穿戴设备(如Apple Watch或AirPods)。下图展示了一些典型的公共无线充电站,这些免费的无线充电器广泛分布于公共场所,每天有数亿人从中受益。然而,这些公共无线充电器正在成为潜在的安全漏洞。本研究基于无线充电器探索了一类新型的语音攻击方法,它能够产生调制好的磁干扰,并将语音命令注入麦克风,就像真实环境中的声音一样。
由于基本的通信问题,即麦克风和充电器之间存在大约80 kHz的频率间隙,因此在麦克风上实现磁感应声音(MIS,Magnetic-Inductive Sound)是非常具有挑战性的。具体而言,麦克风只能录制低于22 kHz的声音,更高频率的声音将被完全滤除,而无线充电器产生的磁场频率在100至200 kHz之间。为了解决这个问题,本文提出了两种攻击方法:Heartworm攻击和Parasite攻击,如下图所示:
• Heartworm攻击:假设攻击者可以将名为Heartworm的恶意软件安装到无线充电器中。被恶意修改的充电器可以通过MIS触发受害设备执行预期的命令,如上图 (a) 所示。这种攻击利用麦克风中放大器的非线性特性,将MIS从充电频率下变频为可听频谱。
• Parasite攻击:假设攻击者将名为Parasite的小型恶意附件连接到公共无线充电器上,如上图 (b) 所示。作为近场通信(NFC)卡,Parasite使用接收(RX)线圈从主机充电器"窃取"电源,并通过其中一个发射(TX)线圈直接产生语音频率的磁场,在麦克风上进一步产生MIS。
这两种攻击方法各有利弊。首先,Heartworm攻击需要事先入侵无线充电器,而Parasite攻击可以在恶意附件部署后随时启动。其次,商用无线充电器通常不配备无线通信模块(如Wi-Fi和蓝牙)。因此,Heartworm攻击只能使用预先存储的语音命令进行离线操作。相比之下,Parasite攻击允许攻击者通过恶意附件的4G/5G功能实时注入恶意语音命令。
如上图所示,发射器(充电站)和接收器(智能设备)通过两个线圈相互电感耦合,形成一个具有特定耦合系数的变压器。该变压器由TX线圈和逆变器组成,用于将直流低压(5至20伏)电源转换为50至100伏的交流高压。
此类攻击的核心思想是不针对麦克风振膜,而是通过受控磁场直接在麦克风的板载电路中产生磁感应的声学信号。通过可行性分析和验证实验来回答三个关键问题:
1)设备在无线充电时,麦克风是否会受到磁干扰?
2)泄漏的磁场是否会绕过当前的EMI保护措施?
3)麦克风的哪一部分受到干扰?
在电子工程领域,电磁干扰(EMI)是指电子设备在电磁场中可能发生的一种现象。无线充电器产生的磁场会在附近设备的电路中感应涡流,从而产生磁干扰。为了应对这种潜在的危害,现有的智能设备通常使用铁氧体屏蔽来保护主板免受电磁干扰的影响。下图 (a) 显示了iPhone 13和Apple Watch 6背面的X射线成像图。RX线圈位于设备主体的后部中心。RX线圈和主板之间插入了圆形铁氧体屏蔽罩,以保护内部电路。然而,铁氧体屏蔽罩仅覆盖RX线圈正后方的区域,那里的磁场最强。屏蔽罩覆盖范围之外的其他区域仍然会受到来自无线充电器TX线圈的磁干扰。
为了量化磁干扰,使用 Ansys Maxwell仿真软件对两个设备的整个主板进行了磁场分布的计算。 在仿真中手动对内部电路和主要组件进行了建模,包括带有铁氧体片的RX线圈。根据毕-萨-拉定律(Biot-Savart-Laplace law)计算了距离发射线圈中心r处的磁场强度B(r),公式如下:
其中,µ0是真空磁导率,I是充电电流,C是电流在线圈中的流动路径,dl是沿路径的矢量。采用了Qi标准中指定的推荐充电设置,这是市场上使用最广泛的无线电力传输(WPT)协议。具体来说,将充电频率设置为100 kHz,功率设置为15瓦。充电器使用了内径为20毫米、外径为40毫米的A2 TX线圈。接收器使用了直径为28毫米、外径为47毫米的Qi Example 4 RX线圈。磁屏蔽层采用了由锰锌铁氧体制成的,厚度为1毫米。TX和RX线圈之间的间隔为1厘米。
前图 (b) 显示了计算结果的分布。铁氧体屏蔽后面的磁场强度大部分降至零。然而,对于其余区域来说,尤其是麦克风所在的边缘区域,完全暴露在强磁场中。这种现象是由铁氧体屏蔽的工作原理所引起的,即铁氧体材料不能削弱磁场,而是将磁场线从它们分散到附近的区域。结果就是,屏蔽之外的区域的磁场强度实际上得到了增强,铁氧体屏蔽无法保护麦克风免受磁干扰的影响。手机行业在追求更快充电速度方面相当激进,一直在提高充电功率。目前市场上已经有50瓦甚至80瓦的充电器,这进一步加剧了对麦克风等其他组件的磁干扰问题。
麦克风是一种能够将声波转换为电信号的器件。市场上存在两种类型的麦克风,即驻极体电容式麦克风(ECM,Electret Condenser Microphone)和微机电系统麦克风(MEMS,Micro Electro Mechanical System)。由于尺寸小和低功耗,MEMS麦克风在智能设备中占据主导地位。因此,本研究主要关注MEMS麦克风,MEMS和ECM的工作原理相似。上图展示了数字MEMS麦克风的板载结构,而下图显示了数字MEMS麦克风的内部结构,它由声换能器和ASIC芯片两个主要组件组成。
当声波出现时,气压会引起振膜的机械振动,进而导致连接的电容器发生电容变化。通过这种方式,气压被转换为模拟声信号以供进一步处理。然后,声学信号经过ASIC芯片的放大、滤波和数字化处理。最后,声音信号被传输到其他组件,如微控制单元(MCU,Microcontroller Unit)。业界已经采取了以下措施来保护麦克风免受电磁干扰的影响:
1)法拉第笼:整个麦克风组件由法拉第笼保护,以免受电磁信号的干扰,只保留一个小孔用于接收空气中的声波。法拉第笼由连续覆盖的导电材料(如铜)构成。由于集肤效应,外部电磁信号无法进入笼子,大部分电荷以热能形式耗散。法拉第笼只能衰减波长短于趋肤深度的电磁信号。从数学上讲,法拉第笼充当低通滤波器以移出高于频率 f 的 EM 信号:
其中,δ表示趋肤深度,ρ表示导体的电阻率,μ表示导体的磁导率。MEMS麦克风的法拉第笼由铜制成(即µ = 1.256 × 10^−7 H/m和ρ= 1.68 × 10^−8 Ω·m),其深度约为2.06微米。代入这些值到公式中,可以发现f ≥ 1 GHz。因此,目前的法拉第笼只能屏蔽1 GHz或更高频率的常见无线通信引起的EMI,例如FM收音机、蓝牙、WiFi、蜂窝网络和GPS。除非采用比当前厚度大100倍的法拉第笼,否则无法抵御无线充电器引起的100 kHz的磁干扰。
2)EMI滤波器:如前图所示,模拟声音信号在放大前经过EMI滤波器预处理。 该滤波器旨在消除潜在的 EMI。下图展示了 EMIF02-MIC03F2 滤波器的工作频谱。该滤波器由意法半导体(STMicroelectronics)制造,在MEMS麦克风市场占主导地位。可以看出,这些电磁干扰滤波器专注于屏蔽100米或以上的电磁干扰。滤波器主要旨在抑制 800 至 900 MHz 和 1800 至 1900 MHz 的 GSM 通信(例如 TDMA 噪声)的 EMI,这远高于无线充电的工作频率。
综上所述,两种现有的EMI对策都很好地保护了麦克风免受100MHz以上的干扰。但是,它们无法消除低频的磁干扰。
上述理论分析验证了在真实麦克风上使用充电线圈产生清晰的磁感应声音(MIS)的可行性。实验装置如下图所示,使用矢量信号发生器生成低于20 kHz的语音信号。语音信号随后由功率放大器放大至15瓦。放大后的语音信号通过谐振回路,并由标准A2 TX线圈广播。麦克风和线圈之间的距离约为3厘米。
首先,使用信号发生器与TX线圈一起发射了一段"开启飞行模式"的语音片段。同时,使用iPhone 8录制了这段视频。此外,还直接通过扬声器播放信号,并使用录制的版本作为对比样本。如下图所示,两个录音的频谱图表现出与原始语音相似的模式。
在MIS中,较高频率(例如>5 kHz)的分量相对于较低频率的分量衰减更多。实际上,在语音感知系统中忽略了5 kHz以上频率的能量,因为人类语音主要集中在较低的频率上。本实验充分证明了MIS在麦克风处的可行性。其次,使用外部MEMS麦克风(即Knowles TDA1308)记录带有或不带有换能器的线性调频信号,如下图所示。这些信号分别由扬声器和TX线圈播放,频率从100 Hz线性增加到22 kHz。下图 (a) 和 (b) 显示了扬声器播放声音(SPS)和MIS与换能器的结果。两种方法都能在频谱图中生成线性调频信号。然后,强行从麦克风上取下换能器。在下图中,(c) 和 (d) 显示了没有换能器的结果。因此,在频谱图中没有观察到任何SPS,但MIS仍然存在。
该实验充分证明MIS完全不是由声振动产生的,而应仅由换能器捕获。 最后,使用几个独立的组件组装的外部麦克风来模拟 MEMS 麦克风。麦克风由Knowles SPV1840LR5H-B换能器(C1)、内部集成低通滤波器的MAX9812放大器(C2)和板载ADC(C3)组成。 这三个组件通过两条线(W1 和 W2)连接,如下所示:
实验中重复使用 TX 线圈播放线性调频信号, 每一次 C1、C2、W1 和 W2 中的一个都会受到磁干扰,而其他的仍然被铁氧体片包裹着。 下图 (a) 显示了当所有东西都被铁氧体片包裹时的基线,并且没有记录到信号。下图 (b) - (e) 显示了当 C1、W1、C2 或 W2 依次受到干扰时,总能检测到 MIS。 这表明磁干扰会影响所有电路,而不是特定组件或电线。即使是一小段电线仍然可以捕获MIS,但是要确保干扰仅在ADC之前起作用,因为注入的语音是模拟信号,无法被后续数字组件识别。因此,应将麦克风作为一个整体来考虑以防磁干扰。
初步的实验充分验证了由充电TX线圈引起的MIS的存在。基于这些结果,研究者实现了MIS语音注入攻击。 本节介绍了通用的攻击模型和两种攻击方法。
攻击者的目标是将恶意语音命令注入移动设备上配备的语音助手,例如Apple Siri、谷歌助手和三星Bixby。像Alex这样的智能音箱不考虑,因为它们通常由电线供电。通过这些命令,攻击者可以执行未经身份验证的操作,例如访问恶意网站以发起后续的路过式下载攻击,向攻击对象的朋友和家人拨打欺诈电话,注入虚假信息,如即时消息、电子邮件、帖子,甚至日历事件,或打开飞行模式以拒绝所有传入连接。
• 攻击能力:假设攻击者没有直接访问权限或无法将恶意软件注入目标设备。这些设备的设置无法更改。然而,攻击者可以完全了解所有目标智能设备的特征。他能够识别受害设备型号和制造商型号,这可以在双方交换WPT数据的握手阶段被窃听。激活命令(如“Hey Siri”)可能带有语音指纹。假设攻击者可以通过部署在无线充电器附近的隐藏式麦克风或其他类似的侧信道来窃听攻击对象。窃听的语音中可能包含激活指令,可直接申请激活;或者攻击者可以使用AI驱动的语音合成技术,用窃听的语音伪造语音指纹激活命令。
• 攻击条件:假设攻击者可以修改无线充电器的固件或将附近的恶意附件连接到无线充电器。当攻击对象正在使用公共或私人无线充电器进行无线充电时,攻击就会发起。 充电器可能部署在咖啡馆、街道、公园或安装在汽车中。 攻击者的目标之一是在不被发现的情况下攻击目标设备。通过磁场产生的语音命令显然是人类听不见的。 第一个命令被启动,将音量调低到用户无法清楚听到语音助手反馈的程度,假设目标设备距离无线充电器几厘米。大多数语音助手被允许被唤醒并执行许多安全敏感的任务(例如,拨打电话、阅读消息或打开蓝牙),即使他们的屏幕被锁定也是如此,这是因为语音助手系统的最终目标是在智能手机放置较远且默认锁定时解放用户的双手,并通过语音完成主要任务。语音注入不可避免地会引入了一些高斯噪声。 假设语音助手配备了去噪算法,可以很好地处理由背景、内部电路或注入攻击引入的高斯噪声。
在基准实验中,已经充分验证了在麦克风上生成MIS的可行性。然而,通过无线充电器发起无声的语音攻击仍然具有挑战性,因为充电器和麦克风之间的工作频率存在差距。麦克风的灵敏度频谱目标在20 Hz到22 kHz之间,超出这个频谱范围的理想信号应该被过滤掉。因此,在放大器之后采用抗混叠滤波器(AA-滤波器)可以去除100∼200 kHz之间的MIS。为了解决这个问题,基于侵入性的假设提出了两种攻击方法,即Heartworm攻击和Parasite攻击。具体来说,Heartworm攻击利用麦克风内部放大器的非线性特性对MIS进行下变频。而Parasite攻击则利用恶意附加设备在高频下收集电量,在语音频段产生MIS。
Heartworm攻击是通过事先在公共无线充电器中植入heartworm恶意软件来实施的。Heartworm攻击可以控制MCU,并利用符合Qi标准(即市场上无线充电的实际标准)的现有硬件组件来注入语音命令。Qi标准中规定的充电流程如下:
上图是一个无线充电器的原理图,它包含五个主要部件:电源、逆变器、谐振槽、TX线圈和MCU。 充电器接受 12 伏直流电 (DC) 作为输入。 逆变器可以将直流电转换成某些频率的交流电 (AC) 信号。 在内部,逆变器包含四个功率场效应晶体管 (FET) 开关,用 S1∼S4 表示,这些开关可以由MCU开启或关闭。MCU控制逆变器以在两种状态之间切换:
• 正极:当 S1 和 S4 打开但 S2 和 S3 关闭时,电流(以红色突出显示)从底部到顶部穿过线圈,导致 TX 线圈周围产生向上的磁场。
• 负极:当 S2 和 S3 打开,S1 和 S4也打开时,电流(以蓝色突出显示)从上到下穿过线圈,导致 TX 线圈周围产生向下的磁场。
如上图所示,当 MCU 控制逆变器以基频 f 周期性地在两种状态之间切换时,就会产生方波。 谐振回路充当选频网络,只允许基频或基频附近的波通过。 方波可以分解为无限组谐波正弦波,即sin(2π·f t)、sin(2π·2f t)、sin(2π·3f t)、···。 因此,只有频率为 f 的正弦波,即 sin(2πft),才能成功通过谐振回路到达 TX 线圈,并触发频率为 f 的交变磁场。
语音信号是充满细粒度幅度的模拟信号,然而MCU只能通过四个开关的打开或关闭来产生具有两个幅度电平(正电平或负电平)的数字信号。为了解决这个问题,采用了脉宽调制 (PWM,Pulse-Width Modulation),它可以用数字方式模拟任何模拟信号。 作为一种基于幅度的调制方案,PWM 生成可变宽度的脉冲来表示模拟信号的幅度。 PWM 是一种用于控制模拟电路的强大技术,其调制的实现如上图所示。
PWM已用于许多应用,从通信到电源控制和转换。 例如,市场上最常见的SWBTC无线充电器的MCU允许将占空比调整在10%至50%之间。模拟语音信号通过使用一系列不同宽度的脉冲进行模拟。假设真实语音信号为Sv(t),仿真语音信号为S'v(t),载波信号为Sc(t),它们之间的关系可以表达如下:
其中 PWM 代表调制方案。为简单起见,可以将充电器视为一个无线发射器,它可以将MCU产生的信号调制到一个载波上。 实际上,充电器可以使用这种方式与被充电设备交换数据。
假设麦克风接收到频率为 f1 和 f2 的两个正弦信号的组合,形式化如下:
麦克风内的放大器预计与Sin成线性比例,但已知会表现出非线性:
Sout(t) 是放大器的输出信号,A 是输入信号的增益,B 是二次项的增益。可以看出,上述信号在f1、f2、2f1、2f2、f1+f2和f1−f2处有频率分量。在数字化和录音之前,麦克风应用低通滤波器 (LPF) 去除高于其截止频率 24 kHz 的频率成分。从这个角度来看,当 f1 = 110 kHz 和 f2 = 100 kHz 时,f1, f2, 2f1, f2, f1 + f2 都大于 24 kHz,因此除了 f1 − f2 = 10 kHz 之外全部被去除。 因此,剩下的变成:
可以将放大器加上 LPF 视为一个降频转换器,它将两个较高频率的信号 f1 和 f2 的组合下变频为 f1 − f2 的较低频率。 接下来,将使用此下变频器将高充电频率下拉至语音频段。 在充电器端,使用 PWM 传输以下信号:
其中 1 表示直流分量。 在麦克风端,上述信号经过“下变频”后,得到最终录制的信号如下:
B 是常数,仅影响语音音量。 这种方式成功缩小了充电器和麦克风之间的频率差距。
为了验证非线性效应,使用 PWM 和 TX 线圈传输从 100 ∼ 122 kHz 扫描的线性调频信号。 同时,使用之前组装好的麦克风来捕捉 MIS。下图 (a) 显示麦克风可以成功捕获下变频的线性调频信号,即使它被调制到 100 kHz 的载波上。 然后用飞线将放大器短路,重复实验。 结果如下图 (b) 所示,不再检测到信号。 这充分说明了放大器非线性效应的存在。
下图总结了Heartworm攻击的工作流程。为了注入听不到的语音命令,Heartworm控制MCU生成PWM模拟语音命令,然后使用高级编程指令操纵GPIO引脚生成数字信号,从而驱动TX线圈产生幅度变化的磁场。因此,附近的麦克风会接收到携带语音命令的MIS。由于非线性效应,下变频器(即放大器加LPF)会自动将MIS下变频为可听的语音命令。最后,语音可控系统执行命令。通过将命令调制到磁场上,语音命令可以在不触发任何机械振动的情况下注入到麦克风中,所以无法被检测或听到。
本节介绍了一种非侵入式攻击方法,称为Parasite攻击。该攻击方法利用一个名为Parasite的恶意附加设备来发起攻击。Parasite是一个非常薄小的设备,类似于NFC标签,而且无需电池。攻击者将Parasite附着在充电器的顶部,并通过打印一些标志(如"免费充电"或"快速充电")来伪装成贴纸,以误导用户将Parasite标签视为真正的无线充电器的一部分。下图展示了在图书馆和地铁站中发生Parasite攻击的场景。
Parasite被部署在主机无线充电器和智能设备之间。它是一个无电池设备,体积小且不容易引人注意。下图展示了Parasite的结构。具体而言,Parasite标签由一个内部RX线圈和几个外部TX线圈组成。一旦电力传输建立起来,Parasite就会利用内部的RX线圈从底部充电器窃取电力,并利用外部的TX线圈来增强攻击效果。
RX线圈的中心是空的,没有铁氧体屏蔽,这样主机充电器产生的磁场可以以最小的衰减到达受害设备的RX线圈。多个TX线圈被部署在一个环上,以确保至少有一个TX线圈位于目标麦克风附近,即使设备的位置不确定。TX线圈与RX线圈以及主机充电器的TX线圈之间使用铁氧体片屏蔽,以避免潜在的相互干扰。
下图展示了Parasite电路的示意图。根据Qi标准的物理层指南设计了RX线圈及其相应的谐振回路,可以100 kHz下进行工作。收集的电量存储在电源管理(PM)模块中,该模块为MCU和Wi-Fi或蓝牙收发器等无线通信模块提供电力,使攻击者能够实时发起可控的无声语音攻击。关键的模块是电源转换器,即AC-DC-AC转换器。它具有两个功能:首先,它可以将交流电整流为直流电,为单片机和通信升压提供电力;其次,它将从RX线圈收集的100 kHz高频电流转换为TX线圈的1.85 kHz低频电流。因此,不需要对麦克风进行额外的下变频,因为Parasite能够直接在麦克风的工作范围内准确传输语音。
采用 Qi Example 4 线圈作为 RX 线圈,它由 66 股 0.88 mm 直径的利兹线组成。 线圈的内径和外径分别为 47 和 28 mm。 因此,在 RX 线圈的中心发现了一个 615 mm^2 的孔,这使得上述受害设备可以像往常一样吸收电力。 在攻击对象看来,Parasite附件是完全透明的。 受电力传输系统和电机控制的启发,使用 AC-DC-AC 电源转换器将 RX 线圈感应的交流电转换为直流电。 电源转换器具有三个主要组件:整流器、直流链路和逆变器。 具体来说,整流器由四个二极管组成,以提供全波整流,即将整个输入波形转换为输出端的一个恒定极性波形。
DC-link 由一个电容器组成,可以消除整流器引起的纹波并吸收 RX 线圈和 TX 线圈之间的电涌。 电涌是不可避免的,因为在 TX 线圈上调制的语音信号可能会导致输出功率强度变化。 转换器内部的逆变器用于产生新的 1.85 kHz 的交流电作为载波来调制语音信号。 应在每个 FET 开关上并联添加一个反向二极管,以保护它免受反向浪涌的影响,以防空载分散 TX 线圈处的冗余能量。
与 Heartworm攻击类似,MCU 操纵电源转换器内的逆变器以创建 PMW 仿真语音信号,该信号通过 TX 线圈进一步传播到空气中。 在此略过调制过程(与Heartworm攻击相同)并关注关键问题:如何设计 TX 线圈以最大化目标麦克风的磁场强度?
输入电流均匀分布在线圈上,因为与载波波长相比,线圈的尺寸相对较小。 因此,线圈本身可以看作是电感和电阻的组合。 在线圈两端添加一个额外的电容器以形成谐振器。 这样,发射器通常被建模为等效的 RLC 并联电路,如上图 (a) 所示。 相应地,电路的固有振荡频率由下式确定:
可以通过改变电容器的值将谐振频率调谐到任何想要的频率。 磁性发射器的效率是通过使用称为品质因数的物理参数来测量的,用 Q 表示,其定义如下:
当电流流入谐振器时,通过线圈的谐振电流将被放大输入电流的Q倍。 相应地,尽管输入功率保持不变,但与电阻负载相比,磁场强度可以增强Q倍。 在电感系统中,基频 f、半功率带宽 B 和质量 Q 之间存在权衡。 它们的关系表示如下:
上式表明谐振器的品质因数与通信带宽成反比。 考虑到可识别的人声的最窄频带在 300 Hz 和 3.4 kHz 之间,则 f = 1.85 kHz(即中心频率)和 B = 2.46 kHz。 因此,Q值可以达到的最大为0.75; 否则,声音可能无法完全传播出去。给定输入功率 P,目标麦克风处的 TX 线圈向线圈产生的磁场 H 可以建模如下:
其中 r 是线圈的半径,l 是导线半径,d 是受害麦克风和线圈之间的距离。 可以增加 P、r、l、Q 或减小 d,以在麦克风处获得更强的磁场。应该通过选择合适的参数来增强 H,由于带宽限制,Q 不能增加。l 对 H 呈对数贡献,即使 l 的显着增加也只会导致 H 的最小改善。此外,l 决定了标签的厚度,为了更好的隐藏,它应该尽可能小。 r 还受宿主充电器顶面面积的限制,因此,增强 H 的唯一方法是缩短距离 d。 换句话说,应该将Parasite标签的 TX 线圈尽可能靠近目标麦克风。
虽然知道其 RX 线圈必须与Parasite标签的 RX 重叠才能实现最高效充电,但受害设备的水平方向尚不清楚。 为了解决这个问题,在 RX 线圈周围的环上部署了多个 TX 线圈,如前图 (a) 所示。 因此,无论设备朝向哪个水平角度,总能找到一个靠近麦克风的 TX 线圈。
在多个 TX 线圈上同时发送语音命令可能会分散磁力。 因此,每次使用开关只选择一个 TX 线圈连接到电源转换器,如下图所示。如何知道应该选择哪个 TX 线圈? 当任何金属物体靠近 TX 线圈时,由于涡流效应,它会吸收一些能量,导致 TX 线圈中的电流或电压发生变化。 通过这种方式,可以确定受害设备下是哪个 TX 线圈。 Parasite轮询所有 TX 线圈以选择能够引起涡流效应的线圈作为语音攻击的最佳线圈。
在Qi标准中,无线充电器需要进行异物检测(FoD, Foreign object Detection)以确保安全充电,防止在TX和RX线圈之间放置金属物体时过度发热导致变形或损坏。Qi标准使用两种方法进行异物检测:
1)检查品质因数: 类似于之前检测麦克风位置的方法,无线充电器可以检查其谐振回路的频率或品质因数,以确定是否存在异物。Parasite标签的RX线圈经过精心调整,已与无线充电器的TX线圈对齐。因此,Parasite不会触发异物报告。
2)检查功率消耗:智能设备近似接收到的功率并将其发送到无线充电器,无线充电器计算传输功率和接收功率之间的功率损耗。如果损失超过阈值(即500 mW),则会报告异物。Parasite标签可以伪造虚假的功率报告或干扰智能设备的报告,以避免被检测到。正如评估中所展示的那样,由于商用充电器通常采用相对较高的门槛,因此绕过FoD是相对容易的。
通过无线充电开发工具包开发了Heartworm恶意软件,并对Parasite标签进行了原型设计:
1)Heartworm攻击:下图 (a) 显示了无线充电的开发套件。 该套件包括一个具有 72 MHz 时钟频率(即 fCLK)的 STC12C2052AD MCU,一个带有 JRF540N FET 开关的逆变器,以及一个来自 TKD的标准 A11 线圈。 最大输出功率为 30瓦。还使用 MCU 中的 PWM API 开发了Heartworm恶意软件。 PWM 的载波频率(即 fPWM)为 1 MHz,而占空比可在 0% 至 100% 之间变化。 使用log2(fCLK/fPWM) = 6位来控制反相器。 模拟语音命令首先以 16 kHz 的速率进行采样,然后进行 PWM 仿真。恶意命令最终由 MCU 生成。
2)Parasite攻击: 如上图 (b) 所示,使用环形 PCB 对Parasite标签进行原型制作,其中包含主要电路(例如,MCU、整流器和逆变器)。内孔容纳一个来自 TDK 的 Qi Example 4 RX 线圈,以从真正的充电器获取电力,而六个 TX 线圈则沿着 PCB 的外缘排列,以在麦克风处发射语音。 所有线圈均包含 2 mm 细利兹线。 全波整流器包括 1N400x 二极管和 TS61005 功率 FET 开关。 电源转换器(即 AC-DC-AC 转换器)是一个可重构平台,由外部低功耗 ESP32-C3 微控制器控制,内部集成了 Wi-Fi 模块。 因此,可以通过Wi-Fi远程控制Parasite标签。 采用 LM7805 稳压器进行电源管理,可以稳定整流电流并为 ESP32 供电。 类似地,模拟语音命令以 16 kHz 的速率采样。 PWM的载波频率为100kHz,10位用来控制逆变器。 Parasite标签的厚度小于 2 厘米。
在八种智能手机设备和三种智能手表上进行了两种攻击的测试。这些智能手表都是在2018年之后发布的,此时无线充电功能已普遍应用于智能设备中。测试的三款平板电脑都来自苹果iPad系列,然而iPad目前尚未提供无线充电功能。尽管如此,仍然对这些平板电脑进行测试,即它们意外地放置在无线充电器附近。最终测试了三种类型的附加麦克风,这些麦克风是开发智能可穿戴设备时最受欢迎的组件之一。将这些麦克风连接到Arduino上进行录音。在以下三个功率级别进行了测试:15、30和50瓦。
Qi标准规定了15瓦的默认功率和30瓦的最大功率,而市场上的增强型快速充电器采用50瓦功率。除非特别说明,否则充电器与受害设备之间的距离小于5厘米,发射功率设置为15瓦,默认使用iPhone 8进行测试。使用AR824声级计以dBA为单位测量环境噪声强度,它表示人耳平均感知到的空气中声音的相对响度。所有实验都在背景噪声水平为45dBA的安静实验室中进行。
上表总结了实验结果。一旦语音识别 (SP) 系统能够成功识别简短的唤醒语音命令(例如“Hey Siri”、“Hey Google”和“Hi Xiaoai”),则攻击被视为“成功”(√) 被攻击时的麦克风记录下来。有以下发现:
• 首先,在 91% 的案例中(34 次中的 31 次)成功进行了攻击,其中每台设备至少可以在一次案例中被成功攻击。 该结果是一个警告,需要考虑无线充电引起的安全漏洞。
• 其次,Parasite攻击的性能优于Heartworm攻击。Heartworm攻击和Parasite攻击所需的平均最小功率分别约为 28.2瓦和 23.2瓦。 也就是说,Heartworm攻击需要额外的 5瓦功率来注入语音。Heartworm攻击产生的磁干扰经历了两次额外的衰减,这是由于距离比Parasite攻远2 ∼ 3倍,以及麦克风放大器的非线性。
• 第三,高端智能手机采用实质有效的封装技术和EMI屏蔽材料,这在iPhone 11、12和Galaxy 21上的Heartworm攻击故障中得到了体现。即使使用50W发射功率,它们也能很好地抵御Heartworm攻击。 不幸的是,当Parasite的 TX 线圈靠近麦克风(< 1 厘米)放置时,这些设备仍然会遭受 Parasite攻击。
总的来说,无论型号、制造商和语音识别系统的类型如何,现成的商用设备在提供足够的功率时都无法抵御所提出的攻击。 特别是,发射功率在攻击中起着关键作用。 在业界,目前通过提高发射功率来追求更快的充电速度会加剧潜在的磁干扰,从而大大提高攻击成功率。 这就是更快或快速充电的潜在负面后果。 此外,受害设备是否支持无线充电也不是本攻击的前提。 相反,那些没有 WPT 功能的设备在靠近无线充电器时变得更容易受到攻击,因为它们几乎没有抗磁干扰的保护措施。
接下来,通过分析频率响应来量化注入语音的质量,即系统或设备响应刺激的输出频谱的定量测量。 在实验中,使用两种攻击方法传输从 100 Hz 到 22 kHz 的线性调频声音。下图比较了两个频率响应:
1)Parasite攻击在 100 Hz 到 7.5 kHz 的范围内实现了更高的 SNR,这恰好覆盖了人类语音频谱。 这表明Parasite标签设计合理,满足攻击要求。
2)相比之下,Heartworm攻击的响应就相对差强人意。 值得注意的是,无线充电器的 TX 线圈不是为本攻击而设计的,而是为了提供更多功率。 因此,其线圈的品质因数超过77,工作频率为100 kHz,其半功率带宽小至 100/77 ≈ 1.2 kHz。 从理论上讲,2.4 kHz 以上的频率成分的功率几乎为零。
上图显示了分别由 Heartworm攻击和Parasite攻击注入的两个录制语音的频谱图。上图 (a) 中清楚地观察到 2.4 kHz 处的截止。这表明 Heartworm攻击注入麦克风的最佳语音应小于 2.4 kHz。 然而,目前的语音识别系统通常会忽略高频成分并表现出很强的容错能力。 因此,Heartworm攻击在实践中仍然适用于基于关键字的命令。
需要评估攻击的隐蔽性,邀请了 20 名受试者,包括 10 名男性和 10 名女性,年龄在 15 到 40 岁之间。这些受试者被要求留在无线充电器附近(< 1 米),并报告在攻击过程中是否听到任何声音或噪音。结果,他们都没有听到任何声音,也没有意识到攻击已经发生。 因此,攻击或语音命令是完全无声的,但是此攻击仍能通过两个隐式侧信道被发现:
1)功率损耗:这两种攻击都会消耗无线充电器一定的电量,从而影响充电效率,使用户感觉充电时间比平时更长。 实验会在攻击或不攻击的情况下为受害智能手机充电,在每次试验中,剩余电池电量的初始百分比固定为 50%。 然后观察半小时后可以充电多少电量百分比。 令 Pw/o 和 Pw 分别表示在没有和有持续攻击的情况下增加的功率百分比,即连续播放唤醒命令。 显然,Pw/o > Pw 因为攻击会消耗额外的能量。 选择 Pw/o 作为基线,将功率损耗计算为 1−Pw/Pw/o 的比率。下图显示了两种攻击方法的功率损失。
因此,当功率损耗低于 5%,充电功率大于 15瓦时,用户不会注意到这一点。Heartworm攻击比Parasite攻击消耗更多功率,因为 PMW 仿真信号不适合 后续的谐振罐有效地将额外的能量以热量的形式消散到空气中。
2)漏磁:Parasite标签的 RX 和 TX 线圈可能会在受害设备周围引入更强的磁场,这可能会提醒用户异常磁通量。 为此,使用 HT201 高斯计来测量磁通密度(用 B 表示)作为与充电器距离的函数。 重复测量 20 次,并报告每个距离的中值。下图显示了从 0 到 10 厘米的不同距离的中值密度。 因此,当距离小于 4.9 cm 时,Parasite攻击引起的磁场密度几乎与 Heartworm攻击相似,因为充电器的 TX 线圈远大于Parasite标签的 TX 线圈,从而主导了磁场。 简而言之,在距离小于4.9厘米时,两次攻击产生的异常磁场都会淹没在充电器的磁场中。 超过这个距离,由Parasite标签引起的密度衰减到接近地磁场的极小值(即 65 µT)。
总的来说,无论是电力消耗还是漏磁,用户都很难对攻击保持警惕。
当前的无线充电技术要求充电器检测异物进行安全充电,将Parasite附件识别为为异物。 因此,测试了五款商用无线充电器的检测:三星的 Fast Charge 2.0 (C1) 、Baseus 的充电座 (C2) 、UGREEN 的充电板 (C3) 、MagSafe (C4) 和 Apple 的 MagSafe Duo (C5)。 在实验中,将Parasite标签放在充电器的顶部,并使用无线充电功率测试模块来检查是否触发了 FoD 并测量了充电功率损耗。FoD结果如下表所示,其中×表示检测失败。 因此,Parasite攻击造成的平均功耗仅占总功耗的 1.08% 左右,而且所有这些费用都未能检测到Parasite标签的存在。 这个结果表明当前的 FoD 机制非常容易绕过。
在无线充电中,智能设备在水平方向在实践中是不确定的,这可能会影响攻击性能。 在实验中,将手机以不同角度放置在 30W 充电功率下并发起两次攻击。下图显示了不同角度的识别率。Heartworm攻击下的速率在所有角度都保持高度相似,因为 TX 线圈和麦克风之间的距离与此攻击中的方向无关。相比之下,Parasite攻击下的速率在角度上波动显着,这是花瓣形 TX 设计的结果。 因此,当麦克风位于两个相邻 TX 线圈之间的空间时,即使在Parasite攻击中测得的最小速率也略大于 Heartworm攻击的速率。
通过测试短语音命令和长语音命令“开门”(3 个词,短 CMD)和“呼叫 1234567890”(11 个词,长 CMD)进一步评估充电功率的影响。命令重复十次,并报告平均速率。下图显示了五种功率设置下的识别率,其中 HW 和 PS 分别是 Heartworm攻击和Parasite攻击的缩写。结果证实,充电器功率是这两种攻击最重要的参数。 具体来说,识别率随着充电功率的提高而提高;其次,识别短指令和长指令的最小功率在Parasite攻击中为5W和10W,而在Heartworm攻击中为15W和15W。 也就是说,Heartworm攻击需要更多的功率,因为下变频和更长的距离会导致衰减。
众所周知,语音识别对背景噪音很敏感,因此建议在安静的环境中使用。 使用可控和不可控环境噪声的两种攻击来检查无声的语音命令注入。
1)可控环境:在本实验中使用扬声器播放录制的交通噪声,并通过调节扬声器音量来控制噪声强度。 下图显示了两种攻击在不同环境声压级(SPL)下的识别结果。正如所希望的那样,速率随着噪声强度的增加而线性下降。当然,结果还取决于语音识别系统对噪声的弹性有多强。当噪音低于 55 和 70 dBA 时,Heartworm和Parasite攻击的识别率分别超过 60%。
2)不可控环境:在五个现实生活环境中进行了实验:图书馆、公园、咖啡馆、地铁站和公共汽车。 识别结果如下表所示。 具体来说,Parasite攻击在公交车以外的各种场景下表现都不错,而 Heartworm攻击更适应图书馆、公园等相对安静的环境。总的来说,噪音是语音识别系统长期面临的挑战。这两种攻击或多或少都会在注入的语音中引入额外的噪声,从而导致识别率降低。
1)充电载体:Qi 标准允许充电器选择 100 - 200 kHz 之间的频率来传输功率,这可能会影响Heartworm的性能,因为语音命令由充电载体搭载。 在实验中Heartworm传输一个 1 kHz 的信号音,但使用不同频率的充电载体。 下图显示了记录的 MIS 的信噪比 (SNR) 作为载波频率的函数,观察到 130 ± 30 kHz 载波最适合攻击。 这一结果证实了之前的假设,即充电器以带宽为代价提高充电效率。 因此,Heartworm攻击应该在 100 ∼ 130 kHz 左右发射。
2)PWM 载波:PWM 载波的频率是在Parasite攻击中模拟语音命令的关键参数。 在选择载波频率时有一个权衡,即较高的频率可以更好地模拟语音信号,但会消耗很多电量。下图显示了记录的 MIS 的 SNR 作为 PWM 频率的函数。 可以看出,当载波频率高于 60 kHz比语音的最大频率(即 24 kHz)高三倍时,SNR 保持在最大值(即 ∼ 30 dB)。 但是MCU的时钟频率是1MHz,载波频率必须是时钟频率的整数分频。 因此,最佳频率为 100 kHz。
本研究成功地通过麦克风将磁感应无声命令注入智能设备。 然而,所提出的两种攻击方法在以下许多方面仍然存在局限性:
1)攻击范围短:随着距离 d的变化,磁场强度在 O(1/d^6) 处迅速降低。 因此,只有当智能手机准确地放在无线充电器上且距离小于 5 厘米时,攻击才会成功。
2)语音指纹激活:如今,iPhone或其他机型已经开始使用语音指纹激活助手,这是抵御所有无声语音攻击的有效方式。 因此,攻击者必须获得语音指纹并在实践中模仿唤醒命令。 语音克隆可以减轻这种限制,但需要通过侧信道从攻击对象那里获得简短的语音片段。
3)更高充电功率:如前所述,充电功率在攻击中起着关键作用。 为了获得更高的成功率,这两种攻击都需要最低 10、15甚至 50瓦的充电功率。
4)单向性:所有无声语音攻击都是单向的,即攻击设备(例如充电器)无法从目标设备获得任何反馈。 结果,攻击是非针对性发起的。 例如,“关闭语音助手”、“下载软件”和“转账”。 三个连续的语音命令在逻辑上连接较少。
5)额外设备:Parasite攻击必须由贴在无线充电器上的Parasite标签发起。 即使安装紧贴,由于厚度增加了 2 ∼ 3 厘米,Parasite标签仍然很可能被细心的用户发现。
6)额外保护: 一些高风险任务,尤其是财务问题(如支付、银行转账、照片访问等)需要使用密码或基于面部的身份验证进行双重验证。
7)背景噪音:攻击引入的噪音可能会影响注入语音的质量。 虽然在大多数情况下,恶意命令仍然足够清晰,可以通过语音生物识别。
受这些限制的启发,设计了以下对策来抵御潜在的磁干扰:
1)升级硬件设计:由于近年来无线充电迅速普及,磁干扰目前还没有引起足够的重视。 如前所述,过时的EMI对策(包括法拉第笼和滤波器)只能保护麦克风免受1MHz以上的干扰。 因此,最有效的对策是对新开发的智能设备进行硬件设计升级。 例如,将MEMS芯片和ASIC芯片安装在陶瓷基板上; 用聚合物箔密封麦克风; 设备外壳采用导磁率较高的材料(如保护示波器的mu-metal)。
2)全程语音指纹识别:迄今为止,语音指纹的验证仅限于“Hi,Siri!”等唤醒命令。 语音助手启动成功后,后续语音交互将跳过验证并快速响应,应该一直进行语音指纹验证。
3)异常语音检测:Heartworm和Parasite攻击都引入了一些特殊的声学特征,可用于检测攻击的存在。 例如,Heartworm和Parasite攻击注入的语音分别在 2.4 kHz 和 4 kHz 被截断,其中没有更高频率可以作为异常语音命令的典型特征。
4)异常命令:如前所述,攻击者无法从智能设备获得反馈。 他们必须连续尝试预定义的命令。 这些命令在逻辑上没有联系,可以通过分析这些命令的用途及其连接来检测恶意命令。
5)异物检测:当前的 FoD 算法无法检测到Parasite标签的存在。但可以通过各种参数开发更复杂的算法,包括功耗、磁密度等;还可以加密充电器和设备之间交换的数据。
6)禁用麦克风:设备充电时,麦克风或语音助手应自动关闭。
7)充电功率限制:建议业界适当限制充电功率,避免快充带来的负面影响。
这项工作证明了磁干扰对大多数具有音频功能的设备存在安全威胁并能被黑客操纵。本文展示了Heartworm攻击和Parasite攻击,即通过无线充电器将恶意语音命令隐蔽地注入智能设备。两种攻击都在 17 种流行的智能设备和 6 种常见的语音识别系统上进行了验证。
研究由香港理工大学的学者完成。参考链接:https://www.computer.org/csdl/proceedings-article/sp/2023/933600a503/1He7YgoihhK