每周文章分享
2023.01.16-2023.01.22
标题: WaveletKernelNet: An Interpretable Deep Neural Network for Industrial Intelligent Diagnosis
期刊: IEEE Transactions on Systems, Man, and Cybernetics: Systems, vol. 52, no. 4, pp. 2302-2312, April 2022.
作者: Tianfu Li, Zhibin Zhao, Chuang Sun, Li Cheng, Xuefeng Chen, Ruqiang Yan, and Robert X. Gao.
分享人: 河海大学——赵腾飞
壹
背景介绍
机械系统中的预测和健康管理 (PHM) 已广泛应用于实现预测性维护,传统上的PHM包括传感器信号采集、特征提取和故障分类。然而传统方法依赖于手动选择的特征,不仅耗时耗力,不适用于处理大量数据,且最终预测或分类的效率不高。近年来基于深度学习 (DL) 的方法因为具有强大的特征学习能力,从而可以有效克服传统方法的限制。虽然基于 CNN 的 DL 方法在 PHM 中取得了成功应用,但CNN 在机械故障诊断中被认为是一个黑匣子并且不可解释,这无法深入了解它们如何以及为什么可以做出最终决定。这可能不仅会挑战决策本身的可信度,还会限制 CNN 进一步改进以适应更广泛的应用。本文探讨了一种设计可解释的卷积核以提取振动信号中嵌入的与缺陷相关的影响分量的方法,其中连续小波卷积 (CWConv) 层被设计用来替换第一个卷积层,目标是帮助 CNN 发现具有特定物理意义的内核。
贰
关键技术
本文提出了一种小波驱动的CNN,称为WaveletKernelNet (WKN),它可以使CNN第一层的输出具有可解释性。标准CNN的内核库特性取决于一组随机初始化的参数(内核向量的每个元素都可以直接学习)。相反,WKN中的CWConv层将输入信号与一组完成小波变换的参数化小波字典进行卷积。缩放和平移参数是CWConv层中唯一需要从输入信号中学习的两个参数。这种方法迫使WKN的第一层集中于提取原始信号的冲击分量,使WKN的结果具有明确的物理意义,对不同的数据具有更强的鲁棒性。
该方法的创新和贡献如下:
1)WKN旨在从机械信号中提取故障特征。第一个卷积层被CWConv层取代。这相当于对内核的波形添加了一些约束。因此,可以从高维数据中提取具有明确物理意义的本质语义信息。
2)所设计的CWConv层可以通过内积匹配的方法提取机械信号的特征。这使得在第一层获得的特征映射是可解释的。
3) 所提出的CWConv层是可泛化的,可以应用于任何现有的基于卷积的网络。此外,大幅度降低了第一卷积层的参数,加快了神经网络的收敛速度。
叁
算法介绍
1. CNN卷积原理
CNN由一个输入层、多个用于特征提取的隐藏层和一个输出结果的输出层组成。通常,隐藏层包含卷积(Conv)层、池化层、激活层和全连接层。在卷积层中,每个随机初始化的内核通过输入的宽度和高度进行卷积,如图1所示。
图1 CNN中标准卷积层的卷积过程
2. 连续小波变换(CWT)
CNN中的卷积运算在信号处理中可以表示为两个向量的内积,连续小波变换(CWT)同样是基于内积的一种著名信号处理方法。信号g = x(t)的CWT可以通过计算与小波基函数Ψu,s*(t)的内积来实现,可以表示为
其中Ψ*(·)表示母小波Ψ(·)的复共轭。
小波变换通过两个参数实现了对非平稳信号的多尺度分析,如图2所示,CWT的过程包含三个步骤。
1)选择一个小波基函数,然后运用上述公式计算与一部分信号的相似系数。
2) 将小波右移u,继续计算相似系数,直到计算完信号的所有部分。
3)改变小波的尺度参数s,重复步骤1)和2),直到完成所有尺度的分析。
遍历所有尺度后,将信号x(t)分解为一系列相似系数。同时,使用小波字典对信号 x(t) 进行变换,并将其投影到二维时间和尺度维度。
图2 信号CWT过程
3. 连续小波卷积层
CNN的第一层非常重要,它提取的特征图通常会影响整个模型。通常,标准CNN的第一层在输入信号和一些有限脉冲响应 (FIR) 滤波器之间执行一组时域卷积。为了使提取的特征具备物理意义,考虑卷积操作和CWT之间的关系,提出CWConv层来代替标准 CNN 的第一个卷积层。如图3所示,所提出的CWConv层由具有不同尺度参数和平移参数的小波核组成。
图3 CWConv层的卷积过程
4. 使用WaveletKernelNet进行故障诊断
所提出的机械故障诊断流程的总体流程如图4所示。振动信号由安装在机器上的传感器在运行期间获取。之后,通过滑动窗口截断原始振动信号,可以生成一组子时间序列,并将这些生成的子样本作为WKN的输入。
图4 机械故障诊断的通用流程
肆
实验结果
为了讨论 WKN 的特性并验证其有效性,对轴承故障数据集、斜齿轮故障数据集和航空发动机锥齿轮故障数据集三个数据集进行了实验。此外,还进行了对比实验,以将所提出的方法与标准 CNN 的性能进行比较。
A、轴承故障数据集
轴承故障数据集由轴承故障模拟机获取,如图5所示。试验在30205圆锥滚珠轴承上进行了六个预制故障位置,包括保持架、滚动体、外圈上缘、外圈中部、外圈下缘和内圈。加上无故障轴承,标签共有7种类型。实验采用主轴转速为1200 r/min,对每种故障类型采集2 min的振动数据,采样率为96 kHz。
图5 实验装置
在这个7类分类任务中,三种CWConv层被设计为WKN的第一层,它们分别由Mexhat小波、Morlet小波和Laplace小波组成。为了验证网络的稳定性并减少随机性的影响,实验取20次实验结果的平均值作为最终结果,实验结果如表1和图6所示。
表1 轴承数据集分类结果
图6 轴承数据集上的训练损失
从表1可以看出,这三种类型的WKNs都能获得比标准CNN和SinCNN更高的分类精度,而拉普拉斯小波网络的平均准确率比CNN提高了10%以上。可以得出,拉普拉斯小波网络可以实现相对较小的训练损耗和更少的训练时间。然而SinCNN的分类精度最低,收敛速度最慢。
B、斜齿轮故障数据集
斜齿轮故障模拟试验台采集斜齿轮故障数据集,如图5所示。实验主要检测齿面磨损(TSW)和齿根裂纹。其中TSW包含两种故障模式,齿根裂纹包含四种故障模式,加上正常状态,共有7种故障模式,实验结果如表2和图7所示。
表2 斜齿轮数据集的分类结果
图7 斜齿轮数据集上的训练损失
从结果可得,三种WKNs的平均分类准确率都高于传统CNN和SinCNN,而拉普拉斯小波网络的平均准确率比CNN提高了14%以上。此外,与三种WKNs和CNN相比,SinCNN收敛到稳定损失需要更多的训练时间。
C、航空发动机锥齿轮故障数据集
实验装置采集了四种故障模式的数据,研究了转速从500 rpm增加到3900 rpm的三种不同工况。实验结果如表3所示。
表3 航空发动机斜齿故障数据集分类结果
从结果可得,在每种工况下,设计的WKNs都优于传统的CNN和SinCNN。但在第一种工况下,拉普拉斯小波网络的性能远远优于其他两种WKNs,这说明尽管由转速引起的振动冲击比其他两种工况要弱,但拉普拉斯小波网络对信号振动分量的匹配更好。
D、模型可解释性
本文从CWConv层及其波形特征图的可视化和内积匹配两个方面说明了WKN的可解释性。通过与标准CNN的参数和训练时间的比较,分析了WKN的收敛速度。
为了清楚地解释CWConv层,讨论了三种层(即CWConv层、传统Conv层和正弦函数核)的特征映射之间的差异。此外,还说明了训练前和训练后的波形差异,提取的特征图及其核波形分别如图8所示。
图8 传统CNN、WKN和SinCNN的特征图 (a)拉普拉斯小波层特征图 (b) MorletWavelet层特征图 (c) MexhatWavelet层的特征图 (d)传统Conv层特征图 e)正弦函数层特征图
从图8可以看出,CNN的特征图上显示的冲击分量非常模糊不清晰。三个WKN和SinCNN的特征图上显示的主要冲击分量的位置非常清楚。然而,在MorletWaveletNet、MexhatWaveletNet和SinCNN的特征图中显示了许多噪声成分,这些噪声影响了信号的进一步识别。相反,拉普拉斯小波网络的特征图能量非常集中,直接向我们展示了输入信号的五个主要影响分量。
从实验结果可以总结,LapalceWaveletNet在这三个实验中表现最好,而SinCNN表现最差。这可以从内积匹配的角度来解释。轴承和齿轮振动信号的主要故障特征是周期性脉冲。拉普拉斯小波是一种单边衰减小波,主要用于提取冲击信号的特征。因此,所设计的拉普拉斯小波网能够很好地匹配信号的冲击分量,从而使WKN的第一层提取出信息量更大的高维特征。然而,正弦函数主要用于提取平稳周期信号的特征,这使得SinCNN不能很好地匹配信号的冲击分量。
E、超参数和收敛速度
在传统的卷积层中,要学习的参数个数是核的个数F与核的长度L的乘积,即F×L。然而,CWConv层只需要F × 2个参数(一个缩放参数和一个转换参数足以设计每个内核)。因此,与传统卷积层相比,CWConv层学习到的参数减少,CNN与WKN的体系结构参数对比如表4所示。
表4 CNN和WKN的架构比较
在讨论神经网络的收敛速度时,通常指的是网络达到相同精度所需的迭代次数。从前面三个实验的结果可知,WKN可以在较短的训练时间内快速收敛到相对较小的训练损失,这说明WKN具有较快的收敛速度。
伍
总结
本文提出了一个连续小波卷积(CWConv)层来替换标准CNN的第一个卷积层,以提供一种发现具有特定物理意义的内核的解决方案。所提出的WKN结构在机器故障诊断中的应用证明了其有效性。本文的结论总结如下:1)使用具有物理意义的小波卷积层作为CNN的第一层提高了模型的可解释性;2) 实验结果表明,WKNs的准确率比标准CNN高出10%以上,这表明CWConv层可以提高DL模型的性能;3)可解释性讨论结果表明,CWConv层是可解释的,并且比标准Conv层具有更少的参数,这使得WKNs收敛到稳定状态,训练次数更少。
-END-
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇