每周文章分享
2023.08.14-2023.08.20
标题:Interpretable Neural Network via Algorithm Unrolling for Mechanical Fault Diagnosis
期刊:IEEE Transactions on Instrumentation and Measurement, vol. 71, pp. 1-11, 2022.
作者:Botao An, Shibin Wang, Member, Zhibin Zhao, Fuhua Qin, Ruqiang Yan, Xuefeng Chen
分享人:河海大学——赵腾飞
01
研究背景
机械设备的预测和健康管理(PHM)在现代工业中已变得越来越重要,因为故障可能会造成严重的损坏并导致大量计划外的维护成本。随着人工神经网络(ANN)等智能算法在图像和信号处理方面带来的突破,为PHM提供了显著的性能提升。尽管精度很高,但传统的人工神经网络在可解释性方面仍然不透明,使其难以应用于需要高可信度的情况。例如,关键机械设备的故障诊断(如航空发动机,精密仪器等)。换句话说,可解释神经网络的研究对于提供更可信的故障诊断结果至关重要。
02
关键技术
本文提出了一种可解释的神经网络,以提供高性能和可信的机械故障诊断结果。所提出的网络主要是通过展开用于稀疏编码模型的嵌套迭代软阈值算法(NISTA)生成的,它被命名为NISTA-Net。因此,NISTA-Net的网络架构具有明确的理论基础,用户知道它是如何设计的。此外,为NISTA-Net提出了一种可视化方法,以检查网络是否学习了有意义的特征。这种方法可以帮助用户更好地理解NISTA-Net是如何进行分类的。透明度/可解释性这两方面使得NISTA-Net在应用于机械故障诊断时更加可信。
该方法的创新和贡献如下:
1)根据振动信号的数据分布特点,专门设计了多层卷积稀疏编码(ML-CSC)模型。该模型是机制驱动的,可以从检测到的信号中提取表征故障类型的特征。
2)通过展开ML-CSC模型的求解算法,提出了一种名为嵌套迭代软阈值算法(NISTA-Net)的新型网络用于故障诊断。此外,还提出了一种可视化方法来检查NISTA-Net是否学习了有意义的特征。
3)详细分析了NISTA-Net的内部和因果可解释性,使其对用户更可信。在设计NISTA-Net的成功经验的基础上,总结设计了可解释故障诊断网络的系统方法。
03
算法介绍
首先建立ML-CSC模型,从振动信号中提取故障特征。然后推导出模型的求解算法。通过展开求解算法并进行一些适当的改进来获得NISTA-Net。最后,详细分析了NISTA-Net的事先(ad hoc)和事后(post hoc)可解释性,以确保其可信度。
(1)多层卷积稀疏编码
当轴承或齿轮等机械设备中的旋转部件发生局部故障时,振动信号中会产生伪周期脉冲。对于不同的缺陷,脉冲的周期和波形可以不同。传统的故障诊断方法,如基于稀疏编码的故障诊断方法,通常是从含噪振动信号中提取故障特征(脉冲),并根据特征判断故障类型。
ML-CSC模型优化目标:
其中D(i,L)=DiDi+1 … DL,λi为平衡参数。由上式可知γˆL可以表示编码后的故障特征。因此,只要ML-CSC模型求解出来,就可以根据γˆL进行故障诊断。
值得注意的是,ML-CSC模型是事先可解释的,因为它是事先为检测到的噪声振动信号的故障特征提取而设计的。事先可解释建模的流程如图1第一步所示。
图 1. 设计可解释的故障诊断网络的系统方法
图1的建模方法可由以下步骤表示。第一步:针对特定问题进行临时建模。第二步:推导求解算法并确定基本迭代单元。第三步:展开算法并进行适当的调整以生成新的网络。第四步:对训练后的网络进行事后分析。通过前三个步骤,可以构建一个具有可解释架构的网络。通过最后一步,可以证明故障诊断结果的可信度。
(2)嵌套迭代软阈值算法
下面推导了ML-CSC模型的求解算法。为简化推导过程,以一个三层卷积稀疏编码(CSC)模型为例进行优化,可以简洁的写为
在这里,f(·)和g3(·)可表示为
受经典求解算法 ISTA的启发,(5)可以通过广义的近端梯度算法进行优化,即近端梯度映射。梯度映射公式为:
三层CSC模型的一系列嵌套优化步骤,可以为表示为:
其中Softt(x)=sign(x)max(|x|−t,0)是众所周知的软阈值函数,t是阈值,x是输入值。至此,得到了三层CSC模型的求解算法,如上式所示。对于一般的ML-CSC模型,参考上式可以得到NISTA,其总结如算法1所示。
从算法中可知,算法1主要由两个嵌套循环组成。外循环是关于迭代次数,内循环是关于编码层数。算法中存在迭代公式,可以将其重新表示为基本迭代单元,如图1第二步所示。
(3)算法展开
将检测到的信号y输入算法1即可得到特征码γ^L。然而,需要预先确定Di、λi和μi等关键参数。如果人为确定参数,则费时费力。为了解决上述问题,我们以两个尺度(层和迭代)展开算法1以生成展开的网络,如图1的第三步所示。全局最大池化(MP)层、全连接(FC)层,在展开的网络后面添加一个softmax层,则可以得到NISTA-Net的最终形式来进行故障分类。与大多数网络一样,NISTA-Net中的所有参数(包括Di、λi和μi)都是可学习的,并且可以端到端更新。
在NISTA-Net中,放弃了额外的估计,这种策略被称为直接连接。直连改进前后网络架构的变化如图2所示。直连策略的有效性将在后续的实验中得到证明。
图2 直连策略前后的架构差异
噪声过滤:值得注意的是,振动信号比图像包含更多的噪声。因此,需要采取额外措施来解决该问题。在NISTA-Net中,在输出后面添加了一个全局池化层来滤除噪声。为此有两种选择:全局平均池化(AP)和全局最大池化(MP)。最后,NISTA-Net采用全局最大池化层进行下采样,其性能优于全局平均池化。
激活函数:在大多数情况下,整流线性单元(ReLU)被用作网络中的激活函数,在ML-ISTA中也是如此。然而,在对振动信号进行处理时,发现振动信号是对称分布的,可以很好地用拉普拉斯分布拟合,如图3(a)所示。在NISTA-Net 中使用Soft 作为激活函数,而不是ReLU。Soft相对于ReLU的优越性也将在后面的实验中得到证明。Soft和ReLU的形式如图3(b)所示。
图3 (a) XJTU-SY 振动数据集分布和拉普拉斯分布 (b) 软阈值函数和 ReLU 的形式
(4)事后(post hoc)可解释性分析
NISTA-Net是ad hoc可解释的,因为网络架构主要源自ML-CSC模型的求解算法,如图1的前三个步骤所示。从NISTA-Net的架构来看,我们还可以得出γ3是故障分类的关键代码。为了验证代码γ3是否可以表示输入信号y中的故障特征,这里我们提出了一种特征可视化方法。这种post hoc可解释性分析方法使NISTA-Net的诊断结果更加可信,因为它可以帮助用户确定NISTA-Net是否提取了有意义的特征作为分类的参考。分析方法的过程如图1的第四步所示。
04
实验结果分析
为了准确验证NISTA-Net的性能,在本节中,生成了一个包含不同类型故障特征的模拟振动数据集。然后将在该数据集上验证NISTA-Net的分类和特征提取性能。在仿真中,生成了五种故障特征:三种表示轴承故障,两种表示齿轮故障。模拟的无噪声样本如图4(a)-(e)所示,提取的特征如图4(f)-(o)所示。
图4 模拟的无噪声特征和提取的特征;(a)~(e)模拟了五类断层特征;(f)–(j) ML-ISTA 提取的特征;(k)–(o) NISTA-Net 提取的特征
A. 实验研究
1)XJTU-SY数据集:西安交通大学和长兴苏永科技公司(XJTU-SY)轴承数据集由XJTU-SY设计科学与基础构件研究所提供。它包含15组三种工况下的轴承振动数据。XJTUSY 轴承数据集信息如表1所示。
表1 XJTU-SY轴承数据集信息
2)SQI数据集:还在实验室进行了齿轮故障实验,并收集了一个新的数据集,称为SQI数据集。Spectra Quest Inc.(SQI) 动力传动系统动力学模拟器的行星轴齿轮箱上安装了四种类型的故障行星齿轮,包括破损、尖端碎裂、根部裂纹和磨损,如图7所示。
图7 生成 SQI 齿轮数据集的测试装置。(a) SQI 传动系统动力学模拟器。(b) 四种故障行星齿轮。(c) 传输系统示意图。
3)故障分类:为了展示NISTA-Net中三个改进的有效性,我们首先在两个数据集上进行了一系列故障分类实验。然后为了让结论更有说服力,通过补充额外的实验总结了一个完整的消融研究,如图8(a)所示。
图8 ML-ISTA和NISTA-Net在XJTU-SY数据集和SQI数据集上的训练过程。(a)通过批量归一化和降低学习率改进了 ML-ISTA 的训练过程。(b)通过直连改进NISTA-Net的训练过程。(c) ML-ISTA 和 (d) NISTA-Net 中卷积字典的平均奇异值变化。
4)全局最大池化:实验过程中,分别使用全局平均池化和全局最大的对NISTA-Net的故障分类性能对比,结果如图9所示。
图9 NISTA-Net与全局MP和全局AP的训练过程。(a) XJTU-SY 数据集上的分类性能。(b) SQI 数据集上的分类性能。
5)软阈值:别使用软阈值函数和ReLU作为激活函数的 NISTA-Net 的分类性能在之前的改进(直接连接和全局MP)的基础上进行了比较。结果如图 10 所示,表明在XJTU-SY数据集上,与ReLU相比,在基于振动信号的分类任务中,使用软阈值函数可以显着提高性能。在图10(b)中,虽然它们的最终性能很接近,但软阈值函数仍然可以产生更快的收敛速度。
图10 NISTA-Net使用不同激活函数的训练过程:软阈值函数和ReLU。(a) XJTU-SY数据集上的分类性能。(b) SQI数据集上的分类性能。
B、噪声干扰实验与分析:
如果具有高分类精度的网络可以从噪声信号中提取故障特征,那么它应该对噪声干扰具有鲁棒性。实验结果如图 13 所示。从图中我们发现,在 XJTU-SY 数据集和 SQI 数据集上,即使噪声干扰变强(σ 变大),NISTA-Net 在三种噪声干扰。三个网络的噪声干扰实验进一步证明了所提出的 NISTA-Net 在振动数据集上具有更好的故障特征提取能力。
图10 在XJTU-SY数据集和SQI数据集上进行噪声干扰测试。(a)和(b)高斯噪声干扰。(c)和(d)拉普拉斯噪声干扰。(e)和(f)超拉普拉斯噪声干扰。
05
总结
本文提出了一种用于机械故障诊断的新型神经网络 NISTA-Net。由于NISTA-Net的ad hoc和post hoc可解释性,用户可以很好地了解网络是如何设计的以及它如何进行分类,从而使NISTA-Net对于机械故障诊断更加可信。此外,开发了故障诊断模拟来定量验证NISTA-Net的特征提取性能。结果表明,NISTA-Net 可以恢复接近地面真实特征的不同故障特征。还进行了齿轮和轴承的故障诊断实验,进一步验证了NISTA-Net的性能。结果表明,NISTA-Net可以提取有关故障轴承和齿轮的故障特征。因此,与其他先进网络相比,它实现了最佳的故障诊断精度和鲁棒性。
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇