每周文章分享
2022.10.17-2022.10.23
标题: A Robust Weight-Shared Capsule Network for Intelligent Machinery Fault Diagnosis
期刊: IEEE Transactions on Industrial Informatics, vol. 16, no. 10, pp. 6466-6475, Oct. 2020.
作者: Ruyi Huang, Jipu Li, Shuhua Wang, Guanghui Li, and Weihua Li.
分享人: 河海大学——王真
01
研究背景
BACKGROUND
研究背景
随着制造业进入智能时代,现代制造机器正朝着数字化和智能化的方向发展。作为现代工业机械的基本构件,旋转机械(RM)通常在恶劣环境和变化的工作条件下运行,因此这些机械经常遇到各种故障,并可能导致严重的灾难,甚至造成巨大的经济损失。因此确保RM的安全性、可靠性和高效率,对于预后和健康管理(PHM)是一个巨大的挑战。
在PHM研究中,智能故障诊断方法已引起各行各业的广泛关注。智能故障诊断方法的最终目的是自动学习各种测量值的判别特征,包括声音信号、压力、温度、电信号和振动信号,并提供精确的故障分类和预后结果。随着人工智能算法的发展,智能故障诊断技术,例如堆叠式自动编码器(SAE),深度置信网络(DBN),卷积神经网络(CNN),长短期记忆循环网络(LSTM)和胶囊网络(CN)在PHM领域取得了许多成就。
通过对RM智能方法的文献回顾,目前的智能故障诊断研究在固定工作条件下的性能相当好,并且通常要求离线训练方案与在线测试方案相同,这意味着RM需要在相同的工作条件下运行。如果工作条件发生变化,这些诊断模型往往不能很好地从一种状态推广到另一种状态,并且需要使用相应的标记数据进行重新训练,这些数据又很难收集或代价昂贵。然而,在实际的工业应用中,RM的工作条件随着长期运行而变化,并且RM的健康状况也随着关键组件的退化而下降。因此,已有方法可能不适合解决实际应用中的RM问题:
1)RM的工作条件,例如负载和速度,经常随不同操作和长期服务而变化;
2)某些极端工作条件下标记数据不足或不可用。收集足够的所有工作条件标记数据昂贵且不切实际。
为了解决这个问题,需要一种具有强大泛化性能的智能故障诊断模型来准确识别在各种工作条件下RM的健康状况。一些基于深度学习和基于迁移学习的方法目前已致力于解决这类问题。但它们仍然存在两个固有的局限性:
1)研究集中在可变的负载工作条件,这类工作条件下,容易提取故障特征并且受背景噪声的影响较小。
2)现有智能方法的性能在很大程度上取决于高级信号处理算法所提取的判别特征,例如短时傅立叶变换(STFT)和FFT,这些特征需要由专家判断。
02
关键技术
TECHNOLOGY
关键技术
本文结合了胶囊网络和CNN,首先将原始加速度计信号作为输入,构建1-D CNN模型并自动进行特征学习。接着设计了基于多层堆叠权重共享胶囊的各个胶囊层,进一步进行故障分类并提高泛化性能。最后通过边界损失函数和基于协议的动态路由算法对WSCN进行优化。本文的主要贡献总结如下:
1)提出并研究了一种WSCN,旨在提高RM在不同工况下诊断模型的泛化性能。
2)引入权重共享机制,构建新型胶囊层。与全连接胶囊网络(FCCN)相比,WSCN不仅减少了可训练参数,提高了计算效率,而且获得了更好的生成性能。
3)在实际的工业应用方面,WSCN提供了一个可行的解决方案,即诊断模型可以用在某种工作条件下收集的标记数据进行训练,并应用于在某些极端的难以收集数据的工作条件下监测RM的健康状况。
03
算法介绍
ALGORITHMS
算法介绍
1. WSCN架构
本文所设计的WSCN是胶囊网络CN的变体,架构如下图所示。
WSCN由三个关键组件组成,即1-D CNN,胶囊层和胶囊分类器。在此结构的基础上,本文使用边界损失函数和基于协议的动态路由算法来训练WSCN,以进一步优化WSCN模型。
作为WSCN中的局部特征检测器,本文选用1-D CNN代替2-D CNN,用于直接从各种一维原始信号中学习特征表示。1-D CNN可以充分利用深度学习的特征学习能力,并消除依赖于高级信号处理技术的传统智能方法的局限性。1-D CNN背后的数学原理与普通卷积层相同,通过将多个卷积池层学到的特征重塑为一个矩阵用作下一个胶囊层的输入。
在建立1-D CNN之后,引入基于多层堆叠权重共享胶囊的各个胶囊层,以提高故障诊断模型的通用性。但随着多层胶囊层的增加,深层全连接体系结构的可训练参数呈指数增长,这么深的框架的训练将十分困难,并且训练过程不仅耗时而且需要大量计算资源。受CNN与全连接网络之间差异的启发,CNN共享权重的架构意味着只需要优化更少的参数,就能够更快地收敛到最小值并避免过拟合。
全连接的胶囊网络FCCN与本文WSCN之间的关键区别在于CN的体系结构,前者是完全连接的,而后者是权重共享的。如下图b所示,WSCN共享相同的转换矩阵,以转换前一个胶囊层中所有胶囊的隐藏表示。
对于前一个胶囊层中的所有输出胶囊yiFCaps,预测向量的加权和可以写为:
假设n和C分别是两个连续胶囊层中的胶囊数。如上图所示,WSCN中可训练变换矩阵的数目为C,而FCCN的可训练变换矩阵的数目为n×C。通过这种技巧,可以大大减少可训练参数,并可以提高WSCN的泛化性能。
在最后一个胶囊层中,在基于协议的动态路由算法之后,应用L2范数来将胶囊分类器vj的输出向量长度计算为预测向量yPred = [yPred1,..., yPredc,...,yPredC],其中每个元素表示相应类别的概率。之后通过置信度阈值φ来确定分类器是否应输出标签。具有L2范数和置信度阈值的最终胶囊层定义为胶囊分类器。
2. 边界损失函数
为了使模型具有减少类内差异和扩大类间差异的能力,本文引入了边界损失函数LM来优化WSCN。不同健康状况之间的相似性通过基于欧几里得距离的边界损失函数来计算。在数学上,通过最小化边界损失这一成本函数来优化WSCN的参数:
其中Yc表示样本标签的指示,Yc = 1表示样本属于cth类,反之Yc = 0表示不属于该类。参数λ是缺少类别损失的加权惩罚因子。m-和m+分别是最终预测值yPred的上下边界,这意味着如果样本属于cth类,则yPredc不小于m+,反之yPredc不大于m-。根据参考文献,本文设置m+ = 0.9,m- = 0.1,λ = 0.25。
3. WSCN流程
WSCN的流程图如下图所示。
过程具体可以分为以下6个步骤:
步骤1:通过带有加速度计的BBM-PAK数据采集系统测量RM在各种工作条件下的时间序列振动数据。
步骤2:为验证WSCN的强大泛化性能,选择在一种工作条件(例如条件i)下收集的时间序列振动数据作为训练数据集,并选择在其他工作条件下收集的时间序列振动数据作为测试数据集。
步骤3:无需提取任何时域或频域特征,直接将训练数据集中的正常数据和故障数据分割为多个训练样本,每个样本的长度为N,重叠比为0.5。以相同方式从测试数据集中以相同的长度和重叠比获得测试样本。
步骤4:利用1-D CNN,权重共享胶囊层,基于协议的动态路由算法以及边界损失函数,构建一维CNN和胶囊层,以形成在单一条件下离线训练得到的WSCN。
步骤5:在其他工作条件下对测试样本进行测试,以证明WSCN具有强大的泛化性能。
步骤6:在在线测试阶段,使用实验数据和工程应用程序来验证WSCN的强大泛化性能。
04
实验结果
EXPERIMENTS
实验结果
1. 仿真参数
本文实验数据来自CWRU轴承数据中心提供的轴承数据集。该时间序列振动数据在四个不同负载下从测试设备中的电机轴承从动端收集。对于每种负载,有四种不同的轴承状态:正常状态(NC)、内部缺陷(IF)、外部故障(OF)和滚珠故障(RF)。对于IF,OF和RF,人为引入了三个不同级别的电动机轴承故障。所有时间序列信号均由加速度计以12 kHz的采样频率采样。
对于训练集和测试集,本文通过交叉验证将随机四个工作条件之一用作训练集,将其余工作条件用作测试集。每个工作条件的数据集包含十个健康状态,每个状态由114个样本组成,每个样本都是一个包含4096个数据点的时间序列振动信号。因此,每个数据集包含在相应工作条件下收集的十个类别的共1140个样本。
本文的对比算法为:
A(FCCN):Hinton等提出的方法的另一种形式的胶囊网络。
B(ICN):Peng等提出的一种基于具有起始块(ICN)CN的深层CNN。
C(WDCNN):在第一卷积层中使用较宽的卷积核。
D(DNN):Lei等提出的一种具有频域特征的深度神经网络(DNN)。
E(DTL):Wen等提出的一种基于SAE和MMD的DTL方法。
F(DACNN):Zhang等人提出的用于CWRU轴承数据集故障诊断的CNN。
其中方法E和F是迁移学习方法。与WSCN相比,迁移学习方法的缺点是在训练过程中既需要源域数据又需要目标域数据。相比之下,可以使用在特定工作条件(源域)下收集的标记数据来训练WSCN,这意味着即使目标域数据不可用,WSCN也可以正常工作。
2. 仿真结果
1)性能对比
这一节中选择了分类准确度和标准偏差作为评估诊断模型的标准。为了研究每种方法的鲁棒性,针对每种情况进行了10次试验,其中随机选择了四个工作条件中的一个作为训练数据集,将其他条件用作测试数据集。实验结果如下表所示,其中“ A→B”表示使用数据集A上的样本对模型进行训练,并在数据集B上进行测试。
可以注意到,在所有深度学习方法中,DNN在变化的工作条件下表现出较差的泛化性能,在12种情况下的准确度不到80%,这表明RM的不同工作条件具有不同分布,并且在一个工作条件下训练的传统智能模型只能对相应的工作条件做出诊断,不适用于另一种工作条件下的故障诊断。此外,ICN和WDCNN在某些工作条件下均取得了良好的结果,其准确性超过93.30%,但它们在其他工作条件下无法正常工作,尤其是在对数据集A进行训练并在其他条件下进行测试的情况。这意味着无法在负载和转速都有很大的变化时从一种情况到另一种情况适当地推广ICN和WDCNN。总的来看,传统智能方法的泛化性能在空载工作条件下很差。
相比之下,FCCN在某些情况下(例如“ A→D”)取得了很好的结果,这表明CN具有比其他深度学习方法更好的泛化性能。但与WSCN的性能相比,它的性能总体上仍较差。与其他深度学习方法相比,WSCN可以将诊断模型推广到多种负载(0–3 hp)和不同速度(1930–1997 rpm),并且在几乎所有交叉验证场景下效果都很好。
另一方面,在CWRU轴承数据集上,WSCN的平均准确度最高,达到了98.6%,超过了其他迁移学习方法(DTL和DACNN)的84.5%和90.8%。与FCCN,ICN,WDCNN,DNN,DTL和DACNN相比,WSCN的平均准确率为98.6%,超过其94.9%,85.3%,92.9%,75.1%,84.5%和90.8%,证明了本文方法的鲁棒性比其他方法更强大,说明了在不同的工作条件下,WSCN的泛化性能要优于对比方法。
2)特征可视化
为了更好地评估学习的深度表示,本文通过t分布随机邻居嵌入进行高维特征分布的可视化。以“ A→F”为例,本文方法和基准方法深度特征的可视化如下图所示。一方面,WSCN学习的特征具有更大的类间差异和较小的类内差异。另一方面,由WSCN学习的特征与1-D CNN所学习的特征相比,具有更大的类间差异和更小的类内变异,这表明胶囊分类器能够从先前的表示中学习广义特征。
通过以上研究结果的对比,可以得出这样的结论。首先,WSCN在不同工作条件下能够实现RM的最佳泛化性能,可以将其与在特殊工作条件下收集的样本一起训练,并用于监测其他工作条件。这是解决工作条件改变时需要使用标记数据重新训练智能故障诊断模型的问题的有效措施。其次,与FCCN相比,WSCN可以减少训练参数,提高计算效率并避免过拟合。最后,无需任何先进的时域和频域信号处理技术,1-D CNN模型就可以从原始时域数据中学习深度判别表示,从而消除对相关领域先验知识和专家的依赖。
05
总结
CONCLUSION
总结
本文将胶囊网络和1-D CNN相结合,提高了诊断模型的泛化性和鲁棒性。通过引入权重共享的思想,降低了网络的参数数量,提高了网络的优化速度。通过基于多层堆叠权重共享胶囊的各个胶囊层,进一步提高了泛化性能。此外,还通过边界损失函数和基于协议的动态路由算法对WSCN进行了优化。本文所考虑的变工况问题较为简单,在未来工作中可以考虑新的未知故障类别或复合故障,这样更符合实际应用背景。
END
扫描二维码关注我们
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇