2019年7月22-23日,由工业和信息化部指导,中国信息通信研究院主办的第三届“中国工业大数据创新竞赛”(以下简称为“竞赛”)决赛现场答辩及颁奖仪式在北京辽宁大厦落下帷幕。作为首个由政府主管部门指导的工业大数据领域的权威性全国赛事,竞赛已累计吸引产学研各界超过6000人参赛,开发出许多聚焦行业细分领域的算法模型,解决诸多传统工业领域中的“老大难”问题。此次,InfoQ 专访第三届工业大数据竞赛冠军团队胡翔,以及来自首尔大学的国际团队 tea ,深入解读在工业大数据与智能制造领域中这群开拓者的故事。
我并不是“一个人在战斗”
作为决赛中唯一的个人参赛者,当提起“以一敌百”取得冠军的荣耀时刻时,胡翔调侃道,“实际上我并不是‘一个人在战斗’。”
面对着竞赛数十只支多人队伍同场竞技,胡翔表示单人参赛既有优势又有劣势。其中,优势在于个人对比赛工作的安排更加自由灵活,同时也会更加专注,对于每一个想法都能亲自尝试与验证,这使得自己对问题的理解能更加的透彻、深入。
但是,“人多力量大”这句老话也确有道理,单人参赛相比于多人团队,需要去做更多的分析工作,也更加有压力。毕竟个人的理解能力比较单一,缺乏不同思路的碰撞,思路会更容易陷入壁垒。“但很幸运的是在因联科技,我身边的同事给了我很多帮助,他们对这个问题的理解和思路给了我很多启发,实际上我并不是‘一个人在战斗’,在这里向他们表示感谢。”
2018 年,胡翔硕士毕业于西安交通大学机械工程学院,入职于西安因联信息科技,正式成为了一名工业算法工程师。持续关注工业大数据相关信息的他,在看到第三届工业大数据竞赛报名的信息后,毅然决定“单枪匹马大练兵”。
对于“练兵”的含义,胡翔笑着说:“练兵有两层含义,一是为了锻炼自己解决工业预测性维护问题的能力。二是在工业预测性维护领域工作一年多后,以比赛这种形式去解决实际问题,对于自我业务能力的提升,是一个非常好的机会。毕竟比赛的水平是非常高的,还能认识非常多优秀的同行。”
第三届工业大数据创新竞赛冠军 胡 翔
合适的解题思路是解决问题的“灵魂”所在
工业大数据创新竞赛自 2017 年首届举办以来,每一届竞赛都为参赛者提供着基于真实工业场景的数据资源,并为工业大数据领域的相关研究人员和创业者们提供了成果转移转化的交流平台。
“实际上本次竞赛的数据,均来源于沈鼓大型高速旋转机组实际运行中的真实数据,故障案例非常宝贵,”胡翔对记者说道。据了解,胡翔的工作主要集中在振动速度和加速度数据的分析上,之前从未获取过这么大量的大机组振动位移数据进行分析,当记者询问胡翔拿到赛题与数据后的第一反映,胡翔表示“十分惊喜”。
早在 2019 大数据产业峰会,中国通信研究院就发布了首道主赛区赛题——由沈阳鼓风机集团测控技术有限公司提供的《大型旋转机组转子部件脱落故障预测》。但看到赛题后的胡翔,并未着急着手“解题”,而是先确定了一个合适的解题思路后,再进行攻克。
“我个人认为解题思路实际是解决问题的“灵魂”所在。不论是在这次的比赛中还是日常工作中,所有问题的解决都是依赖于正确的解题思路。”胡翔总结道,只有在深入理解赛题目标和数据的基础上,才能确定一个合适的解题思路,合适的解题思路会对数据分析和特征提取提供非常好的方向。
比如对于工业领域的数据挖掘比赛,很多选手一开始就确立的是纯数据的分析和挖掘,很少结合机理分析,仅仅是提取了数据各个统计特征,并且使用了多个模型对结果进行融合。虽然这也许能得到非常好的结果,但这种模型并没有“洞察力”,首先特征对于模型结果的解释力并不强,其次这种模型很难与人建立信任,最终虽然训练出一个准确率为 99% 的模型,但却难以成功在工业实际场景中落地实践。
打破专家定论——新方法解决老问题
本次竞赛赛题《大型旋转机组转子部件脱落故障预测》属于工业领域典型的异常检测和故障诊断问题。旋转类机械设备的故障诊断问题在实际的工业场景中非常常见,转子部件脱落更是一个老问题。
据了解,比赛数据提供方沈鼓负责人曾在阿尔斯通的时候就遇到过这个问题,并就该问题与欧美专家进行讨论,当时的结论是不可能通过传感器的信号预测出故障。但让人惊喜的是,在比赛中非常多优秀的选手和解决方案,用不同的方法实现转子部件脱落的故障预测,打破了当时专家的定论。其中最让在场专家评审印象深刻的要属冠军团队胡翔的解决方案。
要说胡翔的解决方案,重中之重就是在拿到赛题数据后,对原始工业数据进行了包括数据的整合和数据的可视化的预处理。由于工业数据的复杂性,数据集存在数据测点名称与测点数据不一致的问题,所以第一步他先对数据进行了标准化整理,将测点名称标准化;第二步是对振动位移数据进行可视化分析,考虑到大机组的振动采样特性,以及典型的位移振动分析方法特点,通过总采样点与转子旋转周数相除,得到了采样频率为每转 32 点(等角度采样)。
在获取采样频率后,利用 FFT 变换获取位移振动阶次谱,并观察故障样本和正常样本阶次谱的区别差异,为特征提取提供方向。竞赛中,胡翔在阶次谱中提取了 1 倍转频,2 倍转频,3 倍转频等特征,并观察这些特征在有故障机组和无故障机组中历史趋势,进而选择有效特征。同时根据转子 X 向和 Y 向位移,合成轴心轨迹,发现无故障机组的轴心轨迹在各个时段变几乎没有较大变化(如图 1),而转子部件脱落故障的机组的轴心轨迹在各个时段经历较大变化(如图 2)。
图 1 无故障机组各时段典型轴心轨迹
图 2 故障机组各时段典型轴心轨迹
此后,胡翔别出心裁地把赛题拆解为“转子部件是否脱落”与“脱落故障征兆强度识别”两个部分,并通过解决二分类问题与分类概率大小排序问题,分别解决赛题的两大难点。
其中,解决二分类问题所面临的挑战在于数据集的划分,如何选取训练数据集,对结果的影响非常之大。由于理论上转子部件脱落故障征兆在最接近故障发生时刻表现最强,最接近故障时间的数据与实际故障数据也是最相似的,所以胡翔在解题中选取了最接近故障时间的数据作为二分类的正例数据进行训练。
在分类概率大小排序问题中,最大的挑战莫过于如何筛选特征,因为特征选择关系到模型的性能结果和泛化能力。考虑到赛题目标是区分故障征兆强度,对于机械部件故障来说,越接近故障发生时刻,征兆的表现也就越强,因此特征若是与故障时间呈现较强的单调性,它能区分故障的能力也就越强,也越能区分故障处于哪个阶段。综合上述分析,选择故障数据中单调性更强的特征进行建模和预测为最佳解决方案。最终都取得了比较好的结果,胡翔的这些思路和方案在答辩中也得到了多位评委的认可和赞许。
但胡翔也表示他的算法模型还有一些不足需要改进与完善,算法模型的精度上还需要提升,以满足工业应用的更高要求。算法模型也需要考虑除“转子部件脱落故障”之外的其余故障对算法模型的影响,只有解决了这个关键问题,算法模型才有可能在工业实际中得到应用。
全球参赛选手同台竞技,各领风骚
第三届工业大数据创新竞赛已顺利落下帷幕。但值得注意的是,本届竞赛可谓是一场真正意义上的全球竞技,中国信息通信研究院作为全球工业大数据领域顶尖活动—— PHM 亚太学术论坛(www.phmap.cn)主办方之一,赛题也有全球参赛选手和国内参赛者同台 PK,而来自首尔大学的参赛团队“ tea ”更是取得了第三名的好成绩。
tea 小组是由来自首尔国立大学机械工程系的研究生 Yongjin Shin、Jongmin Park 与 Yongjin Shin 共同组成。在接受记者采访时,tea 小组的成员们谈起这段参赛经历时,感叹道:”Since we are students in the lab, we often use experimental data or refined data. However, it was a good experience to analyze and build the model by directly using the data measured in the industrial field without any filtering. (由于我们是实验室的学生,使用到的通常为实验数据或处理后的数据。直接使用工业领域中测量的未经处理的数据来分析和建模是一段很好的经历。)”
第三届工业大数据创新竞赛韩国参赛团队 tea 小组
据了解,这也是 tea 小组第一次来中国参加此类比赛。对于他们来说,本次竞赛的最大挑战在于,给定的数据集是在转子部件脱落故障之前采集的。因此,在分析数据的过程中,很难检测到故障发生的特征,并确定未故障到接近故障的顺序。而为了更清晰的判断,tea 小组在解题初期也想过使用机器学习或其他模型(实际上一些成员的主要研究方向是 PHM 领域的深度学习),但由于标签信息可能会由于上诉问题变得不清晰,tea 小组设定了自己的标准,以确定是否故障及故障的顺序。
同样,为了实现在实际工业场景中的应用,tea 小组表示,他们还需对给定目标系统(的特定故障)设置更合适的故障标准或阈值,算法模型也要从目标系统中同时获取正常和故障的数据,并设置明确标准以区分是正常还是故障,实现模型的进一步优化与改进。
近年来,在工业 4.0 的发展趋势下,韩国和中国一样,随着高附加值技术重要性的增强,过程自动化以及相关的自动故障诊断和预测系统也将变得十分重要。
写在最后
智能制造和工业互联网是密不可分的关系。正如胡翔所说,预测性维护是工业互联网应用的“皇冠上的明珠”。当然远远不止如此,大数据和智能制造给传统工业带来了巨大冲击,强大的工业数据分析服务将成为制造企业数字化战略的重要组成部分,工业互联网将显现出更大的战略价值。可以预见,工业大数据应用将带来工业企业创新和变革的新时代。