资源描述
编写说明 我国工业互联网正在从概念普及进入实践深耕的发展阶段,在这一进程中,大数据作为 一种新的资产、资源和生产要素,技术创新和应用实践日趋活跃,正成为驱动制造业智能化 变革的重要动力。 为充分激发数据要素价值, 贯彻落实 国务院关于深化 “互联网+先进制造业” 发展工业互联网的指导意见 , 中国信息通信研究院自 2017 年起在工业和信息化部指导下, 已连续举办了三届工业大数据创新竞赛,这也是首个由政府主管部门指导的工业大数据领域 的权威全国性创新竞赛。 竞赛在组织方式上充分借鉴了发达国家推动工业大数据创新应用的先进模式,开发出诸 多聚焦行业细分领域的算法模型,吸引了海内外近 6800 人参赛,同时品牌逐渐走向国际, 第三届竞赛与全球工业大数据领域顶尖活动PHM (故障预测与健康管理) 亚太学术论坛合作, 仅线上答辩直播吸引超过 5 万人观看,为工业大数据领域的相关研究人员和创业者们提供了 成果转移转化的交流平台,在产业界逐渐形成品牌影响力。 第一届竞赛后,结合获胜选手分析模型和方法发布工业大数据竞赛白皮书(风机结冰 故障分析指南)引起社会广泛关注。时隔两年,为进一步总结优秀第二届、第三届工业大 数据创新竞赛算法,中国信息通信研究院组织参赛者编写了工业大数据创新竞赛(2018- 2019)白皮书,希望将两届竞赛的经验与技术成果固化并加以推广,与业界共同推动工业 大数据发展。 工业大数据创新竞赛(2018-2019)白皮书收录了机床加工刀具寿命预测赛题的 5 种获奖解法以及转子部件脱落故障预测赛题的 7 种获奖解法,为学术研究和产业实践提供参 考。白皮书的编写过程得到大赛组委会和参赛选手的大力支持,相关参赛人员根据自己对竞 赛题目的解法,给出了详细、清晰的方法流程与结果讨论。 我国工业大数据竞赛的发展仍处于起步阶段,大赛组委会愿真诚吸取各界的反馈意见, 持续提升大赛水平,并将大赛成果以白皮书等形式定期与社会各界分享。编写单位:中国信息通信研究院工业大数据创新竞赛组委会工业互联网产业联盟指导专家:王建民 余晓晖 李 杰 侍乐媛 李清源 赵 敏 韩 庆 郭 翘 王友升 邢 镔 郭朝晖 刘 杰 吴振宇 李城梁 徐长恺 郭 翘 晋文静 胥 佳 崔必如 郑弘孟 孙可意 周映彤 谢彦守 江侊紘 林焱辉 黄亦翔 孟繁亮 赵志海 金 超 田春华 傅若玮 韩 庆 编写组成员(排名不分先后):李 铮 杨艳冉 刘 迎 孙 昕 赵 男 吴文龙 周训淼 邓惠民 王晓明 金 超 胡江雪 王旻轩 鲍亭文 王晓明 杨立宁 刘思辰 刘 锋 万 伊 程 骋 沈国锐 马贵君 蔡 鑫 曾 雄 刘重党 姚 荣 牛家禾 胡 翔 戴 俊 宋 哲 申颖君 钮鹏飞 刘正锋 景宏杰 潘彤阳 蔺思宇 刘 涛 李素洁 杨晨旺 崔晓龙 季天泽 Myungyon Kim Jongmin Park Yongjin Shin序 中国工业大数据创新竞赛自创办以来,就被寄予了厚望,很欣喜地看到它正在蓬勃发展。它作 为产业界与学术界的重要桥梁之一,对工业大数据这一跨学科领域创新人才的培养起到了重要的作 用。 在近几年中,我有幸参与大赛的筹划和评审工作,代表 IMS 中心和富士康工业互联网为大赛提 供帮助。大赛获得的关注程度以及选手们的出色表现都令人感到惊喜。如今,信通院将第二届和第 三届大赛中的优秀成果集结成为工业大数据创新竞赛白皮书 2018-2019,相信能够为从事工业 大数据应用研究的企业和学者们提供有价值的参考。 在工业互联网的发展过程中,人工智能技术与工业结合的探索得到了进一步推进,工业人工智 能的理念兴起。我对它的关键要素做出了一个总结,可以归纳为“ABCDEF”六大技术要素,来阐释 工业人工智能是由多个技术元素整合而成的一个系统工程。这六个字母分别代表 Analytics(建模分 析)、Big Data(大数据)、Cloud(云计算)、Domain Knowledge(领域知识)、Evidence(事 实依据)、Feedback(反馈闭环)。前三个技术要素同时也是 AI 技术的三个要素(数据、计算能 力和算法),但是与工业人工智能有所区别。在分析建模方面,前者以算法为核心,后者以场景和 问题为核心;在数据技术方面,前者围绕解决“4V”挑战,后者则是管理“3B”特性;在计算平台方面, 前者以云计算和集中式的运算能力为主,后者以“端”到“云”的融合架构为主。后三个要素则是带有 鲜明的工业特质的技术要素,也是人工智能与工业系统相融合的接口。在这两次的工业大数据竞赛 评审中,我非常欣慰地看到多支优胜队伍,在解决相关问题时,并没有局限于基础机器学习方法的 套用,而是非常深入地学习了相关的领域知识。还有的获胜队伍结合数据驱动的方法弥补对机理了 解的不足。这些研究工业数据问题的方法和精神,我非常赞赏。 中国未来要实现智能制造需要什么样的人才?在这两届大赛中我也有了更深的体会。我认为, 若要真正实现智能制造,中国仍需要一批工业大数据的年轻生力军,不仅拥有扎实的算法基础和学 习能力, 还能够下到工厂, 进入制造知识的内核。 用算法的能力补偿有经验的专家, 相互碰撞与融合, 只有这样才能推动智能制造高质量发展。 工业的未来属于年轻人。我非常欣慰地看到,信通院举办的工业大数据竞赛每年都有数千位参 赛选手参与竞赛,更有 90% 以上是学生。愿各位工业大数据领域的开发者、实践者,可以一直保持 对数据的好奇心,愿意冒险,愿意吃苦,发掘数据中的根本原因,为生产带去更大效益。 衷心祝愿中国工业大数据创新竞赛越办越好,成为全球产学界共同推崇的传统和品牌,为中国 智能制造产业生态源源不断地输送优秀人才。 Jay Lee (李杰),2020 年 8 月 编写说明 1 序 3 目 录 4 第一篇章 第二届工业大数据创新竞赛 7 一、第二届竞赛赛题介绍 7 二、第二届竞赛英雄榜 10 三、第二届竞赛优秀解法集刀具剩余寿命预测题目 11 (一)基于经验模态分解的非参数模式匹配刀具寿命预测方法 11 (二)基于多传感器融合的刀具寿命预测方法 31 (三)基于前馈神经网络的刀具剩余寿命预测 42 (四)基于 DTW 退化特征和 CNN+SVR 网络的刀具剩余寿命预测 53 (五)基于 DWT-LSTM 网络的刀具剩余使用寿命预测 59 目 录 第二篇章 第三届工业大数据创新竞赛 66 一、第三届竞赛赛题介绍 66 二、第三届竞赛英雄榜 69 三、第三届大赛优秀解法集 转子部件脱落故障预测 70 (一)基于 LightGBM 分类算法的转子部件脱落故障识别方法 70 (二)基于生成对抗网络的转子故障脱落研究方法 79 (三)基于多模型投票与梯级分类算法的转子部件脱落故障预测 89 (四)基于全息故障特征提取的转子部件脱落智能识别方法 99 (五)基于多模型融合的转子部件脱落故障识别方法 108 (六)基于变分模态分解与时间 - 全谱分析的旋转机械转子部件脱落故障预测 115 (七)基于多传感器信号变化分析的转子系统异常检测 137 第三篇章 工业大数据产业创新生态及平台 148 一、工业大数据产业创新生态 148 二、工业大数据产业创新平台 149 CONTENTS / 目录6 习近平总书记在中共中央政治局第二次集体学习时强调,要深入实施工业互联网创新发 展战略,系统推进工业互联网基础设施和数据资源管理体系建设,发挥数据的基础资源作用 和创新引擎作用,加快形成以创新为主要引领和支撑的数字经济。中国是制造大国,也是数 据资源大国和应用大国,预计到 2020 年,我国数据总量全球占比将达 20%,将成为数据 量最大、数据类型最丰富的国家之一。工业大数据正成为引领工业互联网创新发展的基础战 略资源和新型生产要素。 在工业和信息化部指导下,中国信息通信研究院(简称“信通院”)举办了第二届和第三 届工业大数据竞赛。大赛以“赋能与赋智,构建工业大数据应用生态”为主题,以“开放共享、 协作共赢” 为原则, 是首个由政府主管部门指导的工业大数据领域的权威的全国性创新竞赛。 竞赛在组织方式上充分借鉴了发达国家推动工业大数据创新应用的先进模式,基于制造企业 真实数据资源和需求场景,面向全社会征集优秀解决方案,在发掘专业技术人才的同时,助 力与解决制造企业实际问题。 第二届和第三届大赛分别于 2018 年 11 月和 2019 年 5 月启动,累计吸引了来自海内外 近 5000 名参赛选手,其中 80% 以上来自于高校学生,涉及计算机、自动化控制、机械工 程、统计、动力工程等多个领域。第二届竞赛设置两道赛题,分别为富士康的机床加工刀具 寿命预测,和积微物联(四川攀枝花钢铁旗下企业)的钢卷吞吐量预测。第三届竞赛与全球 工业大数据领域顶尖活动 PHM(故障预测与健康管理)亚太学术论坛合作,设置了转子部 件脱落故障预测一道赛题,仅线上答辩直播吸引超过 5 万人观看,为工业大数据领域的相关 研究人员和创业者们提供了成果转移转化的交流平台,在产业界逐渐形成品牌影响力。此外 竞赛还获得了来自于华为、北京工业大数据创新中心、昆仑数据、天泽智云、蒂森克虏伯、 ABB、PTC、美国国家仪器(NI)等国内外企业、研究机构的支持。 在第二届和第三届大赛中,由信通院组织建设的“工业大数据产业创新平台”承担了相关 赛务的组织和管理工作,提供了数据下载、竞赛结果评分、参赛交流、算法培训、算法工具 等多种支持。7 第一篇章 第二届工业大数据创新竞赛 第一篇章 第二届工业大数据创新竞赛 一、第二届竞赛赛题介绍 第二届大赛共有两道赛题,所属不同行业和建模领域的问题,具有很强的代表性。 赛题一:钢卷仓储吞吐量趋势预测 赛题问题来自成都积微物联集团股份达海产业园。该产业园是以钢材仓储、金属加工、 配送、物流金融、电子商务及总部基地多功能为一体的综合产业园。为提升园区运作效率, 提前规划库位分配和装备准备,需要对未来 4 周的吞吐量进行合理的预测。 赛题要求选手通过对达海产业园历年的历史销售、订单、仓储、吞吐量等数据(经过脱 敏处理)分析建模,并结合国家未来发展趋势、钢铁供需市场等外在因素,实现对未来一个 月内,达海产业园各品类的钢铁吞吐量的预测分析。预测任务主要有两个: 1.按照两大类货品类型(冷卷、热卷),分别预测未来4个周钢铁的周入库量和周出 库量(重量); 2.按照两大类货品类型(冷卷、热卷),分别预测未来7天的日入库量和日出库量(重 量)。 赛题为选手提供了两大类数据,包括: 仓储数据:库存数据表、入库数据表、出库数据表,数据包括业务单据号、货主、对应 产品、重量、数量、单据创建时间、单据完成时间、业务单据状态等信息。 基础数据:字段数据表,解释各个表字段的含义;储户费用表,主要提供储户费用相关 的数据。 赛题同时鼓励参赛选手从政府官方网站、互联网等渠道获取获取外部公开数据使用,包 括钢铁市场数据、大宗物资运输数据、经济发展政策、贸易新闻等。 赛题通过以下方式进行评分。比赛中会开放六次测试集,第一次开放的测试集为初赛阶 段的测试集,该阶段的分数不计入最终的成绩排名。决赛阶段开放五次测试集,最终的成绩 排名由该决赛阶段五次测试集的得分的平均值决定。针对每次测试集的评分方案如下:8 周吞吐量的预测和天吞吐量的预测均采用SMAPE作为评分准则,具体计算公式如下:其中:Ak是实际值,Pk是预测值,k是预测结果序列的索引,k=1,2,3,.,44,T 是预测结果序列的长度,T=44。M为常数, M=800。最后排行榜的得分计算方式如下:赛题二:机加工刀具剩余寿命预测 在切削加工领域,刀具的状态及其寿命是加工过程中主要关注的对象,刀具寿命(磨耗 程度)是影响加工工件质量的关键因子,刀具失效可能造成工件表面粗糙度和尺寸精度的下 降,或造成更严重的工件报废或机床受损。采取过度的保护策略又会造成刀具剩余寿命的浪 费以及不必要的换刀停机时间浪费。因此如果能够精准预测刀具的剩余寿命,将有效地优化 工作排程且降低刀具采购成本。 赛题提供了机床控制器 (PLC) 信号和外置传感器 (Sensor) 信号,包括加工过程中的工况 信息和传感器数据。数据来源为实际 CNC 加工过程中,一把全新的刀具开始进行正常加 工程序,直到刀具寿命终止时停止数据采集。并将这 9 组数据,分成 4 组训练数据 (training data) 以及 5 组测试数据 (testing data)。4 组训练数据将提供加工过程的 PLC 信号以及震动 传感器的原始信号值,同时提供当组实验数据的完整加工刀具全寿命时间,单位为时 间 (minutes)。震动传感器的原始信号值因数据量极大,仅提供每 5 分钟任取 1 分钟的片段 数据做为训练样本,并依据时间顺序 1.csv, 2.csvn.csv 提供,其中最后一个 csv 文档 即为实验结束前最终 5 分钟的撷取数据内容。在数据采样频率方面,PLC 信号采样频率为 33Hz,震动传感器采样频率 25600Hz。 11 图1-1 振动传感器安装位置及方向 位置:主轴上,靠近主轴端面处;方向:主轴振动传感器安装方向如下所示, 以下视角均为站在机床正面看过去的方向 图1-2 振动信号方向示意图 图 1-1-1 振动传感器安装位置及方向9 第一篇章 第二届工业大数据创新竞赛 位置:主轴上,靠近主轴端面处;方向:主轴振动传感器安装方向如下所示,以下视角 均为站在机床正面看过去的方向。 11 图1-1 振动传感器安装位置及方向 位置:主轴上,靠近主轴端面处;方向:主轴振动传感器安装方向如下所示, 以下视角均为站在机床正面看过去的方向 图1-2 振动信号方向示意图 图 1-1-2 振动信号方向示意图 赛题评分方法如下:以上计算公式中: 1i 是测试的第i把刀; 2Eri = 真实值(第i把刀) - 预测值(第i把刀)。当预测值 真实值时,为过晚 预测(late prediction);当预测值 真实值时,为过早预测(Early prediction); 3每个预测的分值以百分制计算。例如:当A为1时,得分为100;A为0.51时,得 分为51; 4竞赛评分系统给出选手得分分值为所有测试组得分的平均值。10 二、第二届竞赛英雄榜 本届大赛开发出诸多针对钢卷仓储吞吐量预测以及刀具剩余寿命预测的算法模型,为工 业大数据领域的相关研究人员和从业者们提供了重要参考。 以下为本届大赛优胜的参赛团队 : 赛题一:钢卷仓储吞吐量趋势预测 奖项 团队名称 一等奖 香港记者(北京大学,团队)(张弛、王润森) 二等奖 阮琳雄(树根互联,个人) Mixtures(上海优也信息科技有限公司,团队)(孟杭、涂修建) 青春二十(西安交通大学,团队)(沈智宪、乔百杰、安波涛) 三等奖 郭琦(北京国双科技有限公司深圳分公司,个人) 因斯波儿(浪潮集团,团队)(孙宁远、尹青山、王天卿) 秦金绪(浙江工商大学,个人) 浪哩个啷(浪潮集团,团队)(安程治、吴振东、段强) 赛题二:机加工刀具剩余寿命预测 奖项 团队名称 一等奖 411 小分队(中科院声学所,团队)(刘思辰、万伊、刘峰) 二等奖 mzc(华中科技大学,团队)(马贵君、蔡鑫、曾雄) 杨立宁(上海交通大学,个人) 三等奖 秋裤 ers(清华大学,团队)(刘重党、牛家禾、姚荣) 沈国锐(华中科技大学,个人)11 第一篇章 第二届工业大数据创新竞赛 三、第二届竞赛优秀解法集 刀具剩余寿命预测题目针对本次大赛刀具剩余寿命预测题目,本书共收录了 4 个团队的优秀解法。这些解法 均采用了机理分析与机器学习相结合的方法,充分体现了工业大数据建模的跨学科特点,方 法具备较强的借鉴意义。 # 方法名称 团队名称 1 基于经验模态分解的非参数模式匹配刀具寿命预测方法 杨立宁 2 基于多传感器融合的刀具寿命预测方法 411 小分队 3 基于前馈神经网络的刀具剩余寿命预测 沈国锐 4 基于 DTW 退化特征和 CNN+SVR 网络的刀具剩余寿命预测 MZC 5 基于 DWT-LSTM 网络的刀具剩余使用寿命预测 秋裤 ers (一)基于经验模态分解的非参数模式 匹配刀具寿命预测方法 1. 团队介绍 成员姓名 团队角色 职位 杨立宁 队长 硕士研究生 杨立宁,男,1994年11月12日出生,2017年本科毕业于上海交通大学机械与动力工 程学院工业工程与管理系,现就读于上海交通大学机械与动力工程学院工业工程与管理系, 研究生二年级。研究方向为高维时空数据的统计与建模,导师,李艳婷副教授。 2. 背景简介与文献调研 2.1 机床刀具状态监测技术发展趋势 21 世纪的前 10 年,伴随着国家经济的高速发展,机床工具行业持续 10 余年快速增长。 2012 年以来, 在经济新常态大背景下, 行业进入转型升级阶段。 其主要特征是需求总量下降, 需求档次提高,增长速度有所降低。随着中国制造 2025 的提出,越来越多的资金投入到我12 国机械设备的自主研发中。高端数控机床作为检验一个国家综合制造水平的指标,越来越受 到重视。目前,我国的机床需求量正逐年上升,但是我国的高端机床研制尚不成熟。大量的 高端机床需要进口,如图 1-3-1 所示,国外的机床企业占据了国内的大部分高端机床的市场 份额。 图 1-3-1 中国机床市场份额(来源:ResearchInChina) 刀具是自动加工系统中最容易磨损和部件失效的。刀具状态监测可以有效保证自动加 工过程顺利进行,同时可以有效提高生产效率、降低成本、保证产品质量。研究表明,由 数控机床故障引起的停机时间为总停机时间为 20%-30% 1 。刀具在加工过程中会因为摩擦 产生磨损,引起切削力增大,甚至出现振动现象,导致加工工件表面精度降低,粗糙度增 加,使机床的切削设备无法正常工作。如图 1-3-2 所示,根据德国著名学者 WKoening H.K.Tonshoff 教授的研究,有效的刀具状态监测可使数控系统配置设备减少 10%-60% 的 停机时间,提高生产效率 50% 以上 2 。 图 1-3-2 机床停机时间占比13 第一篇章 第二届工业大数据创新竞赛 在金属切削刀具磨损和破损的过程中是不可避免的现象,它给自动处理带来了许多不利 的影响,刀具的工作异常会对在很大程度上降低加工质量以及生产效率,严重的情况下会对 机构的运行以及人身生命安全产生极大危害,造成难以估量的损失,在美国肯纳公司的研究 表明,刀具监控系统可以节省超过 30% 的加工成本。刀具状态监测的重要性不言而喻,就 如美国学者 B.M.Kramer 在研究第三十五年度会议上说的一样,没有技术比提高计算机集成 制造系统的生产率的刀具磨损状态的精确估计更重要。刀具状态监测技术的应用,对提高企 业的经济效益也会有很大的帮助,主要有如下一些意义 : (1)减少废品率以及加工成本,提升加工质量; (2)降低设备停机时间,提高设备利用率以及生产效率,延长刀具寿命; (3)防止机械事故,保证了加工系统的最大安全; (4)工厂自动化,减少人为干预对机床 3 。 机械状态监测与故障诊断就像医学诊断一样,人们获得医疗诊断的启示,并结合系统工 程、信息论、控制理论、电子技术、计算机技术、信息处理技术、人工智能和现代科学技术 的发展成为一个综合性的独立学科 4 。近年来,专家学者们对自动化加工设备的状态监测与 预测技术领域进行了非常多的研究工作,作为先进自动化加工技术的关键技术,人们也清楚 地认识到了其重要的实际意义,该领域也逐步形成和完善,而且在发展过程中因实际情况的 变化不断解决着新的问题以及实现更高的要求。 2.2 设备故障预警建模方法 健康管理(health management)策略大致经历了三个阶段的演变,如图 1-3-3 所示: 图 1-3-3 维护策略的演变 第一个阶段为反应性维护(Reactive maintenance),即工作到失效为止(run to failure)。 这是最传统的维护策略,当检测到加工器械失效,即采取停机维修或更换。原则上来说,这 种维护策略能保证加工器械的使用时间最大化。但是,由于其本质是一种被动性维护策略, 加工器械在失效过程有可能产生对整个加工机械的损坏,或是使得产品质量产生较大影响。 如果加工机械是冗余的并且失效产生的影响是不大的,该种策略可以实施。但是对于刀具加 工过程,一旦刀具发生损毁,其损毁之前的一段时间很可能已经处于失效状态,如果采取反 应性维护策略,则会导致失效之前部分加工产品的质量产生较大波动甚至产生废品。14 第二个阶段为预防性维护(Preventative maintenance),即为了尽快检测出工件是否失效, 可以提前设定一个检测间隔,达到检测间隔时间即进行重复性检查。显然,这种策略比反应 性维护要保守。一旦在某个检测过程中发现了早期失效特征,则进行停机维修或更换失效零 部件。所以在此种策略下,检测的时间间隔设定变得尤为重要。过大的时间间隔可能导致失 效时刻被错过,造成宕机的后果;而过小的时间间隔会导致频繁的检测及更换,产生大量的 时间和人力财力成本。而且,对于某些高速运转设备,检测需要停机,频繁的检测也会使得 停机时间大大增加,最终导致企业的生产率下降。 第三个阶段为预测性维护 (Predictive maintenance) , 亦被称为基于条件的维护 (conditioned based maintenance, CBM),即基于监测信息采取维护策略。通过监测加工过程中的各种数 据和参数变化,利用已经构建好的退化模型,对当前机器所处健康状态进行预测,当预测结 果显示失效快要发生时, 停机进行维护。 相较于前两种维护策略, 预测性维护具有明显的优势。 一方面其能通过历史规律数据预测宕机的发生, 在其真正发生之前予以维护避免失效的发生, 另一方面其不需要频繁的检测而是利用预测的剩余寿命时间(Residual useful life, RUL)给出 最优的维护时刻。 基于预测性维护,预诊和健康管理(prognostics and health management, PHM)被提出, 其主要分为 5 个步骤,分别为:数据获取,信号处理,诊断,预测和维护决策,如图 1-3-4 所示。 图 1-3-4 PHM 的流程范式 1315 第一篇章 第二届工业大数据创新竞赛 信号处理过程的目的是从原始信号中获取能够反映加工机械当前健康状态的特征。 目前, 信号处理的方式可以总结为三种:时域分析、频域分析和时频域分析。Lei 总结了信号处理 的方法框架 5 ,如下图: 图 1-3-5 信号处理与特征提取 (来源:INTELLIGENT FAULT DIAGNOSIS AND REMAINING USEFUL LIFE PREDICTION OF ROTATING MACHINERY,西安交通大学出版社) 传统的时域分析方法是直接基于采样数据进行分析。由于实际获取的信号大多通过传感 器以预设的采样频率进行采样,所以获得的信号可以看作一个离散时间序列。时间序列的均16 值 (mean) ,峰 值(peak) , 均方误差 (root mean squre, RMS) ,峰 度(kurtosis) 和偏度 (skewness) 被证明可以一定程度反映加工器械的健康状态。这些统计量被称为信号的时域特征。除此之 外,时间序列分析中的常见模型也被引入到信号分析中,比如自回归模型(autoregressive model,AR),移动平均自回归模型(autoregressive moving average model, ARMA)等。更多 的时间序列模型请参考 6 。 频域分析方法是信号处理领域常用的方法,最著名的则为傅里叶变换,该方法奠定了频 域分析在信号处理中的地位。频域处理的基本思想为将信号转换到频域进行分析,基于原始 信号的频率进行处理。相较于传统的时域分析方法,频域分析方法最大的优势在于能将信号 基于频率进行分解,获取一系列频率分量,进而对不同的频率带进行分析,更具有物理可解 释性并提高了分析精度。其中,较为常用的频域分析方法包括快速傅里叶变换(fast Fourier transform, FFT) 7 以及希尔伯特变换(Hilbert transform, HT) 8 等。频域分析方法的一个限 制在于其只能处理平稳的信号,当信号不平稳时,其处理性能大大下降,无法使用。针对于频域分析方法的弊端,以及实际场景中获取的信号大多不平稳的现实,时频分 析方法被引入到信号处理中。时频分析方法能够同时对信号的时域和频域进行分析,能够 更好的反映机器的失效模式。常用的时频分析技术包括短时傅里叶变换(short-time Fourier transform,STFT) 9 ,小波分解(wavelet transform) 10 及其变体,WignerVille 分布 11 以及 希尔伯特 - 黄变换(Hilbert-Huang transform, HHT) 12 等。更多信号处理相关研究请参考胡 广书所著现代信号处理教程 ( 第二版 )。信号处理提取健康特征之后,需要基于特性对机器的健康状态进行诊断和建模。诊断 是一个识别特征空间和失效空间关系的过程。好的诊断能够基于特定的特征识别出该特征下 的失效模式。由于大数据时代的到来,一些机器学习技术被引入故障诊断过程中,使得特征 的诊断变得更加智能化和非专家化。这里常用的机器学习算法包括:聚类算法,支持向量机 (support vector machine, SVM)等分类算法以及深度学习和混合方法等。预测阶段即利用现有的数据对当前机器状态进行估计。其和诊断过程不同。诊断过程 主要用于识别各种特征和机器健康状态之间的关系,只有故障发生后才可以进行,诊断过程 无法阻止宕机等情况的发生。而预测是利用预测的方法对机器未来的性能进行预测,从而获 得机器失去其运行能力之前的可用时间, 即RUL。 常用的方法包括三种, 数据驱动 (data-driven method)的方法,模型驱动(model-driven method)的方法以及融合方法(hybrid method)。17 第一篇章 第二届工业大数据创新竞赛 关于三种方法的研究现状及综述,请参考 D.ATobon-Mejia, etl(2012) 13 以及 Yaguo Lei, etl(2018) 14 。 维护策略制定阶段即根据预测结果,制定合理的维护策略以保证损失的最小化。更多关 于维护策略的研究这里不再展开。 3. 数据解析 本次竞赛提供的数据为铣刀刀具的真实加工数据,其特点主要有以下几点: 由于是真实加工数据,数据的噪声较大,信噪比较低,同时由于振动数据的采样频 率存在波动,导致采样的数据中存在频率干扰等现象; 信号的数据量较大,规模上百万,导致一些信号处理的方法需要优化; 虽然竞赛提供了全寿命周期的刀具数据,但是并没有标定健康状态; 对于刀具的信号处理方法尚不成熟,其故障模式也不清楚。针对刀具数据特点,处 理难点如下: 由于信号的信噪比较低,需要效果较好的滤波器设计; 由于信号的数据量较大,需要对后续处理算法进行优化; 由于健康状态没有标定,需要自定义数据标签; 由于刀具的信号特征不清楚,导致信号的特征提取是一个难点。 图 1-3-6 刀具与滚珠轴承故障对比18 4.1 技术路线概述 针对以上总结的刀具数据的特点和难点,本文提出了基于经验模态分解的非参数模式匹 配寿命预测方法。该方法主要分为训练和测试两部分。在训练过程中,对刀具全寿命周期训 练数据集进行经验模态分解, 然后对分解得到的不同频率段信号分别计算其时域、 频域特征, 利用给定的判断准则,包括单调性、可分性等对每一个特征进行评估,选择最优特征,如图 1-3-7 所示。经过计算发现:分解后得到的 低频信号与刀具磨损过程具有很高的相关性。 25 图 2-1-7 特征选择 基于此发现,对分解后的低频信号进行时域和频域的特征提取以及特征降维 来保留表征刀具磨损过程的主要特征,再构造出主要特征与刀具剩余寿命的关联 函数。在测试过程中,利用相同的经验模态分解方法以及特征提取和降维方法来 构造测试数据集的主要特征。接着,本文提出了一种新的相关性函数对测试集刀 具主要特征与训练集刀具主要特征进行匹配来预测测试集刀具的剩余寿命值。结 果表明,基于经验模态分解的非参数模式匹配寿命预测方法可以准确地预测测试 刀具的剩余寿命。并且,与其他基于机器学习的预测方法相比,提出的方法仅需 较少的训练时间而达到较高的预测精度,有利于进一步实现在线自适应训练集更 新过程。针对本次比赛数据的具体加工场景,即铣刀的铣削加工过程,其信号不 能假设平稳,与轴承或齿轮的磨损具有较大差别,所以考虑一种能够寻找与寿命 变化变化相对应模式的模式匹配方法对剩余寿命进行预测。 本文的技术路线图如图 2-1-8: 图 1-3-7 特征选择 基于此发现,对分解后的低频信号进行时域和频域的特征提取以及特征降维来保留表征 刀具磨损过程的主要特征,再构造出主要特征与刀具剩余寿命的关联函数。在测试过程中, 利用相同的经验模态分解方法以及特征提取和降维方法来构造测试数据集的主要特征。 接着, 本文提出了一种新的相关性函数对测试集刀具主要特征与训练集刀具主要特征进行匹配来预 测测试集刀具的剩余寿命值。结果表明,基于经验模态分解的非参数模式匹配寿命预测方法 可以准确地预测测试刀具的剩余寿命。并且,与其他基于机器学习的预测方法相比,提出的 方法仅需较少的训练时间而达到较高的预测精度,有利于进一步实现在线自适应训练集更新 过程。针对本次比赛数据的具体加工场景,即铣刀的铣削加工过程,其信号不能假设平稳, 与轴承或齿轮的磨损具有较大差别,所以考虑一种能够寻找与寿命变化变化相对应模式的模 式匹配方法对剩余寿命进行预测。本文的技术路线图如图 1-3-8:19 第一篇章 第二届工业大数据创新竞赛 图 1-3-8 技术路线图 4.2 特征提取方法 经验模态分解(EMD) 概 念:EMD,(Empirical Mode Decomposition),经验模态分解,美国工程院士黄锷博士 于 1998 年提出的一种信号分析方法。 EMD 是一种自适应的数据处理或挖掘方法,非常适20 合非线性,非平稳时间序列的处理,本质上是对数据序列或信号的平稳化处理。如图 1-3-9 所示。 图图 1-3-9 EMD 分解示意图 原理 : 任何信号都是由一些不同的基本模式分量组成的;每个模式可以是线性的,也 可以是非线性的,该方法的关键是它能使复杂信号分解为有限个本征模函数(Intrinsic Mode Function, 简称 IMF) , 所分解出来的各 IMF 分量包含了原信号的不同时间尺度的局部特征信号。 EMD 分解方法是基于以下假设条件: 数据至少有两个极值,一个最大值和一个最小值; 数据的局部时域特性是由极值点间的时间尺度唯一确定; 如果数据没有极值点但有拐点,则可以通过对数据微分一次或多次求得极值,然后 再通过积分来获得分解结果。 基本流程: 第一步:确定时间序列 x ( t )的所有局部极值点,然后将所有极大值点和所有极小值点分 别用一条曲线连接起来,得到的上、下包络线。记上、下包络线的均值为m ( t )。 第二步:用原始时间序列x(t)减去包络线的均值m ( t ),得到h ) ( t ) = x ( t ) m(t),检测 h ) ( t )是否满足基本模式分量的两个条件。如果不满足,使作为待处理数据,重复第一步,直 至h ) ( t )是一个基本模式分量,记f ) ( t ) = h ) ( t )。 第三步:用原始时间序列x(t)分解出第一个基本模式分量f ) ( t )之后,用x(t)减去f ) ( t ),得 到剩余值序列x ) ( t )。把x ) ( t )当作一个新的“原始序列” ,重复上述步骤,依次提取出第 2、 第3,直至第n个基本模式分量。最后剩下原始信号的余项r * ( t )。 由此,时间序列 x ( t )可表示成n个基本模式分量 f + ( t )和一个余项r * ( t )的和,即: x ( t ) = P f + ( t ) + r * ( t ) * + ( )其中,每一项 f + ( t ) 即为本征模态函数(IMF),每一层分解得到的IMF包含原信号局部 分量,同时频率随着分解层数呈负相关。即第一层的IMF信号频率最高,逐层降低。 0 20 40 60 80 100 120 0 500 100 0 150 0 200 0 250 0 300 0 350 0 400 0 450 0 训练集 1_IMF_6_最大幅值频率 _x 0 10 20 30 40 50 60 70 80 0 500 100 0 150 0 200 0 250 0 300 0 350 0 400 0 450 0 训练集 1_IMF_6_最大幅值频率 _y21 第一篇章 第二届工业大数据创新竞赛 特征提取 首先通过经验模态分解(EMD)对信号进行分解,共得到 7 层 IMF,每一层相当于原信 号不同频段的局部分量。第一层、第二层 IMF 为高频段信号,第三层,第四层为中频段,第 五层、第六层为低频段信号。分别对高中低三个频段的 IMF 进行时域分析,与此同时,对获 取的时域信号进行傅里叶变换生成对应的频域信号,然后对频域信号进行分析,最终共提取 了 9 种时域和 7 种频域特征,其中,时域特征为:波形、峰度、峰值、均方根、均值、脉冲、 偏度、峭度、裕度;频域特征为:功率谱标准差、功率谱和、功率谱均值、功率谱偏度、功 率谱峭度、功率谱相对峰值、最大幅值频率,具体特征计算公式见表 2-1-1 和表 2-1-2: 时域特征 计算公式 峰值 “ = 1 P “0 1 0 ( )均值 2 = 1 P | 3 | 1 3 ( )均方根值 42 5 = e 1 P 3 % 1 3 ( )峰度 6 = “ 42 5峭度 K = 1 ( 3 ) - -波形因子 5 = 42 5 2脉冲因子 I = “ 2裕度 L = “ k 1 l | 3 | % 1 3 ( ) k偏度 ! = 1 ( 3 ) , , ) = ( ) + ) ) % = ( ) % + % ) m = % , + , ( ) = 1 1 + 7 8表 2-1-1:时域特征及计算公式: 第一步:确定时间序列 x ( t )的所有局部极值点,然后将所有极大值点和所有极小值点分 别用一条曲线连接起来,得到的上、下包络线。记上、下包络线的均值为 m ( t )。 第二步:用原始时间序列 x ( t )减去包络线的均值 m ( t ),得到 h ) ( t ) = x ( t ) m ( t ),检测 h ) ( t )是否满足基本模式分量的两个条件。如果不满足,使作为待处理数据,重复第一步,直 至h ) ( t )是一个基本模式分量,记 f ) ( t ) = h
展开阅读全文