资源描述
2018-2019工业大数据技术架构分析报告,1.0,2018 年 5 月,目,录,第一章 工业大数据系统综述.11.1 建设意义及目标.11.2 重点建设问题.2第二章 工业大数据技术架构概述.32.1 数据采集与交换.52.2 数据集成与处理.62.3 数据建模与分析.82.4 决策与控制应用.92.5 技术发展现状.10第三章 工业大数据技术架构实现.123.1 技术组件选择.123.1.1 数据采集.123.1.2 数据存储.163.1.3 数据计算.173.1.4 混合云架构.183.2 建设标准.193.2.1 基础业务能力.193.2.2 数据管理能力.203.2.3 运维管理能力.213.2.4 安全管理.22 1 , 2 ,3.2.5 性能要求.23,3.2.6 开放与兼容性.24,第四章 总结与展望.25,附录一:典型案例.26,一、 富士康 NPI 制造大数据.26,1、 案例背景与业务痛点.26,2、 解决方案.27,3、 实施效果与推广意义.32,4、 案例亮点.32,二、 中国联通工业大数据采集分析平台.33,1、案例背景与业务痛点.33,2、解决方案.34,3、实施效果与推广意义.37,4、案例亮点.37,三、 华为云 EI 企业智能打造智能化九州通.37,1、案例背景与业务痛点.38,2、解决方案.40,3、实施效果与推广意义.45,4、案例亮点.46,四、 潍柴工业大数据平台.47,1、案例背景与业务痛点.47,2、解决方案.48,3、实施效果与推广意义.51,4、案例亮点.51, 3 ,五、 中国移动 OneNET 助力工业资产管理.52,1、案例背景与业务痛点.52,2、解决方案.54,3、实施效果与推广意义.57,4、案例亮点.58,六、 联想工业大数据平台 LEAP.59,1、 案例背景与业务痛点.59,2、 解决方案.59,3、 实施效果与推广意义.63,4、 案例亮点.64,七、 格力电器工业大数据平台.64,1、 案例背景与业务痛点.64,2、 解决方案.65,3、 实施效果与推广意义.69,4、 案例亮点.70,八、合力叉车工业互联网平台.71,1、案例背景与业务痛点.71,2、解决方案.76,3、实施效果与推广意义.82,4、案例亮点.82,九、东方国信大数据助力联合利华能源管理.85,1、案例背景与业务痛点.85,2、解决方案.86,3、实施效果与推广意义.90, 4 ,4、案例亮点.90,十、优也基础工业大数据平台在钢铁能效的应用.91,1、案例背景与业务痛点.91,2、解决方案.93,3、 实施效果与推广意义.95,4、案例亮点.97,附录二:参考文献.98,附录三:缩略语.99, 1 ,第一章 工业大数据系统综述,1.1 建设意义及目标,工业大数据是工业生产过程中全生命周期的数据总和,包括产品研发过程中,的设计资料;产品生产过程中的监控与管理数据;产品销售与服务过程的经营和,维护数据等。从业务领域来看,可以分为企业信息化数据、工业物联网数据和外,部跨界数据。现阶段工业企业大数据存在的问题包括数据来源分散、数据结构多,样、数据质量参差不齐、数据价值未有效利用等情况。,工业大数据技术的应用,核心目标是全方位采集各个环节的数据,并将这些,数据汇聚起来进行深度分析,利用数据分析结果反过来指导各个环节的控制与管,理决策,并通过效果监测的反馈闭环,实现决策控制持续优化。如果将工业互联,网的网络比做神经系统,那工业大数据的汇聚与分析就是工业互联网的大脑,是,工业互联网的智能中枢。,工业大数据系统的建设首要解决的是如何将多来源的海量异构数据进行统,一采集和存储。工业数据来源广泛,生产流程中的每个关键环节都会不断的产生,大量数据,例如设计环节中非结构化的设计资料、生产过程中结构化的传感器及,监控数据、管理流程中的客户和交易数据、以及外部行业的相关数据等,不仅数,据结构不同,采集周期、存储周期及应用场景也不尽相同。这就需要一个能够适,应多种场景的采集系统对各环节的数据进行统一的收集和整理,并设计合理的存,储方案来满足各种数据的留存要求。同时需要依据合适的数据治理要求对汇入系,统的数据进行标准和质量上的把控,根据数据的类型与特征进行有效管理。之后,就需要提供计算引擎服务来支撑各类场景的分析建模需求,包括基础的数据脱敏,过滤、关联数据的轻度汇总、更深入的分析挖掘等。这些都需要为工业大数据系,统选择合适的基础架构作支撑。,建设工业大数据系统能有效地整合工业生产各个环节零散的数据,进行统一,的收集、管理和应用,在产品设计环节,全面地收集用户需求,在生产环节有效,地提高设备运行可靠性、提升产品生产效率,在销售环节增强用户体验、提升服务质量,实现制造-服务-用户之间状态和数据的互联互通,使企业能获得全方位的数据感知,及时调整运行模式,做出合理决策。1.2 重点建设问题建设企业级工业大数据系统,需要解决多个层面的问题,业务层面需要对各个环节的数据进行梳理和分析,形成完善的数据体系,来描述完整的工业生产流程;技术层面需要建立统一的大数据系统来汇集和处理工业全流程的数据,其中需要根据具体的业务场景选择合适的技术架构,系统建设中需要重点考虑的问题包括以下四个方面:,如何采集来自多种数据源的异构数据;如何按照不同的数据留存需求进行高效存储;如何按照业务需求选择数据计算引擎和处理工具;如何保障系统的安全和稳定运行。,本白皮书将围绕这些要点对工业大数据系统的架构做详细的描述。 2 , 3 ,第二章 工业大数据技术架构概述,本白皮书中描述的工业大数据架构体系,是基于 2016 年工业互联网产业联,盟发布的工业互联网体系架构(1.0)中对工业互联网数据体系架构描述的细,化,见图 1。,图1 工业互联网体系架构(1.0)中的数据体系参考架构,可以总结为数据采集与交换、数据集成与处理、数据建模与分析和数据驱动,下的决策与控制应用四个层次,功能架构见图 2。, 4 ,图2 工业大数据功能架构,采集交换层:主要指从传感器、SCADA、MES、ERP 等内部系统,以及企业外部数据源获取数据的功能,并实现在不同系统之间数据的交互。,集成处理层:从功能上,主要将物理系统实体的抽象和虚拟化,建立产品、,产线、供应链等各种主题数据库,将清洗转换后的数据与虚拟制造中的产品、设,备、产线等实体相互关联起来。从技术上,实现原始数据的清洗转换和存储管理,,提供计算引擎服务,完成海量数据的交互查询、批量计算、流式计算和机器学习,等计算任务,并对上层建模工具提供数据访问和计算接口。,建模分析层:功能上主要是在虚拟化的实体之上构建仿真测试、流程分析、,运营分析等分析模型,用于在原始数据中提取特定的模式和知识,为各类决策的,产生提供支持。从技术上,主要提供数据报表、可视化、知识库、机器学习、统,计分析和规则引擎等数据分析工具。,决策控制层:基于数据分析结果,生成描述、诊断、预测、决策、控制等不,同应用,形成优化决策建议或产生直接控制指令,从而对工业系统施加影响,实,现个性化定制、智能化生产、协同化组织和服务化制造等创新模式,最终构成从,数据采集到设备、生产现场及企业运营管理优化的闭环。,功能架构在对应到具体的技术实现时可以参考下图中的技术架构。, 5 ,图3 工业大数据技术架构,2.1 数据采集与交换,将工业互联网中各组件、各层级的数据汇聚在一起,是大数据应用的前提。,要实现数据从底层向上层的汇集,以及在同层不同系统间传递,需要完善的数据,采集交换技术支持。工业互联网系统是一个分布式系统,有众多不同的组件组成,,为了避免在不同系统间建立连接导致的 N 平方复杂性,一般采取消息中间件(Message-orientedmiddleware)技术来实现。如下图所示,消息中间件的主要功能是实现消息传输管理、队列管理、协议转换等功能。主流消息中间件产品包括,IBM 的 MQ、Oracle 公司的 JMS、微软的 MSMQ 等。消息中间件通过 MQTT、DDS、AMQP、XMPP 等协议与不同系统对接。,图4 工业大数据采集交换层技术, 6 ,一个比较大的工业互联网系统中,数据来源和数据需求系统可能有成百上千,个,为了简化数据交换,一般采取“发布/订阅”模式传递消息。数据生产者将数据发送给消息中间件,数据消费者则向消息中间件发出一个订阅条件,表示对系统中的哪些数据感兴趣,如果不再感兴趣,则可以取消订阅;而消息中间件则根据一定的路由算法,将生产者发布的事件及时、可靠地传送给所有对之感兴趣的消,费者。信息的生产者也称为发布者(Publisher),信息的消费者称为订阅者(Subscriber)。,数据采集是对各种来自不同传感器的信息进行适当转换例如采样、量化、编,码、传输。一个数据采集系统,一般包括数据采集器、微机接口电路、数模转换,器。,数据交换是指工业大数据应用所需的数据在不同应用系统之间的传输与共,享,通过建立数据交换规范,开发通用的数据交换接口,实现数据在不同系统与,应用之间的交换与共享,消除数据孤岛,并确保数据交换的一致性。,工业系统中,数据采集与交换是工业系统运作的基底,从微观层每一个零部,件信息,到宏观层整个生产流水线信息,如何基于各种网络链接实现数据从微观,层到宏观层的流动,形成各个层、全方位数据链条,并保证多源数据在语义层面,能够互通,降低数据交换的时延,以实现有效数据交换,技术上是一个比较大的,挑战。,2.2 数据集成与处理,工业大数据集成就是将工业产品全生命周期形成的许多个分散的工业数据,源中的数据,逻辑地或物理地集成到统一的工业数据集合中。工业大数据集成的,核心是要将互相关联的分布式异构工业数据源集成到一起,使用户能够以透明的,方式访问这些工业数据源,达到保持工业数据源整体上的数据一致性、提高信息,共享与利用效率的目的。,工业大数据处理是利用数据库技术、数据清洗转换加载等多种工业大数据处,理技术,将集成的工业数据集合中大量的、杂乱无章的、难以理解的数据进行分, 7 ,析和加工,形成有价值、有意义的数据。,工业大数据集成处理层,主要涉及数据的抽取转换加载(ETL)技术、数据存储管理技术、数据查询与计算技术,以及相应的数据安全管理和数据质量管理,等支撑技术。其中,ETL、数据查询与计算等技术,与互联网大数据技术相似,而基于开源的 Hadoop 等技术将成为未来的发展趋势,具体如图 4 所示。,图5 工业数据集成处理框架,其中,ETL 包括三部分:数据抽取、清洗转换与加载。数据抽取主要将分散的、异构工业数据源中的数据如关系数据、平面数据文件等抽取到临时中间层;,数据清洗是对抽取到临时中间层的数据进行审查、过滤和校验,旨在去除噪声数,据、删除重复信息、纠正错误,并维护数据的一致性;数据转换主要包括数据格,式规范化与数据拆分等,数据规范化实现字段格式的约束定义,以利于数据的建,模与分析;数据加载是将已经加工好的数据加载到数据仓库中。,由于加载到数据仓库中数据量巨大,且包含结构化、半结构化和非结构化数,据,传统的关系型 SQL 数据库难以满足大数据的存储与管理。因此,需要借助实时数据库、关系数据库、NoSQL 数据库,实现工业大数据的存储与管理。实时数据库是基于实时数据模型建立,用于处理不断更新、快速变化以及具有时间,限制的数据,随着技术的演进,时序数据库也逐渐兴起,在部署方式、检索性能,及使用成本上对比传统实时数据库均有优化;关系型数据库是采用关系模型来组,织数据,用于处理永久、稳定的数据;NoSQL 数据库是指非关系型的数据库,, 8 ,具有灵活的可扩展性,在大数据量下具有非常高的读写性能。,数据查询与计算主要采用 SQL 查询引擎、批处理、流处理、机器学习等方法。其中,SQL 查询引擎将用户输入的 SQL 语句序列转换为一个可执行的操作序列,并返回查询结果集;批处理主要操作大容量静态数据集,并返回计算结果;,流处理则对实时进入系统的数据进行计算,处理结果即时可用,并将随新数据的,到达持续更新。,数据服务层的主要作用是提供数据服务的接口,以实现工业大数据的访问、,更新等基本功能。,2.3 数据建模与分析,数据建模是根据工业实际元素与业务流程,在设备物联数据、生产经营过程,数据、外部互联网等相关数据的基础上,构建供应商、用户、设备、产品、产线、,工厂、工艺等数字模型,并结合数据分析提供诸如数据报表、可视化、知识库、,数据分析工具及数据开放功能,为各类决策提供支持。工业大数据分析建模技术,,已经形成了一些比较成熟稳定的模型算法。从大的方面可以分为基于知识驱动的,方法和基于数据驱动的方法。有时候数据可视化技术本身也被称为一种数据分析,方法。工业大数据建模分析技术体系如图 5 所示。,图6 工业大数据分析技术体系, 9 ,知识驱动的分析方法,是基于大量理论模型以及对现实工业系统的物理、化,学、生化等动态过程进行改造的经验,建立在工业系统的物理化学原理、工艺及,管理经验等知识之上,包括基于规则的方法、主成分析技术、因果故障分析技术,和案例推理技术等。其中,知识库是支撑这类方法的基础。,数据驱动的分析方法,很少考虑机理模型和闭环控制逻辑的存在,而是利用,算法在完全数据空间中寻找规律和知识,包括神经网络、分类树、随机森林、支,持向量机、逻辑回归、聚类等机器学习方法,以及基于统计学的方法。两类方法,的对比如表 1 所示,分别适用于不同的场景。,表 1:工业数据分析的两类主要方法对比,2.4 决策与控制应用,根据数据分析的结果产生决策,从而指导工业系统采取行动,是工业大数据,应用的最终目的。工业大数据应用可以分为以下 5 大类:,(1)描述类(descriptive)应用:主要利用报表、可视化等技术,汇总展现工业互联网各个子系统的状态,使得操作管理人员可以在一个仪表盘(dashboard)上总览全局状态。此类应用一般不给出明确的决策建议,完全依靠人来做出决策。,(2)诊断类(diagnostic)应用:通过采集工业生产过程相关的设备物理参数、工作状态数据、性能数据及其环境数据等,评估工业系统生产设备等运行状,态并预测其未来健康状况,主要利用规则引擎、归因分析等,对工业系统中的故,障给出告警并提示故障可能的原因,辅助人工决策。, 10 ,(3)预测类(predictive)应用:通过对系统历史数据的分析挖掘,预测系统的未来行为。主要是利用逻辑回归、决策树等,预测未来系统状态,并给出建议。,(4)决策类(deceive)应用:通过对影响决策的数据进行分析与挖掘,发现决策相关的结构与规律,主要是利用随机森林、决策树等方法,提出生产调度、,经营管理与优化方面的决策建议。,(5)控制类(control)应用:根据高度确定的规则,直接通过数据分析产生,行动指令,控制生产系统采取行动。,基于大数据的工业决策控制技术的框架如下图所示。,图7 工业大数据决策与控制应用技术,2.5 技术发展现状,现阶段工业大数据的建设仍处于发展极不均衡的状态,部分先进的工业企业,已经利用大数据技术整合各环节数据资源,为生产和服务提供精准的数据支撑,,但仍有部分工业企业尚未实现信息化或信息化程度不高,需要从最底层的设备开,始更新与改造,以适应新的数字化生产流程,规范各环节数据资料,结合大数据,技术进一步地优化生产过程和服务质量。在发展工业大数据的各阶段下主要出现, 11 ,了以下三个问题:,(1)设备老旧导致数据采集困难:在许多制造行业中,由于仍然使用传统的生产设备,并且因为各类原因对产线设备进行更新换代较为困难,一些关键的生,产数据无法采集,不能全面的监控产线的生产情况。这种情况下,需要在设备上,加装外置传感器,并对传感器采集到的生产数据进行实时地汇集监控,来全面感,知产线的生产情况。,(2)数据跨平台跨部门整合耗时:在工业领域进行业务分析时,往往需要整合多个数据源的信息,这些数据种类繁多、数据量大、数据质量参差不齐,有时,甚至需要跨部门沟通,走繁琐的审批流程,在经过了一系列关卡收集并整理好数,据后,由于耗费时间太长,一些具有时效性的数据就会产生价值流失。需要建设,持续的、自动化的、全量的数据采集机制,来保证数据的价值被有效地利用。,(3)初期缺乏规划导致应用竖井:在开展大数据应用的初期,由于大部分是业务驱动,各项目单独建设大数据系统,缺乏统一规划,容易造成应用竖井,数,据重复采集、基础信息不一致,从而不可避免的出现资源浪费、数据关联性差,,无法高效的利用数据价值。所以需要企业有全面的大数据系统建设规划,对数据,进行统一采集和管理,为后续各种场景的分析应用提供良好的数据环境。, 12 ,第三章 工业大数据技术架构实现,3.1 技术组件选择,3.1.1 数据采集,随着工业制造中各层的精细化与制程的高密度化,工业制造所产生的数据必,然形成好几个等级的增长。面对如此庞大与多样的数据整合问题,企业必须有整,体统一的数据汇聚与应用策略,设计通用可靠的数据采集机制,来满足各方面的,数据采集需求。数据采集的完整性、准确性,决定了数据应用是否能真实可靠地,发挥作用。因此,在建设数据采集系统时,建议着重考虑以下五个要求:,(1)数据接口通用性:由于新技术更新换代较频繁,需要进行版本管理,并定期更新接口,建议用统一的数据交换格式来适应接口频繁更新的情况,使接口,能够快速调整。,(2)支持广泛的数据源:采集技术需支持尽可能多的数据源端。,(3)支持横向扩展:当设备增加时,所造成的性能瓶颈须能通过横向扩展的,方式解决。,(4)保证数据不遗失:采集过程中须确保数据准确地、不遗失地送达处理层,与储存层。,(5)避免增加基础建设复杂度:在不断扩充设备的情况下,采集技术不应增,加基础建设扩展时的负担。,从工业数据的来源进行分类,主要包括管理系统、生产系统、外部数据三大,方面的数据来源。从数据采集的全面性上看,不仅要涵盖基础的结构化交易数据,,还将逐步包括半结构化的用户行为数据,网状的社交关系数据,文本或音视频类,型的用户意见和反馈数据,设备和传感器采集的周期性数据,以及未来越来越多,有潜在意义的各类数据。下表整理出了一些工业大数据系统中常见的数据源及其,数据特性,供参考:, 13 ,表 1:常见工业数据源分类,管理系统数据采集:这里讨论的管理系统的数据包括了工业产品的设计资料、,价值链管理数据及生产过程中的资源管理数据。,1.设计资料:设计资料大多来源于传统工业设计和制造类软件,如:CAD、CAM、CAE、CAPP、PDM 等。这类数据主要是各类产品模型,以及相关的图纸或电子文档,大多数为非结构化数据。这些设计类数据的采集对时效性要求不高,,只需定期批量导入大数据系统。,2.价值链管理数据:价值链数据主要指企业生产活动中上下游的信息流数据,主要来源于供应链管理系统(SCM)、客户关系管理系统(CRM)等。这类数据主要包含供应链信息和客户信息,通常是规范的结构化数据,采集时对时效性要,求不高,只需按业务分析要求的更新周期定期批量导入大数据系统。,3.资源管理数据:资源管理数据的来源主要是生产环节的各类管理系统,包括企业资源计划(OA/ERP)、生产过程执行系统(MES)、产品生命周期管理, 14 ,(PLM)、环境管理系统(EMS)、仓库管理系统(WMS)、能源管理系统等。这类数据主要描述了生产过程中的订单数据、排程数据、生产数据等,大多数为标,准的结构化数据,采集时对时效性要求不高,只需按业务分析要求的更新周期定,期批量导入大数据系统。,生产系统数据采集:这里讨论的生产系统数据主要来自工业控制系统、生产,监控系统、各类传感器以及其他外部装置。,1.工业控制系统数据:工业控制系统数据的来源主要包括分布式控制系统(DCS),以及可编程逻辑控制器(PLC)这类系统。通常 DCS 与 PLC 共同组成本地化的控制系统,主要关注控制消息管理、设备诊断、数据传递方式、工厂结,构,以及设备逻辑控制和报警管理等数据的收集。此类数据通常为结构化数据,,且数据的应用通常对时效性要求较高,需要数据能及时地上报到上层的处理系统,中。,2.生产监控数据:生产监控数据主要来源于以 SCADA 为代表的监视控制系统。SCADA 系统的设计用来收集现场信息,将这些信息传输到计算机系统,并且用图像或文本的形式显示这些信息。这类数据也是规范的结构化数据,但相对,DCS 和 PLC 系统来说,SCADA 系统可以提供实时的数据,同时也能提供历史数据。因此在考虑数据的采集策略时,需要根据上报数据的类型来选择是实时采,集或是批量导入。,3.各类传感器:在生产车间的很多生产设备并不能提供生产数据的采集和上传,因此需要通过外接一套额外的传感器来完成生产数据的采集。外挂式传感器,主要用在无生产数据采集的设备或者数据采集不全面的设备上、以及工厂环境数,据的采集。同时外挂式传感器根据使用现场的需求,可以采用接触式的传感设备,和非接触式的传感设备。此类数据的单条数据量通常都非常小,但是通信总接入,数非常高,即数据传输并发度高,同时对传输的实时性要求较高。,4.其他外部装置:其他外部装置产生的数据以视频摄像头为例,数据主要来源于对产品的质量监控照片、视频,或者是工厂内的监控视频等。此类数据的特,点是数据量大,传输的持续时间长,需要有高带宽、低时延的通信网络才能满足, 15 ,
展开阅读全文