在工业大数据中,数据质量问题一直是许多企业所面临的挑战,数据分析的重要目的是进行决策支持。
一、以数据为关键要素驱动工业转型升级
2017年12月,习近平总书记在中央政治局第二次集体学习时强调,要深入实施工业互联网创新发展战略,系统推进工业互联网基础设施和数据资源管理体系建设,发挥数据的基础资源作用和创新引擎作用,加快形成以创新为主要引领和支撑的数字经济。在2019年两会上,李克强总理在《政府工作报告》中提出,要打造工业互联网平台,拓展“智能 ”,为制造业转型升级赋能。
宏观上,大力发展工业互联网,用数据智能助推工业转型升级相结合,已经成为全国上下的高度共识。
微观上,大数据技术的应用也开始为诸多企业带来实际收益。工业互联网产业联盟2019年2月发布的《工业互联网平台白皮书》显示,数据在工业研发设计、工艺优化、设备维护、质量控制、节能减排等方面的作用日益凸显。
中国石化对4600个批次的石脑油原料进行分析建模,优化工艺操作参数,使汽油收率提高0.22%,辛烷值提高0.90。中化能源对泵机群、压缩机、蒸汽轮机等装备进行健康管理,实现了设备故障的诊断、预测性报警及分析,设备维护成本每年减少15%。
航天电器建立多种因素与质量关键kpi的关联关系模型,对设备、工艺、检测等数据进行关因分析,不良品率降低56%。山钢集团对跨工序能效数据进行动态寻优,年化能源降本8000多万元,能耗成本降低11.4%。
酒钢集团经过大数据分析实现能耗的智能化管理,单座高炉每年降低成本2400万元,减少碳排放2万吨,冶炼效率提升10%。
这样的星星之火还有很多。可以说,随着这几年工业互联网的不断深入发展,工业领域的数据分析应用取得了令人可喜的进步。
二、工业大数据发展面临四方面挑战
然而,也应该看到,成功案例仍然只是星星之火。由点及面形成燎原之势,任重道远。
挑战1:工业数据资源不丰富
理论上,工业领域的数据应该是非常丰富的,麦肯锡2009年的报告显示,美国的离散制造业是所有行业中数据储量最大的。但实际上,有价值的数据非常稀缺,原因是在工业领域,有分析利用价值的机器数据往往需要包含故障情形下的“坏”样本。但很多工业系统的数据可靠性较高,观测到故障并且已经标记的有效样本更是难能可贵。还有一些工业场景,只有在极短的时间内采集测量数据(如每秒上百万个测点),才能捕获机器设备的细微状况,这就要求时序数据库和流处理平台等专用的新一代数据存储软件提供支撑。
很多工业企业面临“数到用时方恨少”的尴尬。根据中国信息通信研究院和工业互联网产业联盟2018年年底对国内74家工业企业的调研,我国工业企业的数据资源存量普遍不大,66%的企业数据总量都在20tb以下,还不到一个省级电信运营商日增数据量的1/10。数据资源不丰富,与我国工业互联网发展还处于起步阶段有关。企业数字化、网络化程度普遍较低,数据资源的积累尚需时日。而目前工业系统协议“七国八制”现象非常突出,很多软件系统的接口不开放,也增加了数据采集的技术难度。
挑战2:工业数据资产管理滞后
计算机科学家警钟长鸣:警惕“垃圾进,垃圾出(garbage in,garbage out)”。数据质量问题是长期困扰数据分析工作的难题。权威数据专家估计,每年低质量的数据会给企业带来10%~20%的损失。工业领域很多时候追求确定性的分析结果,对数据分析的可靠性要求高,因而对数据质量的要求也就更高了。美国一直重视数据质量,在1990年还专门颁布了数据质量法案(data quality act),2016年美国《联邦大数据研发战略计划》也专门把确保数据质量与提升数据分析可信性作为七大战略之一。
用数据,更要“养”数据。从信息化程度较高的金融、电信、互联网等行业经验来看,如果不开展专门的数据治理,就难以确保数据质量。而调查显示,我国工业企业只有不到1/3的企业开展了数据治理,51%的企业仍在使用文档或更原始的方式进行数据管理。工业企业应该把数据视为与机器设备同等重要甚至更宝贵的资产,加强数据资产管理。好消息是,已经有越来越多的工业企业从主数据或元数据切入,着手开展数据资产管理。而且,随着机器学习技术的发展,智能化的数据资产管理工具也越来越完善,工业数据资产的管理,可以更多依赖人工智能高效完成。但相比信息化程度较高的金融、电信、互联网等行业,工业数据的管理,还有很多欠账要补。
挑战3:工业数据孤岛普遍存在
数据孤岛几乎是所有企业都面临的困境。从单一企业内部来看,存在着不同时期由不同供应商开发建设的客户管理、生产管理、销售采购、订单仓储、财务人力等众多it系统,可谓烟囱林立。而要深度推进智能制造,不仅是上述it系统要横向互通,还要进一步纵向打通it(information technology)和ot(operation technology)两界的数据,推进难度非常大。而且,企业越大,管理和技术包袱越重。
从全行业看,发展工业互联网,实现从单一企业内的局部优化,到整个产业链的全局优化的跨越,必然要实现整个供应链上跨企业的数据流通,这就进一步面临着安全合规、商业模式和技术标准等方面的更大挑战。前述调查显示,超过半数的企业表示需要使用外部数据或对外提供数据,仅有2.7%的企业觉得不会涉及到数据合作,但数据流通由于涉及确权、安全合规等问题,风险和阻力都很大。
德国工业4.0计划已经把数据流通作为重点议题,在构建工业数据空间(industrial data space)方面进行模式上的探索。与此同时,同态加密(homomorphic encryption)、安全多方计算(secure multi-party computation)、零知识证明(zero-knowledge proof)、区块链与智能合约等技术正在走向实用,也为用技术打破数据共享僵局提供了一条有前景的路线。国内如何打破数据孤岛,促进工业数据流通,仍需加快探索。
挑战4:工业数据应用还不深入
大数据在工业领域的作用,纵向可以从3个层次来看:
最基础的,是可以根据数据来描述工业产线、营销和企业经营活动的历史与现状。
更上一层楼,可以基于数据预测设备、车间和整个企业的未来状况。
最高层次,是根据数据分析结果,绕过人工干预,自动地直接指导企业运作,形成智能化的数据闭环。
而大数据在工业领域的作用,横向则可以跨越设计、生产、销售、服务全链条。
然而,工业企业的数据分析应用还普遍处于浅层阶段。最近,工业互联网产业联盟对国内外366个工业互联网平台应用案例进行了分析,40%的平台应用集中在产品或设备数据的检测、诊断与预测性分析领域,而在涉及数据范围更广、分析复杂度更高的经营管理优化和资源匹配协同等场景中,多数平台现有数据分析能力还无法满足应用要求,还需要进一步推动数据分析技术创新以及实现长期的工业知识积累。
未来,工业数据分析还需以问题为导向,把工业机理与数据科学方法紧密结合,让数据应用的层次再上台阶,从而产出更大价值。
三、推进工业大数据发展的思考
工业互联网的长期目标,是构建“数字双胞胎”。只有工业数据越来越丰富、全面,质量越来越高,“双胞胎”才可能长得像,才能“心心相印”。也只有这样,才能让物理世界的万物得以在数字世界重现,通过数字世界里的计算、分析、预测、优化,来指导物理世界的最优运行,从而开辟新的增长空间。为此,还需直面上述挑战,做好几个方面的工作:
(1)夯实数据基础,高度重视数据资产管理的战略价值
企业不仅要关注最终数据分析的显性价值,更要重视数据采集、资产管理、治理、互操作与标准化等基础性工作的价值。磨刀不误砍柴工,只有地基牢固了,工业大数据才能可信、可用,成为价值源泉。
(2)抓住技术创新机遇
数据技术正在进入新的发展阶段,时序数据库、知识图谱、深度学习、安全多方计算等为工业大数据采集、整合与分析孕育着新的动力,将特定应用场景与这些新技术结合,有望带来新的突破。
(3)建立行业标准与规则
在行业层面,可以发挥行业联盟作用,在数据采集协议、数据模型等方面建立行业标准,扫清技术层面互通的障碍。同时,还要推动形成工业企业间数据共享的行业规则,创造安全可信、利益均衡的数据流通生态,为打破全行业数据孤岛铺平道路。