在对数据有强依赖的企业中,数据治理的重要性已经变得毋庸置疑。大家都想把它做好,但是怎么入手,从何处入手,却没有很好的指导。
一、数据分类的重要性
分类和对比是人类认识事物的最有效的工具。笔者甚至认为它是人类认识世界的最好的工具。分类本身带给人类的好处这里就不展开了,有兴趣的可以自己搜搜。这里就说说对数据进行分类的好处有哪些。
针对企业的数字化转型,其中一个目的是最大化的利用企业的数据。数据治理则是企业利用数据的关键,使企业利用数据的效率和效果大大提升。而在数据治理中,数据的分类管理又是数据治理的核心。数据治理不是胡子眉毛一把抓,而是分而治之。基于不同数据的不同特征,制定不同的治理策略,有的放矢,管理好数据。
数据分类的好处,至少有如下几点:
00001. 数据分类让人们对数据的认识更加深刻。治理数据首先要认识数据。认识数据除了要认识一个一个数据本身,还要对数据进行抽象。抽象让人们站在另一个高度,对数据进行举一反三。同时,也让对数据的认识更加透彻。
00002. 数据分类让数据治理的手段和策略更加有针对性。不同分类的数据有不同的特征。这些共性的特征决定了这一类的数据治理适合采用同样类似的手段。而不同分类的数据,基于特征的不同,则需要制定更符合其特征的数据治理手段。
00003. 数据分类让人们能够更好的盘点企业的数据家底。企业的数据在不断地增长中,只要企业存在,数据就在增长。而数据分类则是相对稳定的。在一段时期内,企业的数据分类不变,更容易讲清楚数据有哪些。
二、数据该如何分类?
对事物进行分类的方法有很多种,但是有一个关键的原则要遵循:MECE,相互独立,完全穷尽。也就是说,无论是哪一种分类,在这个分类上不能出现无法归属的案例。
基于这些年对数据工作的认识,大致可以从如下几个维度对数据进行分类:
00001. 从内部和外部的视角分类。这个内部和外部是从产生的角度来说。内部数据,毫无疑问是在企业内的流程作业活动中产生的数据。它的特征是:1)产生于企业内的流程作业活动;2)完全自主控制。外部数据,则是指不在企业内部流程中产生,但又是企业需要的数据。它的特征是:1)依赖于外部第三方;2)往往通过购买的方式获取;3)企业有需要。
00002. 从不同的数据格式的视角分类。在数据格式处理上,有结构化数据和非结构化数据之分。当然还有半结构化数据,同时随着技术的进步,结构化与非结构化也在变得模糊。传统意义上来说,二维表格形式的数据即为结构化数据,它可以存储在传统的关系型数据库中。其他的诸如音频、视频、图片等都是非结构化数据的范畴。
00003. 从个人数据与非个人数据视角分类。网络的发展已经从野蛮生长进入监管时代。在这个时代中,各个国家对个人数据的保护越来越重视。在企业中,必须把个人数据和非个人数据分开。个人数据的定义:指与已识别或可识别的自然人(“数据主体”)有关的信息;可识别的自然人是指能被直接或间接识别的自然人,特别是通过诸如姓名、身份号码、定位数据、在线标识符等识别符,或该自然人身体、生理、遗传、心理、经济、文化或社会身份上的一项或多项因素予以识别。(引用GDPR 欧盟数据保护法)
4. 上述的数据分类,相对还是粗放一些。他们可以在企业面对一些数据治理问题时,提供一定的帮助。但是我们还可以从数据本身在企业流程活动中所发挥的作用的角度来进一步的分类。这个分类可以参考《华为数据之道》,它给出的分类在绝大多数企业中,具有一定的普遍性和普适性。具体如下:
1)元数据:顾名思义,元数据是描述数据的数据。通俗一点说,元数据是解释数据的数据。元数据是理解数据的根基。企业中经常出现的同名不同义、同义不同名,往往都是元数据管理出现了问题。
2)主数据:主数据是一个事件的参与主体,如人、物体、空间等。它往往具有较高业务价值,跨业务领域跨流程跨系统,被高度共享、重复使用。对于这一类的数据,在治理上,通常要构建唯一的权威的数据源。企业内的交易系统从这个数据源引用主数据,坚决杜绝各自构建交易系统自己的主数据管理系统。主数据的特征有:a)主数据是客观的稳定的,不会随着交易的变化而变化。他是一个个具体的产品、员工、客户。b)主数据往往是事前定义的。交易数据的产生时,主数据必须已经创建。主数据的管理,往往需要独立的流程或部门支撑。同时创建,虽然技术上可行,但是往往不这么做。c)主数据是相对高价值的。这个也许不好衡量。主数据的高价值体现在他往往支撑企业内的多笔交易的履行,而不是一锤子买卖。4)主数据经常横贯企业内的主业务流程,经常被跨域调用。
3)基础数据:基础数据是取值有限的、高度静态的一组枚举值,比如状态数据、类型数据、模式数据等。它往往对数据内容本身启到一个分类的作用。往往在企业的各类规则应用中,充当开关或者判断条件。基础数据的管理,也依赖基础数据本身的重要性来看。他们往往不单独管理,而依附于主数据或者事务数据之上。因为他们本身只有在特定的语境下才有独立的业务含义。
4)事务数据:事务数据是对企业流程中各类活动的记录。事务数据高度依赖于流程活动的设计,几乎在每一个流程活动节点上都会产生一个事务数据。事务数据的产生是主数据和基础数据在时间和空间上的调用组合。事务数据一个最大的特点便是强调时间在其中的重要性。事务数据往往包含了多个时间,如事件发生的时间、结束的时间、各种状态变化的时间等等。事务数据的治理,有两个侧重点:A) 事务数据对主数据和基础数据的调用治理。B) 事务数据在流程中的流转关系。它与上下游事件之间的关系和联接点。
5)规则数据:在企业中各种业务处理,经常是各种规则的固化。而固化之后,就变成了规则数据。规则数据处理看似是规则,处理的却是数据与数据之间的转换关系。企业中发生的数据质量问题,往往是规则固化不到位,执行有偏差造成的。
6)观测数据:随着技术的进步,各类观测类的设备也日益壮大。这些设备让我们实时感知到事物的变化。如温度监控器、GPS监控器、烟雾传感器等等,他们都在实时的产生数据。观测数据通常数据量较大且是过程性的。这些数据,本身对业务没有直接影响。但是,他们往往会积累到一定程度,从量变产生质变。因此针对这类数据的治理,往往需要实时的业务设计,设计各类指标来密切关注事物的发展。
7)报告数据:报告数据是对数据处理加工后产生的数据,往往用作对业务作业的评价或决策的依据。报告数据,最直接的表现形式就是各类报表。这些报告的组成通常包含三类元素:1)报告呈现的维度,如产品视角、客户视角等。2)报告呈现的事实,如收入、利润、规模、费用等。3)报告的分析结论。这个通常是一个报告的精髓,但是现实中,它却往往被忽略,或者不敢表达。
三、数据分类后,从哪里下手?
了解了数据的大致分类方法后,落地到一个企业的数据治理工作中,如何开展?
我们有两个基本的假设: 1) 企业投入到数据治理工作的资源是有限的。2)企业的任何资源投入都是要看到效果的。这两个假设在大多数的企业中都是适用的。不管企业本身已经开展数据治理,还是刚刚入门,都受这两个假设的限制。
数据治理工作如何开展,更多的从刚刚入门的角度来说。笔者认为至少有如下几步作为开始:
1、对数据分类在企业内达成共识。有初步的共识才是一切工作的开始。
2、在数据分类的框架下,讨论识别企业最需解决的数据问题。可以从企业面临的数据质量问题入手,梳理分析后再总结。一般来说,主数据是比较好的治理切入点。一是因为主数据本身是企业内的高价值数据,二是因为主数据治理好,也能增加高层对数据治理的信心。解决了主数据的一致性问题,企业的数据治理就开了一个非常好的头。
3、针对一个数据,确定数据的责任主体,设计数据的业务模型或方案,制定相应的管理流程(包括创建、产生、变更、引用、消费等环节),最后发布该数据的管理规范。将对数据的治理,固化到企业的日常作业中。
4、复盘总结,形成数据治理的操作手册。遇到同类的问题,进行类似的处理。同时,复盘总结,也是一个不断学习和提高的过程。
四、万事开头难,所有的想法和策略都需要迈出第一步。
最后,万事开头难。所有美好的想法和策略,都必须落到实践中。而迈出第一步,都是成功的关键。说100中方法,不如自己动手实践1种来的真实。