立即打开
1.1 组织结构是数据组织方式的基础,数据却要求更加开放
当我们在探讨数据结构的时候,其一般有两种含义,一种是广义的含义,表示数据的组织结构或者组织方式,即各种数据以什么样的方式组合在一起构筑成企业的数据地图;另外一种是狭义的含义,是指在数据记录时数据的结构,即一条数据自身的结构化问题。为了区别,通常把广义的含义称为“数据组织结构”,把狭义的含义称为“数据结构”。
在组织中,每个人考虑问题的方式都是根据自己所处的位置、自身的利益以及自己所处团体的位置来决定的。不在其位不谋其政,坐在什么样的位置上,就会以什么样的视角看问题。当然这本身没有什么错误,按照经济学的理论,如果组织中每个人都从自身利益出发来维护好自身利益或者自身所在团体的利益,只要这个组织的结构设计合理,那么这个组织的效益可以最大化。
数据由人来管理并由人来使用,必然与人在组织中的地位有关系。人在组织中处在什么样的位置,就会有什么样的思路和视野,也就会有什么样的想法,这些都必然会体现在其对数据的管理和应用上。对数据的管理和应用,在组织中处在不同位置和职位的人会有不同的视角,而这是由其职位和个人视野决定的。高层会有高层的视角,基层会有基层的视角。虽然处在不同的层级,管理目标不同,但一定要做到管理目标的协同。高层希望加强源头数据的质量,而基层会觉得很麻烦,带来工作量的增加,就产生了管理目标的不协同。高层希望提高数据的即时性,而基层没有合适的智能化或者自动化数据采集手段,这也是管理目标的不协同。为了让管理目标协同,对于第一种提高数据质量的问题,可以通过增加岗位、提供激励等方式让管理目标产生协同;对于第二种,可以通过增加自动化数据采集设备或者更加方便的数据记录方法来解决,从而实现管理目标的协同。
企业大数据的源头数据是企业各个基层员工采集的,其组织方式必然由组织的结构方式决定,而企业的组织管理是层级上报,所以在数据向上传输的过程中,必然也是按照组织结构的传输方式向上汇报的,这让数据的组织结构方式等同于组织的结构方式。
组织结构决定数据结构的方式往往会限制数据能量的发挥,这是因为数据在汇总、加工和分析的过程中需要整合其他部门所产生的数据,从而更全面地了解数据背后的“真相。”比如,人力资源部门在分析人效产出的时候,需要结合销售部门的数据、市场采集的外部数据、外部人才市场环境的数据,而这些数据如果在部门之间不开放,数据完全按照组织结构的方式来组织必然会产生割裂,导致在数据进行加工整理、汇总分析的时候产生偏差,或者不知道数据变化背后的动因是什么,数据价值挖掘也失去了应有的效果。
部门间数据的相互开放是一个需要逐步探索的过程,根据需要,可以从授权的角度来进行管理。当A部门需要数据的时候,提请上级经理申请获得B部门的数据开放接口,能够直接查询相关的数据。这样当A部门对自己的数据进行分析解读的时候,就能够结合B部门的数据,获得数据的全貌,从而让数据分析更加深刻,价值挖掘更加精准。当A部门对B部门的数据需求比较多时,可以采用固定账号授权的模式来进行,为了保证数据的安全,可以通过服务器端的数据传输记录来监控数据的使用。这些都需要在使用过程中逐步探索。
数据的跨部门开放打破了原有的数据按照组织结构的模式来传递数据,从而让数据可以得到更好的应用。企业可以通过成立数据中心来整合公司所有的数据资源,并在数据开放上起到类似“数据统筹局”这样的角色,完成数据内部的开放,同时对数据又有非常好的控制,对数据的使用进行监控,避免数据的滥用和泄漏。比如,人力资源部门要对公司的某些优秀人才进行评价,在制定优秀人才培养计划时需要对该人才进行全面的考察,就需要根据各方面的数据信息来查看该员工是否满足纳入重点培养人才计划的标准,此时就可以通过数据中心来调取各种行为数据、考勤数据、薪酬绩效数据、工作业绩数据、发明创造成果数据、产品技术数据、客户反馈数据、跨部门评估数据等,这些数据给人力资源部门对个人评估提供了完善的数据源。
1.2 数据结构的合理性决定了数据的易用性
数据是对资源和资源活动的记录,每条数据记录都有个结构的问题,即数据结构。数据结构体现了数据自身组织信息的方式和方法。结构设计的合理性决定了数据在未来的易用性,包括查询的方便性、关联的紧密性以及对数据进行存储、处理、挖掘的速度和效率。虽然现在数据的存储量已经非常大,数据的传输速度也非常快,但合理的数据结构会让未来的使用效率得到大幅度的提高。
比如,员工信息表,如果在数据结构上设计合理,就可以直接使用Excel的透视表功能来进行统计汇总,只需要几秒钟就可以得到想要的统计汇总数据。但是如果表的结构不合理,不仅仅有合并的单元格,还有各种各样的不规则数据,透视表功能无法使用,只能使用函数和计算功能,这样就加大了工作量。
资源活动记录类的数据更加强调数据结构的合理性,因为每时每刻都在发生着活动,对这些活动记录的数据,未来还会继续使用,比如,客户订单流水记录,如果结构设计不合理,在未来需要重构,需要将历史的数据导入新的数据表,又是一个繁琐复杂的工作。
数据结构的规划需要专业的数据部门提供标准,结合部门实际需求,做到具有一定的前瞻性。如果数据量很大,越是标准化的数据结构,通过程序来自动处理越加方便。这就需要在数据采集端就将表格的样式标准化、数据字段的名称标准化、数据记录和度量的方式标准化。目前国家在推动大数据治理与统筹,未来将数据标准记录下来将是一个非常重要的工作。在企业内部,企业构建大数据时,也需要将数据的标准化工作放到前面,甚至成立专门的数据标准化管理委员会来处理这个问题。
1.3 源头数据质量决定企业数据大厦的大小
一棵大树能够抵御多少级的大风,除了与树根的大小紧密相关以外,更重要的是根系深厚和庞大的程度;一个大厦能够垒多高,就要看其地基有多稳固。企业数据大厦的大小和品质也直接由地基—源头数据质量和数量决定。
我们把单个数据叫作企业的神经元,数据的多少与神经元的分布状况直接相关。数据采集后的传输系统构成这个大树的根系,根系有多大,决定着这棵树能够长多高。企业经营和管理活动非常广泛,未来的企业大数据需要将几乎所有的资源和资源活动都记录下来,所以需要构建一个无死角的庞大的神经系统。这是企业数据大厦的理想状态,目前大多数企业都还在基于企业的信息系统来完成数据的采集、传输、存储和汇总工作,而大数据要求的是DT技术,是对IT技术的升级和发展。企业需要逐步在原有的IT系统基础上,构建完善的DT系统,以扩展这个“根系”,从而为未来企业构建更加强大的数据大厦,以提高企业的竞争实力。
理论上讲,企业所有的资源和资源活动都需要被记录,从而形成完整的企业大数据,这里的资源和资源活动包括了企业自身拥有的资源和企业所接触到的资源。企业自身拥有的资源包括企业的人、财、物和信息等,而企业所接触到的资源包括与企业所处环境以及与企业发生交互的资源,企业边界上的资源以及边界上资源的活动。
企业需要循序渐进地构建自己的大数据体系,首先完成对内部资源以及资源活动数据的治理与统筹,然后再对边界上的数据进行治理和统筹,最后再逐步延伸到外部数据的采集。不需要好高骛远,如果企业连内部的数据都没有采集完整和利用起来,那么对边界和外部数据的采集一定更加不精准。因为自己内部数据的价值密度才是最高的,边界上的数据其次,外部数据更次之。
1.4 数据的数据:元数据
所谓的元数据(MetaData)就是描述数据的数据。当我们在描述一个员工的时候,会从其姓名、性别、年龄、民族、血型、出生日期、身高、体重、身体健康状况等维度出发进行描述,这个字段名称集可以称之为“元数据”,它们是用来描述“员工”这个数据的。元数据直接体现着数据的信息量和数据的完整性,也体现着数据采集的方法、数据的精准度等。
元数据的变化将直接影响着数据集的变化,如果在员工基本信息这个数据集中增加一个元数据(字段),就需要对数据集做出重大的调整,对整体数据集进行完善,比如,在员工基本信息数据集中增加一个元数据“入职日期”,就需要对全体员工的数据进行更新;如果要删除一个元数据,也要对整个数据集进行更新。对于员工基本信息表这样的静态数据来说,更新工作不算复杂,但对于动态数据集,数据记录有时效性,在初期设计不合理,后期将很难对数据进行更新,至少如果在历史数据上增加新的字段将非常困难。所以,企业在建立数据库和数据表的时候需要慎重考虑数据长周期的可用性,谨慎设计,尽可能做到完整,以避免在后期再进行变动。
对元数据的构建已经形成了一定的标准和规范,也有国际组织对常用的数据集设定了一些参考性的标准供公众使用。企业在构建企业数据集时,如果能够参考这些标准,一方面,自身采集数据可以做到具有系统性,另一方面,在未来数据开放或者获取到外部数据之后,雷同的数据可以对其进行对比分析,提高了数据的重复可用性。
企业需要根据自身的情况使其数据库标准化,最好成立数据标准化规范小组,让企业的管理者参与到数据标准的制定中,从而满足企业各个层级管理的需求。在这个过程中,需要建设好数据规范的文档,以备后期查询使用,并对版本做好标识,标记版本的日期以及适用周期。
1.5 静态数据是结果数据
所谓静态数据,就是对事物的静态描述,包括对事物构成要素和事物属性的描述。比如,描述员工,有员工基本信息表,这些数据是静态的,大多数情况下不会随时发生变化,包括姓名、性别、出生日期、血型、民族、籍贯(出生地)等,当然,过程中可能会有部分更新,但其更新在一定的周期内不会太频繁地发生。
静态数据的更新需要通过替换完成,比如,员工的最高学历,随着员工自己的进修,提升了最高学历,在更新的时候就需要替换原来的学历记录,变成最新的学历名称。这是静态数据的特点。
因为静态数据的更新是替换式的,会破坏原有数据信息,容易导致数据信息的丢失,如果用错误的数据替换了原有正确的数据,往往导致数据不可恢复。一方面,企业可以通过定期备份数据来保证历史数据的可恢复,另一方面,每次对数据库进行更新,都需要留下详细的更新日志,这样可以在出现不可恢复的情况时,通过日志来对数据进行恢复操作。
静态数据体现着事物当时的状态。不同时间状态下的静态数据之间的变化体现着事物的发展变化,变化的两个静态数据之间的差异体现着事物的状态变化,是结果性的。所以,也可以把静态数据称为结果数据。
描述一家企业,有企业的规模、职工人数等。今年的数据和去年的数据之差,即为该企业从去年到今年的发展成果。这个数据之差体现着该企业在这一年所付出努力的结果。
1.6 动态数据是行为数据
动态数据是记录事物动作的数据,每个数据集记录相同或者相似的动作。比如,员工工资表数据,该数据集记录给每个员工发放工资这个动作。企业每个月发工资,如果有100人,就需要发放工资100次,所以就有100条这样的数据记录。
动态数据记录事物的行为。原则上来讲,。。。
1.7 行为数据与结果数据构建事物数字化因果逻辑
静态数据描述事物的状态,状态变化代表了经营和管理活动带来的结果,而动态数据描述了企业各种资源的活动情况,属于行为数据。
...
1.8 通过数据构建事物之间的共生或者关联关系
数据分析本身无法告诉两个事物之间是不是因果关系,...
全文摘自《企业数据化管理变革-数据治理与统筹方案》赵兴峰著
该文转载已取得作者认可
版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业数据化管理变革》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】
下期内容更实战!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
栏目导航
热门文章
推荐文章
扫码加好友,拉您进群