全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 EViews专版
2877 3
2014-06-13
摘自《数据质量分析及应用》——海龙、徐宏炳


    简而言之,数据质量反映出数据对特定应用的满足程度。数据,如同形形色色的其它各种产品一样,是为了满足人们的特定需求。在信息系统中,数据是应用程序的初始原料和最终产品,并经过应用程序的组织,提供给用户。同样的一组数据,面对不同的应用要求,可能表现出不同的数据质量。然而,数据在反映客观世界,完成信息传递功能的同时,作为一种特殊的产品,应该具备一些最基本的属性。下面将着重从数据应该满足的共性的角度来考虑数据的质量问题。


1.数据。
    此处定义的数据不单包括数据本身,还包括对数据的解释。所研究的数据主要指存储在数据库中的数据。数据解释的作用在于阐明数据库中表和字段的约定,以及相关的业务说明。数据解释的地位相当于数据这种特殊产品的说明书,是数据不可或缺的一部分。


2.可达性。
    用可达性来衡量数据量的大小对应用的满足程度。可达性的计算方法为:可达性=应用能够获取的数据量/应用所要求的数据总量×100%。例如,为了分析1995~2005年10年间的某市地方税收的增长情况,需要得到这10年的历史数据。但2001年以前的数据没有迁移过来,所以可达性=5/10×100%=50%。


3.正确性。
    用正确性来表示数据库中的数据与客观世界的符合程度。例如,纳税人更改了公司名称或者联系方式后,应该对纳税人基本信息表中相应记录进行更新,否则就会得到不正确的数据。正确性的计算为:表中正确的数据量/表中的记录总量×100%。


4.完整性。
    用完整性来表示信息的完整程度。完整性包括三个方面的内容,分别是实体完整性、引用完整性和域完整性。实体完整性要求一个表中的每一行必须是唯一的;引用完整性定义了一个关系数据库中不同的表的相关列的之间的引用关系;域完整性要求表的某一列的数值在该列的合法的数值范围内。完整性的计算方法为:数据集中所有满足条件(可以是上述三者之一)的数据量/集合中记录总数×100%。


5.一致性。
    用一致性来衡量对于特定的规则,数据库中所有的表是否都满足这样的规则。例如:人员信息表中规定了/M0表示男性,/F0表示女性。那么可以考察所有表中表示性别的字段是否都以同样方式表达。定义一致性的计算方法为:数据库中所有满足条件(针对某个具体规则)的数据量/被考察的记录总数×100%。


6.时效性。
    用时效性来考察数据的时间特性对应用的满足程度。数据从产生、发展,到消亡,有一个相对的有效期。
不同类型的应用对数据的时间特性有不同的要求。通常实时应用系统中的数据有效期较短。定义时效性的计算方法为:数据集中所有尚未失效的数据量/集合中记录总数×100%。


7.相互关系。
    绝大多数的应用都会要求访问一定范围内的数据。为了支持特定的应用,可达性是数据应该满足的首要特性。正确性是数据质量的根本属性。完整性、一致性和时效性,从几个方面对正确性进行反映。完整性从数据数值的合法性角度考察数据的正确性;一致性从数据对应用逻辑的符合程度去考察;时效性从数据这样一种特殊产品的生命周期来考虑。数据质量几个特性之间的关系如图1所示。
014215ydzyzw63wysaphop.jpg

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-6-13 23:40:50
条理清楚,
对金融行业来说,行情数据质量也相当关键啊。哈哈。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-6-15 21:07:53
logic clear.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-7-5 08:18:20
简明扼要
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群