大数据及数据科学中的10大新术语
大数据时代的到来,为我们提出一些新的任务和挑战。本节我们以近几年在大数据管理领域新出现的术语为线索,讨论大数据时代的主要活动和能力要求。
(1)数据化(Datafication)是指捕获人们的生活与业务活动,并将其转换为数据的过程。例如:
l Google眼睛正在数据化人们视觉活动;
l Twitter正在数据化人们的思想动态;
l Linkedin正在数据化人们的社会关系。
目前,在个人信息的获取中广泛使用了数据化,非法收集,导致了个人隐私之间的矛盾。
(2)数据柔术(DataJiu-Jitsu)是指数据科学家将“大数据”转换具有立即产生商业价值的“数据产品(Data Product)”的能力,如图1-14所示。数据产品是指在零次数据或一次数据的基础上,通过数据加工活动形成的二次或三次数据,数据产品的特点包括:
l 高层次性:一般为二次数据或三次数据;
l 成品性:数据产品往往不需要(或不需要大量的)进一步处理即可直接应用;
l 商品性:数据产品可以直接用于销售或交易;
l 易于定价:相对于原始数据,数据产品的定价更为容易。
(3)数据改写(DataMunging)是指带有一定的创造力和想象力的数据再加工行为,主要涉及数据的解析(parsing)、提炼(scraping)、格式化(formatting)和形式化(formalization)处理。与一般数据处理不同的是,数据再加工强调的是数据加工过程中的创造力和想象力。
(4)数据打磨(DataWrangling)是指采用全手工或半自动化的方式,通过多次反复调整与优化过程,即将“原始数据”转换为“一次数据”(或“二次数据”)的过程。其特殊性表现在:
l 不是完全自动化方式实现,一般用手工或半自动化工具;
l 不是一次即可完成,需要多次反复调整与优化。
(5)数据洞见(DataInsights)是指采用机器学习、数据统计和数据可视化等方法从海量数据中找到“人们并未发现的且有价值的信息”的能力。数据科学强调的是“数据洞见”——发现数据背后的信息、知识和智慧以及找到“被淹没在海量数据中的未知数据”。与数据挖掘不同的是,数据科学项目的成果可以直接用于决策支持。数据洞见力的高低主要取决于主体的数据意识、经验积累和分析处理能力。
(6)数据分析式思维模式(Data-AnalyticThinking)是指一种从数据视角分析问题,并“基于数据”来解决问题的思维模式。例如,当某个具体业务的效率较低时,我们考虑是否可以利用数据提升业务效率,并进一步提出如何通过数据提升的方法。可见,数据分析思维模式与传统思维模式不同。前者,主要从“数据”入手,最终改变 “业务”;后者从“业务”或“决策”等要素入手,最终改变“数据”。因此,数据分析式思维模式改变了我们通常考虑问题的出发点和视角。从分析对象和目的看,数据分析可以分为3个不同层次。
l 描述性分析(Descriptive Analysis) 是指采用数据统计中的描述统计量、数据可视化等方法描述数据的基本特征,如总和、均值、标准差等。描述性分析可以实现从“数据”到“信息”的转化。
l 预测性分析(PredictiveAnalysis)是指通过因果分析、相关分析等方法“基于过去/当前的数据”得出“潜在模式”、“共性规律”或“未来趋势”。预测性分析可以实现从“信息”到“知识”的转化。
l 规范性分析(PrescriptiveAnalytics)不仅要利用“当前和过去的数据”,而且还会综合考虑期望结果、所处环境、资源条件等更多影响因素,在对比分析所有可能方案的基础上,提出“可以直接用于决策的建议或方案”。规范性分析可实现从“知识”到“智慧”的转变。
(7)数据驱动(Data-driven)是相对于“决策驱动”、“目标驱动”、“业务驱动”和“模型驱动”的一种提法。也就是说,数据驱动主要以数据为“触发器(出发点)”、“视角”和“依据”,进行观测、控制、调整和整合其它要素——决策、目标、业务和模型等,如图1-16所示。数据驱动是大数据时代的一种重要思维模式,也是“业务数据化”之后实现“数据业务化”的关键所在。
(8)数据密集型(Data-Intensive)应用是相对于“计算密集型应用”、“I/O密集型应用”的一种提法,如图1-17所示。也就是说,数据密集型应用中数据成为应用系统研发的“主要焦点和挑战”。通常,数据密集型应用的计算比较容易,但数据具有显著的复杂性(异构、动态、跨域和海量等)和海量性。例如,当我们对PB级复杂性数据进行简单查询时,“计算”不再是最主要的挑战,而最主要挑战来自于数据本身的复杂性。
(9)数据空间(DataSpace)是指主体的数据空间——与主体相关的数据及其关系的集合。主体相关性和可控性是数据空间中数据项的基本属性。
l 主体是指数据空间的所有者,可以是个人,也可以是一个组织;
l 主体相关性是指数据空间所管理的是与特定主体相关的信息,而这些信息可以出现在不同的时间,存放在不同的位置,也可以采用不同的格式表示;
l 主体可控性是指主体通过各种操作或服务来控制和管理数据空间中数据项。
可见,数据空间为我们解决来自跨域、异构、动态数据源的集成管理提供了一种新的思路和解决方案。相对于数据库技术,数据空间技术具有现收现付(Pay-as-you-go)、数据在先,模式在后、不断演化的数据模型、数据集成不改变数据的原有格式、数据内容以共存形式分布在不同数据源、自动处理数据源的动态变化、充分利用数据源的自我管理能力、主体对数据具有部分控制能力、建设过程信息丢失相对少、支持数据关联的动态变化以及服务质量的不确定性等特点。
(10)关联数据(LindedData)是一种数据发布和关联的方法。其中,数据发布是指采用RDF(ResourceDescription Framework,资源描述框架)和HTTP(Hypertext Transfer Protocol,超文本传输协议) 技术在Web上发布结构化信息;数据关联是指采用RDF链接技术在不同数据源中的数据之间建立计算机可理解的互连关系。2006年,Tim Berners Lee 首次提出了关联数据的理念,目的在于不同资源之间建立计算机可理解的关联信息,最终形成全球性大数据空间。Tim Berners Lee进一步明确提出了关联数据技术中的数据发布和数据关联的4项原则:
l 采用URI(Uniform Resource Identifier,统一资源标识符)技术统一标识事物;
l 通过HTTP URI访问URI标识;
l 当URI被访问时,采用RDF(Resource Description Framework,资源描述框架)和SPARQL(Simple Protocol and RDF QueryLanguage)标准,提供有用信息;
l 提供信息时,也提供指向其他事物的URI,以便发现更多事物。
除了上述概念之外,还有数据消减(Data Reduction)、数据新闻(Data Journalism)、数据的开放获取(Open Access)、数据质量、特征提取等传统概念也重新备受关注。