全部版块 我的主页
论坛 数据科学与人工智能 人工智能
10536 3
2016-11-30

     面向大数据的时空数据挖掘的重要性

  20世纪90年代中后期,数据挖掘领域的一些较成熟的技术,如关联规则挖掘、分类、预测与聚类等被逐渐用于时间序列数据挖掘和空间结构数据挖掘。从非线性、海量、高维和高噪声的时空数据中提取出有价值的信息并用于商业应用,使得时空数据挖掘具有额外的特殊性和复杂性。因此,寻找有效的时空数据分析技术对于时空数据中有价值的时空模式的自动抽取与分析具有重要意义。
  近年来,时空数据已成为数据挖掘领域的研究热点,在国内外赢得了广泛关注。同时,时空数据挖掘也在许多领域得到应用,如交通管理、犯罪分析、疾病监控、环境监测、公共卫生与医疗健康等。时空数据挖掘作为一个新兴的研究领域,正致力于开发和应用新兴的计算技术来分析海量、高维的时空数据,发掘时空数据中有价值的信息。
  面向大数据的时空数据挖掘的挑战
  尽管时空数据挖掘研究在近几年引起了人们的广泛关注并得到快速发展,但与传统数据挖掘相比,时空数据挖掘研究还远未成熟。随着时空数据采集效率的不断提高,时空数据积累越来越大,时空数据挖掘也面临诸多挑战。
  理论框架
  相较于传统的数据挖掘技术,时空数据挖掘研究还远未成熟。对于结构复杂且形式多样的时空数据,如何寻找合适的数据挖掘算法,如何对这些模式进行分析?这些问题的解决都迫切需要构建一个时空数据挖掘的理论框架。清晰定义的理论框架将会给该研究领域带来理论上的指导,一方面可更好地理解时空模式需要具备的表达能力,另一方面有助于提出更有效的实现技术。
  大数据管理
  近年来,设备的快速发展和广泛应用,造成数据量的爆炸式增长,数据增加的速度远远超过现有的处理能力。虽然以 MapReduce 和 Hadoop 为代表的大规模并行计算平台的出现,为学术界提供了一条研究大数据问题的新思路,但这些技术也有局限性。一方面,时空数据本质上是非结构化数据,基于地图模型的算法时间复杂度通常比较大,对时空数据的存储管理和索引技术要求比较高。另一方面,MapReduce 计算模型的组织形式和数据处理方法不适合处理时空数据模型;Hadoop 技术也无法有效支持数据挖掘中监督学习所用的迭代式计算方法,因而无法完全满足时空数据分析的需要。这些对学术界和工业界来数都是一项巨大的挑战。
  时空数据融合
  社交网络、遥感和传感器等设备的普遍应用产生了海量的时空数据,且每种设备生成的数据和数据形式各不相同,形成了时空数据结构复杂且来源多样的特性。此外,互联网的蓬勃发展,在文字、音频等多媒体数据中同样包含了丰富的时空数据。所以,对时空数据进行有效整合、清洗、转换和提取是时空数据预处理面临的重要问题。
  时空推理和数据挖掘的深度结合
  时空数据中的时间关系和空间关系通常比较复杂,很多可度量的和不可度量的时间关系和空间关系都是隐含在时空数据中,这就需要在数据挖掘系统中结合时空推理加以考虑这些复杂的时空关系。时空推理和数据挖掘的深度结合,一方面可以发掘更多时空模式及信息,增强时空模式的可理解性;另一方面可以显著提高挖掘的效率和质量。但有利亦有弊:挖掘数据中隐含的时空关系必然会引入某种程度的不确定性和模糊性,这将很大程度上影响数据挖掘的结果。因此,结合时空推理和数据挖掘需要适当折中模型表达能力和时空推理能力。
  面向大数据的时空数据挖掘的应用
  时空数据挖掘的应用非常广泛,如交通运输、地质灾害监测与预防、气象研究、竞技体育、犯罪分析及社交网络应用等。这里我们简单介绍两个时空数据挖掘的应用案例,了解一下时空数据挖掘在现实生活中的实际应用。
  案例一 - 时空数据分析预测
  第一个案例是关于某地如何根据 1997 年到 2005 年的人口普查数据从而选择 2006 年需要新建银行分行的地点。我们收集的数据包括:1)该地区的地理信息(地图文件);2)该地区从 1997 年到 2005 年已有银行分行的位置分布情况,包括每个分行的具体地址等;3)该地区从 1997 年到 2005 年的人口统计信息,包括区域 ID,人口密度,家庭收入,男女比例等。通过时空数据预测分析,我们根据该市家庭收入预测出 2006 年的客户需求,从而得出基于时空数据的银行分行的供求关系,继而确定需要在下一年新建银行分行的准确地点。
  案例二- 时空数据关联规则
  第二个案例是基于一件发生在某地一个真实的犯罪历史的犯罪模型分析。这则犯罪事故发生犯罪事件有吸毒、抢劫、车辆盗窃共816 起,发生时间从 2009 年 1 月到 2010 年 3 月,涉及10 个区和 23 条主要街道。我们得到的数据包括部分地图信息,三种犯罪类型的统计信息以及该地区的人口统计信息,包括人口密度,男女比例,人种比例等。通过时空数据关联规则分析,我们可以根据每种犯罪事件发生的时间和地点得出该种犯罪类型和特定时间段和地理位置的关联关系。同时我们还可以从时空数据分析中得到非时空数据的关联关系。
  时空数据理解
  与传统的数据挖掘一样,不管是时空数据分类预测,时空数据关联规则挖掘还是时空聚类,获取足够的时空数据并充分理解这些数据的特征及属性是时空数据挖掘的先决条件。时空数据,顾名思义,必然包括与时间序列相关的数据以及与空间地理位置相关的数据,另外时空数据挖掘还必须包含将要分析预测或者寻找关联规则的事件数据,也就是在特定时间和空间下发生的具体事件。
  时间数据的理解
  时间数据是指和时间序列相关的数据,表述了目标事件随时间的不同而发生的变化。现实中的数据常常与时间有关,按时间顺序取得的一系列观测值就被称为时间序列数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。
  空间数据的理解
  空间数据是指用来表示空间实体的地理位置和分布特征等方面信息的数据,表述了空间实体或目标事件随地理位置的不同而发生的变化。空间数据是数据的一种特殊类型,这类数据通常是地图文件,用点、线、面以及实体等基本空间数据结构来表示。一个地图文件通常只包含一种类型的空间数据结构。如果想要比较复杂的地图文件,其中包含多种空间数据结构的话,通常需要多个地图文件迭加来获得。除了地图信息,空间数据还包括地图信息的背景数据,用来描述地图文件上的对象属性。
  事件数据的理解
  事件数据是指事务性的数据,表述了在某个时间区间某个地理范围之内所发生的事件。事件数据通常和时间数据相关,甚至时间数据本身同时也是事件数据,都是在某个时间序列上发生的一系列事件。不同的是,时间数据的关注点是目标事件发生的时间,或者说是时间序列数据中的时间变量,而事件数据的关注点是在某个时间序列上发生的事件。事件数据一般不会和地图文件直接相关,而是包含坐标值来关联事件数据和地图文件。事件数据的每一条记录通常都指的是某个特定的人或事,并且包括和该人或事相关的其他信息,比如该人或事的具体地理位置。
  时空数据预处理
  时空数据结构复杂且来源多样,在充分理解了时间数据,空间数据和事件数据的特征、属性及他们之间的关联关系的基础上,整合、清洗和转换不同来源的时空数据,使得他们符合特定时空数据挖掘算法的要求,是时空数据预处理面临的重要问题。本节我们将结合 IBM SPSS Modeler 详细介绍时空数据预处理的方法和步骤。
  时间数据预处理
  时间序列数据结构复杂且来源多样,如何将不同来源的时间序列数据合并并用于时空数据分析,是时空数据预处理面临的首要问题。不同时间序列数据的时间起点及时间间隔都不尽相同,想要合并多个时间序列数据就必须要求每个时间序列数据具有相同的时间间隔,这就需要对各个时间变量的时间间隔进行构建。在 IBM SPSS Modeler 中,时间间隔的构建有两种方法,汇总和填充。
  填充是用于替换字段值的一种方法,也可以用来将空白值或空值指定为特定值。我们也可以选择基于指定的填充函数来替换字段值,同样,不同类型的数据可以用不同的填充函数。连续性时间变量可以使用"最近点的平均值",即将要创建的时间周期之前的三个最近非空值的均值来替换或者填充新的字段值,而离散型时间变量则可以用将要创建的时间周期之前的最近非空值来替换或者填充新的字段值。
  空间数据预处理
  我们已经知道,空间数据是数据的一种特殊类型。空间坐标有不同的表达方式,有些空间数据的坐标是多个单维坐标形式; 有些空间数据的坐标是一个多维坐标形式,既然涉及坐标,就必然会关系到坐标系,而不同空间数据的坐标系往往不同。另外,和时间数据一样,空间数据来源多样,每个空间数据的基本数据结构都不尽相同,如何关联多种类型的数据结构同样是空间数据预处理面临的重要问题。
  首先来看多个单维坐标字段和一个多维坐标字段之间的转换,这个过程通常比较简单。在 IBM SPSS Modeler 中,这个过程只需要组合多个单维坐标字段即可实现。
  事件数据预处理
  事件数据是时空数据挖掘的主题,它的每一条记录都是特定的人或事,并且包括该人或事的相关信息,特别是发生的地理位置。事件数据的预处理通常是指和时间数据或者空间数据的整合,以便获得最终可以直接应用于时空数据挖掘算法的数据。具体内容详见下节时空数据的融合。
  时空数据的融合及展示
  我们已经了解了时空数据来源多样且结构复杂,不管是时间数据、空间数据还是事件数据都有其自身的特征和属性,如何融合各种数据并把结果展示出来对时空数据挖掘至关重要。
  时空数据的融合
  时空数据的融合通常是通过合并时间数据、空间数据和事件数据来完成的。数据合并的方法很多,可以按记录顺序合并,可以通过多个数据共有的关键字来合并,还可以根据自定义的条件进行合并。按关键字或者自定义条件合并又可分为内连接,全外或部分外连接等。
  事件数据和时间数据的融合可以通过关键字,譬如区域 ID 号,邮编,事件发生时间等来实现。
  时空数据的展示
  由于空间数据是一种特殊的数据类型,使得时空数据说起来比较抽象,本小节我们就将时空数据以图形方式给出一个简单的展示。
  我们已经知道,时空数据首先是基于一张地图,包括不同的空间数据结构,比如多边形(面),线,点等, 通常以.shp 格式存在。简单的理解,单独的空间数据即使一张某地区的地图。例如,在上述案例一中的亚特兰大某地区的地图用 IBM SPSS Modeler 中的图形文件如图 1 所示,其中多边形表示不同区域。
  图 1:某地区地图
1.jpg

  如果有多个地图文件,并且经过预处理之后,各个地图文件有相同的坐标系,则可迭加输入从而得到多层次的地图文件,比如多边形上贯穿线串表示道路,河流等。如果已经融合了事件数据,我们还可以设置不同的符号和颜色分别表示不同的事件,如图 2 所示。
  图 2:犯罪事件地图
2.jpg

结束语


  大数据时代下,随着数据收集效率的不断提高和时空数据挖掘的快速发展,很多不同来源的商业数据都包含有时间和空间信息,比如设备,建筑等的管理,能量的产生,分布及预测等。如何结合时空数据和其他商业数据,并且通过对时间和空间属性的观测分析获得决定性的认知从而优化决策就显得至关重要。本文通过介绍面向大数据的时空数据挖掘的重要性及面临的挑战,详细描述了运用数据挖掘工具 IBM SPSS Modeler 对时空数据的理解、预处理,融合及展示,为下一步进行时空数据的建模预测以及关联规则的挖掘奠定了基础。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-11-30 10:43:00
谢谢卤煮分享已收藏
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-30 11:09:35
icyjunjin 发表于 2016-11-30 10:43
谢谢卤煮分享已收藏
好的,请关注明天的下篇!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-11-30 11:16:23
Studio-R 发表于 2016-11-30 11:09
好的,请关注明天的下篇!!!
感谢提醒
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群