全部版块 我的主页
论坛 数据科学与人工智能 人工智能
5316 0
2016-12-01
 时空数据建模
  时空预测模型实质上是一个基于线性回归的扩展模型,其原理可以用如下公式表示:
  其中, 系数β是自变量的系数,表示自变量对于目标变量的影响程度;Z作为线性拟合的残差,是目标变量变化中用自变量线性组合无法表示的部分,可用来在自回归模型中捕捉时间自相关性,进而用于描述空间的相关性。我们可以通过图 1 所示的流程图来具体讨论这一过程。
  图 1. 时空数据建模流程图

1.jpg

Job0:准备工作


  针对时空建模的复杂性,适当的数据验证和缺失值筛选将有助于模型的构建。通过检测,包含缺失值或无效值百分比较高的一些样本位置将从分析中删除,而缺失值或无效值百分比较低的样本位置则被留下来,后期建模过程中将对其进行特殊编码处理,以尽可能多保留数据信息。
  Job1:拟合线性回归模型
  回归模型采用标准的线性回归模型,但由于数据的时空相关关系,其残差会形成一个零均值的非独立的时空相关随机过程。线性回归的系数,可衡量自变量对目标变量的影响程度,较大的系数对应的自变量表明其单位变化会产生较大的目标变量变化。
  Job2:拟合时间自回归模型
  自回归模型使用指定的自回归阶数,即指定之前若干个时刻的值来预测当前值。自回归的系数可用与衡量过往时刻的残差对当前值的影响。自回归模型同样包含残差,由于其中的时间自相关因素已被移除,自回归模型的残差在时间上是相互独立的。
  Job3:计算时间自回归模型残差并建立空间协方差模型
  基于地理空间的协方差模型建立在时间自回归模型残差的基础上,空间协方差模型有两种实现方法:参数法和非参数法。参数法具有更精简的数学表达式和更好的模型推广能力,所以在假设所给数据能够进行参数化建模的情况下,提供了两个参数检验方法来确定模型的准确性。其一是检测是否空间中存在随着距离而变化的衰减,其二检测空间方差在给定区域具有普遍性。如果不满足参数化模型的假设,将会构造非参数化的模型,利用空间残差所形成空间关系矩阵来描述数据中的空间关系。
  Job4:修正时间自回归模型
  空间协方差量化表达了数据的空间关系,从而可以从之前线性回归的残差中移除空间关系的影响,进而能够修正时间自回归模型,更新自回归模型的参数,获得更加准确的时间自回归关系的描述。
  Job5:修正线性回归模型
  基于准确 的空间关系和时间自相关关系的描述,可从原始的数据中去除时间和空间关系的影响,从而能够修正线性回归模型的参数,更加准确的描述出自变量对目标变量的影响。
  Job6:计算测定后的统计值并保存结果
  上述步骤已经完成了模型的估计过程,获得的模型可生成目标变量的估计值,与观测值相比较,能够评价所建模型的质量。同时通过一些参数检验的方法,可以评价自变量,时间自回归系数的重要性等一些基于模型的评价指标。
  时空数据预测
  时空数据预测是基于时空数据模型的一个假设情况分析,可以预测未来一段时间在分析范围中任何地理位置的目标值。我们可以通过图 2 所示的流程图来具体讨论这一过程。
  图 2. 时空数据预测流程图

2(1).jpg

Step1:准备时空预测输入数据


  想要获得未来时间的目标预测值,首先需要有和时空数据建模的输入数据结构统一的未来时刻的自变量数据。未来时刻的自变量数据可以保持已知的最终数据不变,或者是人为修改过的用于假设分析的数据。
  Step2:构建空间协方差矩阵来捕捉预测地理位置和初始地理位置之间的空间
  相关性
  预测数据中的地理位置和初始数据中的地理位置可以不同,也可以预测数据中一些地理位置和初始地理位置相同,或者预测地理位置是初始地理位置的子集。
  Step3:对初始位置的回归残差进行空间插值得到预测的地理位置
  利用第 2 步构建的空间协方差矩阵对初始地理位置经过转换后的回归残差进行插补,从而得到预测的地理位置。
  Step4:预测未来时间的线性回归残差
  预测未来时间的回归残差是在时间点 m+1, m+2, ... m+H 上逐步迭代进行, 其中, m 是建模的最终时间点,H 是需要预测的未来时间点的个数。
  Step5:计算未来时间点的目标值
  未来时间点的目标值需要通过回归模型,第 4 步中计算得到的时间点 m+1, m+2, ... m+H 上的回归残差和在未来时间点和新的地理位置上的预测输入数据值来计算。
  Step6:计算未来时间点目标值的置信区间
  基于高斯过程和已知模型每一部分的方差情况,可逐级推出最终预测目标值的置信区间。此步骤过于复杂,本文不作详述。
  Step7:预测结果输出
  最终得到的预测结果包括在未来时间指定位置的目标值,以及预测值置信区间的上下限。
  时空预测应用实例
  在充分了解时空数据建模及预测理论结构的基础上,我们来描述该时空预测模型在 IBM SPSS Modeler 中的具体实现,并结合应用实例展示如何应用时空数据模型的假设情况分析实现对未来任何时间任何地点目标值的准确预测。
  时空预测模型描述
  在该数据中,每个位置在数据中都有许多行,这些行表示每个预测变量在每个测量时间的值。 分析数据后,可以使用该数据来预测所使用的形状数据内任意位置处的目标值。 并且,还可以预测何时能够获知未来时间点的输入数据。
  图 3.时空预测模型-字段选项
3(1).jpg

  这里,目标字段是将要预测的目标变量。
  图 4. 时空预测模型-时间间隔选项
4.jpg

  根据输入数据中时间字段的特征选择或者转换为合适的时间间隔是时空数据建模的必要条件。如果输入数据已包含正确的时间间隔信息,并且不需要进行转换,选中"数据匹配指定时间间隔设置" 复选框。 选中此框后,"汇总"区域中的设置将不可用。反之,如果输入数据中的时间字段需要转换为特定区间,取消选中"数据匹配指定时间间隔设置"复选框,并指定用于汇总的字段以便与指定区间匹配的选项
  图 5. 时空预测模型-基本构建选项

5.jpg
 
    图 6. 时空预测模型-高级构建选项

6.jpg
  最后是时空数据模型的输出选项,主要用于在构建模型之前,使用此页面中的选项来选择要包括在模型输出查看器中的输出
  图 7.时空预测模型-输出选项
7.jpg

  如图所示,时空数据模型的输出分为模型信息、评估、和解释三部分。其中,模型信息包括模型规范和时间信息摘要;评估包括模型质量和均值结构模型中的效应检验;
 
  数据收集和预处理
  为了进一步理解并调控数据中心的热量管理系统,数据中心在有限的位置布置热量传感器,通过传感器收集不同位置的实时温度。另外,数据中心的热量传感器、空调机组和打孔瓦的物理参数,比如每个热量传感器的坐标位置,每个空调机组的坐标位置和长宽高以及打孔瓦的坐标和长宽等信息也会相应地影响数据中心不同位置的空气流
  图 8. 数据中心结构图 8.jpg

  这些数据不能直接应用于时空数据预测建模,必须要先进行数据预处理,把温度数据、各个物体的位置数据等进行融合,从而得到一个包含空间地理位置字段,时间字段,预测输入字段和将要预测的目标字段的一个表格式的输入数据。
  时空数据建模
  经过数据预处理,很显然,这里的目标字段为数据中心的温度,空间位置字段为温度被监控的位置,即热量传感器的坐标位置,时间字段为温度被监控的一系列时间点,预测数据字段则为其他相关因素,包括数据中心的空气流、空调机组的长宽高等。
  图 9. 数据预处理后的输入数据结构
9.jpg

  接下来根据数据中心温度的监控时间点来设置时间间隔选项,如果温度是每小时收集一次,那么时间间隔应设为小时并设置起始点;如果温度的收集频率是一天一次,则应设时间间隔为天。并且根据输入数据的时间变量的特征决定是否需要对数据进行转换从而使得数据与指定的时间间隔设置匹配。
  然后根据需求设置最大自回归阶数指定使用哪些先前值来预测未来值,并且指定计算空间协方差的估计方法。为了最大程度的提高对时空数据预测模型的预测准确性,还可以通过设置"缺失值的最大百分比"和"模型构建中用于假设检验的显著性水平" 对模型构建过程进行微调。
  最后构建时空数据模型,从而实现后续的模型输出和假设检验分析。

  

结束语


  时空数据挖掘是数据挖掘中的重要研究内容,其中时空预测的应用领域最为广泛。随着信息技术的发展,人们已经不满足于单纯的空间数据的存储和展现,而是需要更先进的手段帮助理解空间数据的变化,发现空间数据之间的动态关系。实际上, 很多空间现象是随时间动态变化的,在问题求解过程中需要同时考虑时间和空间两方面因素。本文主要围绕时空数据挖掘的发展现状及时空预测的分类,重点介绍基于时间和空间两种属性的时空综合预测方法,具体描述了该方法在 IBM SPSS Modeler 中的实现,并结合应用实例详细说明如何应用时空数据建模及预测实现准确而有效的时空预测。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群