全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1755 0
2020-12-04
时间序列分析和预测:新颖的业务前景
时间序列预测在数据科学和统计中几乎不是新问题。这个词是不言自明的,并且已经在商业分析师的议程上使用了数十年:时间序列分析和预测的最早实践可以追溯到1920年代初。
时间序列预测的基本思想是从时间角度看历史数据,定义模式,并就目标变量(考虑到捕获的模式)未来如何变化进行短期或长期预测。这种方法的用例很多,从销售和库存预测到 细菌生态系统的高度专业化的科学著作。
尽管当今的实习分析师可以在Excel中使用时间序列,但是计算能力和数据工具的增长允许利用时间序列解决比以前复杂得多的问题,从而获得更高的预测精度。
时间序列问题
许多机器学习和数据挖掘 任务都使用具有单个时间片或根本不考虑时间方面的数据集。自然语言处理,图像或声音识别以及众多分类和回归问题都可以解决,而无需时间变量。例如,我们使用的声音识别解决方案需要捕获患者睡觉时特定的磨牙声音。因此,我们对这些声音如何随时间变化不感兴趣,而是如何将它们与环境声音区分开。
另一方面,时间序列问题始终与时间有关,我们通常关注四个主要部分:季节性,趋势,周期和不规则部分。      
来源: 预测:原理与实践,罗布?海德门2014趋势和季节性清晰可见
上图是趋势和季节如何运作的清晰示例。
趋势。 趋势组件描述变量(在这种情况下为药品销售)在长时间内如何变化。我们看到,从1990年代到2010年代,抗糖尿病药物的销售收入已大大增加。
季节。 季节部分显示了每年销售模式的波浪式变化。销售额随着季节增加和减少。季节性系列可以与任何时间测量联系在一起。我们可以考虑在中型或小型电子商务中按月或按季度进行销售的模式,或者跟踪一天中的微互动。
周期。 周期是一种长期模式,具有类似于季节性模式的波形和重复性,但长度可变。例如,商业周期具有可识别的增长,衰退和复苏要素。但是,对于一个特定国家来说,整个周期本身在时间上的延展时间有所不同。
违规行为。 不规则的分量是由于意外事件(例如大灾难)而出现的,或仅表示数据中的噪声。
如今,时间序列问题通常可以通过常规统计方法(例如ARIMA)和机器学习方法来解决,包括人工神经网络(ANN),支持向量机(SVM)等。尽管这些方法已经证明了它们的效率,任务,范围和我们解决问题的能力,但它们仍在变化。如今,仅用于时间序列的一组用例就有潜力得到扩展。随着统计数据进入大数据处理时代,物联网提供无限的可跟踪设备以及社交媒体分析,分析人员正在寻找处理这些数据并将其转换为预测的新方法。
因此,让我们调查一下该领域中正在发生的主要事情。
对抗非平稳数据的方法
“预测非常困难,尤其是对于未来而言。”
Nils Bohr,诺贝尔物理学奖获得者
传统的预测方法努力将平稳性纳入时间序列,即使多个统计属性随时间不断重复。原始数据通常无法提供足够的平稳性来产生可靠的预测。例如,在上面的抗糖尿病药物销售图表中,我们必须应用多个数学转换,以使非平稳时间序列至少近似平稳。然后,我们将能够找到比投掷硬币更准确的模式并做出预测,这在50%的情况下是正确的。
资料来源:《预测:原则与实践》,Rob J Hyndman,2014年,将平稳性带入数据
但是,在某些领域,时间序列对我们的工作非常不利,因为有太多影响变化的非常规因素。看一下旅行中断,尤其是在政治动荡和恐怖主义危险期间发生的旅行中断。旅客流发生变化,目的地也发生变化,航空公司调整价格的方式也有所不同,使得具有多年历史的观测几乎已过时。或者,对于许多行业的参与者而言,预测原油价格至关重要的是,原油价格不允许我们建立足够精确的时间序列算法。
传统机器学习方法
传统的机器学习方法是将可用的历史数据集分为两个或三个较小的集合,以训练模型,并根据机器从未见过的数据进一步验证其性能。如果我们在没有时间序列因素的情况下应用机器学习,则数据科学家可以从可用数据中选择最相关的记录,并将模型拟合到它们,从而留下嘈杂且不一致的记录。
在时间序列中,主要区别在于数据科学家需要使用验证集,该验证集必须严格遵循时间轴上的训练集,以查看训练后的模型是否足够好。非平稳记录的问题在于,训练集中的数据可能与测试集的数据不一致,因为时间序列属性在训练和验证集覆盖的时间内会发生实质性变化。
流学习方法
这是我们可以使用流学习技术的时候。流学习建议对该算法进行渐进式更改-基本上是对其进行重新训练。随着新记录或一小部分记录的出现,它会更新模型,而不是处理整个数据集。这种方法需要了解以下两点:
数据范围。 需要多少个新的训练实例来更新模型?例如,中国地质大学的高双和雷亚林最近应用流学习 来提高上述非平稳时间序列(如上述原油价格)中的预测准确性。他们将数据范围设置得尽可能小,以便每次油价更新都会立即更新算法。
数据报废。 开始考虑历史数据或其某些无关的要素需要花费多长时间?这个问题的答案可能非常棘手,因为它需要基于领域专业知识的一些假设,基本上是了解您如何应对变化的市场以及有多少非平稳因素对其进行轰炸。如果您的电子商务业务自去年以来在客户群和产品种类方面均取得了显着增长,则可以认为上一年同一季度的数据已过时。另一方面,如果该国经历了经济衰退,那么新的短期数据可能会比以前的衰退有所启发。
尽管基于流学习的原油预测最终会比传统方法表现更好,但它们仍然显示出的结果仅比投掷硬币略好,并且置信度为60%。它们在开发,部署中也更加复杂,需要事先进行业务分析才能确定数据范围和过时情况。
合奏方法
与非平稳性作斗争的另一种方法是合奏模型。整合使用多种机器学习和数据挖掘方法来进一步组合其结果并提高预测准确性。该技术与数据科学中的新方法无关,但在与数据科学计划相关的业务决策方面具有关键意义。
基本上,尽管建立可靠的预测既昂贵又费时,但并不能缩小到进一步选择最佳绩效者来制作和验证一个或两个模型的范围。就时间序列而言,不稳定的因素(例如不同的周期持续时间,较低的天气可预测性以及对多个行业产生影响的其他不规则事件)使事情变得更加艰难。
对于Google团队来说,这就是问题所在,该团队正在构建时间序列预测基础结构,以分析其搜索引擎和YouTube的业务动态,并进一步细分这些针对区域和时间序列的预测,例如几天和几周。随着Google工程师最近披露了他们的方法,很明显,即使是由AI驱动的技术的Olympus山脉也选择了较简单的方法,而不是复杂的方法。他们还没有使用流学习,而是选择了集??成方法。但是他们表示的要点是,您需要尽可能多的方法以获得最佳结果:
“那么,我们在集成中包括哪些模型?我们几乎可以使用任何合理的模型!特定模型包括许多著名方法的变体,例如巴斯扩散模型,Theta模型,Logistic模型,bsts,STL,Holt-Winters和其他指数平滑模型,季节性模型和其他基于ARIMA的模型,年增长模型,自定义模型等。” –埃里克·塔森(Eric Tassone)和法赞·罗哈尼(Farzan Rohani)说。
通过对在不同时间序列情况下表现不同的许多模型的平均预测,与单个模型相比,它们获得了更好的可预测性。虽然某些模型可以使用其特定的非平稳数据更好地工作,但其他模型却可以在它们的数据中发光。他们得出的平均值就像专家的意见,结果非常精确。
资料来源: 我们对稳健的时间序列的追求, Eric Tassone和Farzan Rohani,2017年,  Google的预测程序
但是,该帖子的作者指出,这种方法可能是针对其特定情况的最佳方法。Google服务遍布许多国家/地区,在这些国家/地区,电力,互联网速度,用户工作周期等各种因素正在增加过多的非固定模式。因此,如果您不是在多个地点或大量不同数据源中进行操作,则集成模型可能不适合您。但是,如果您跨国家或不同地区的业务部门跟踪时间序列模式,则可能是最合适的方法。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群