全部版块 我的主页
论坛 经济学人 二区 外文文献专区
631 19
2022-06-11
英文标题:
《Stochastic Estimated Risk for Storage Capacity》
---
作者:
Revathi Anil Kumar and Mark Chamness
---
最新提交年份:
2018
---
英文摘要:
  Managing data storage growth is of crucial importance to businesses. Poor practices can lead to large data and financial losses. Access to storage information along with timely action, or capacity forecasting, are essential to avoid these losses. In addition, ensuring high accuracy of capacity forecast estimates along with ease of interpretability plays an important role for any customer facing tool. In this paper, we introduce Stochastic Estimated Risk (SER), a tool developed at Nutanix that has been in production. SER shifts the focus from forecasting a single estimate for date of attaining full capacity to predicting the risk associated with running out of storage capacity. Using a Brownian motion with drift model, SER estimates the probability that a system will run out of capacity within a specific time frame. Our results showed that a probabilistic approach is more accurate and credible, for systems with non-linear patterns, compared to a regression or ensemble forecasting models.
---
中文摘要:
管理数据存储增长对企业至关重要。不良做法可能导致大量数据和财务损失。访问存储信息以及及时的行动或容量预测对于避免这些损失至关重要。此外,对于任何面向客户的工具,确保容量预测估计的高准确性以及易解释性都起着重要作用。本文介绍了Nutanix开发的已投入生产的随机估计风险(SER)工具。SER将重点从预测达到满容量日期的单一估计转移到预测与存储容量耗尽相关的风险。SER使用带漂移的布朗运动模型估计系统在特定时间范围内耗尽容量的概率。我们的结果表明,与回归或集合预测模型相比,对于具有非线性模式的系统,概率方法更准确和可靠。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--
一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-11 12:37:35
存储容量的随机估计风险评估Anil KumarData ScientistNutanixSan Jose,Californiarevathi。anilkumar@nutanix.comMarkChamnessDirector,数据科学Nutanixsan Jose,Californiamark。chamness@nutanix.comAbstract-管理数据存储增长对企业至关重要。不良做法可能导致大量数据和财务损失。访问存储信息以及timelyaction或容量预测对于避免这些损失至关重要。此外,对于任何面向客户的工具来说,确保容量预测估算的高精度和易解释性都起着重要作用。在本文中,我们介绍了随机估计风险(SER),这是Nutanix开发的一种已投入生产的工具。SER将重点从预测达到满容量日期的单一估计转移到预测与存储容量耗尽相关的风险。SER使用带漂移的布朗运动模型估计系统在特定时间范围内耗尽容量的概率。我们的结果表明,与回归或集合预测模型相比,对于具有非线性模式的系统,概率方法更准确可靠。指数项概率、风险、预测、布朗运动、存储。简介随着数据利用率的不断提高,企业采用高效的存储做法至关重要。一种反应式方法,即系统管理员在系统达到最大容量后采取行动,无论是在财务上还是在运营上,这都是一项代价高昂的工作。随着机器学习和预测建模的出现,我们可以使用这些方法来实现更主动的存储容量管理方法。通过Chamness回归[1]和Symantecs预言家[2]等方法,对存储容量进行预测建模。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 12:37:39
这两种方法都对这一领域做出了重大贡献,并依赖于经常显示线性产能利用轨迹的数据集。在Nutanixx,我们观察到一系列趋势,包括线性、非线性、连续和不连续的存储增长模式。目前尚不清楚是什么导致了工作负载行为的这些变化。潜在的潜在原因可能是系统和人类行为变化的组合。最初,我们依赖一个简单的线性增长假设来构建一个模型,预测系统何时会耗尽容量。客户支持和客户利用此估计预测来推动与管理存储容量相关的决策。该模型不适合非线性工作负载,这为开发一种全新的方法提供了动力。我们的目标是进行一项实验,以识别一组预测模型中的错误。我们开始实验时假设三个模型的误差是相同的。比较的三个模型是分段线性回归模型、集成模型和朴素模型。naivemodel假设容量与上次观察到的值保持不变。对于要考虑的模型,它必须与原始模型的性能一样好。然而,对总误差的分析表明,朴素模型的性能优于这两种模型。一个可能的原因可能是与存储利用率相关的不确定性行为。系统和行为变化(即删除数据)的组合可能导致系统没有可预测的模式。现有模型的目标是预测达到满负荷的时间。与系统工作负载软化相关的不确定性会导致较差的估计。提供forecastis的目的是帮助系统管理员避免与达到满容量相关的损失。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 12:37:41
根据统计风险分析重新定义这个问题,结果可以重新定义为可能性。统计风险评估模型通常用于估计事件发生的概率。通过提供故障概率,而不是点预测,我们可以帮助系统管理员降低与全容量相关的风险。这也有助于适应风险规避偏好。例如,开发系统可能承受50%的故障概率,而生产系统可能只承受10%的故障概率。考虑到存储容量的随机性和降低风险的目的,我们考虑了其他行业如何解决类似问题。在金融服务业中,几何布朗运动被用来发展Black-Scholes模型,以定价看跌期权和看涨期权。采用类似的方法,我们引入了随机估计风险(SER),这是一种概率模型,从估计容量耗尽的日期转变为估计故障概率。对于特定的时间间隔,SER估计系统可能耗尽容量的概率。SER使用基于漂移布朗运动的随机过程来提供概率估计,本文概述如下。第二节总结了该领域的最新工作。第三节比较了两种预测方法与原始模型:分段回归和预测模型集成。第四节概述了新模型SER及其在风险预测中的应用。第五节讨论了SER和线性回归模型之间的视觉比较,第四节讨论了布朗运动模型的精度估计,第七节回顾了使用SER优化业务决策。二、
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 12:37:44
弗里德曼(Friedman)[3]推广的多元自适应回归样条(MarSpline)的相关工作,将输入空间划分为多个区域,并基于区域建立最佳拟合回归模型。Chamness回归是EMC开发的一种预测工作负载的方法,是MarSpline的扩展。该模型预测系统预计将耗尽容量的日期。Chamness论文利用分段线性回归方法选择历史数据的最佳子集进行预测。通过在系统中假设线性趋势而生成的点估计对于非线性趋势的系统来说是不准确的。与存储系统相关的不确定性通常需要使用模型,以避免在预测值和感兴趣的结果之间强加任何特定的关系。赛门铁克开发了占卜师,这是一种使用插入式模型的模型,并为达到最大容量提供了置信区间[2]。使用备份大小和重复数据消除率构建模型,而不是使用数据容量观测值。本文概述了三种模型ARIMA、随机模型和ARIMA与随机技术相结合的合并模型。论文认识到,系统表现出不同的容量利用率工作负载。系统大致分为三组:线性、趋势和分层。预测模型应用于这三组。然而,无论是哪一组,潜在增长都假定在所有组中是线性的。由于这些模型没有考虑非线性工作负载,它们将导致较低的估计值。在Nutanix,我们注意到容量的趋势非常不可预测。这可能是由于客户活动造成的,例如删除数据、迁移VM或更改利用模式。在本文中,我们首先通过比较行业中使用的模型和活动模型来量化现有线性方法的有效性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 12:37:47
这些结果有助于验证重新定义问题的必要性。系统管理员的目标之一是减少与容量耗尽相关的风险,通过使用提供概率估计的方法,可以估计与存储利用率相关的风险。布朗运动是不确定因素预测中常用的方法之一。罗伯特·布朗(RobertBrown)首次观察到的布朗运动被用来描述碰撞导致的粒子随机运动。当所研究的事件或对象具有高度的随机性时,使用布朗运动方法出现了一种共同的趋势。一些应用包括但不限于利用布朗运动对高度复杂的医学图像进行分类[4],一种基于布朗运动的概率模型,该模型模拟了反复地震源的破裂时间[5]。金融业中的应用与本文所采用的方法有着更密切的关系。奥斯伯恩斯(Osbornes)发表了一篇关于股票市场布朗运动的论文,建立了股票市场与粒子运动之间的对应关系,并指出用于研究后者的统计方法可以用于前者【6】。更普遍的是,用于价格看跌期权和看涨期权的布莱克-斯科尔斯模型假设了几何布朗运动[7]。图1:。将容量利用率建模为一个随机过程,其中红点线表示100%容量,假设存储增长遵循一个连续的马尔可夫过程。容量转换包括各种状态,如添加更多存储、删除数据、移动数据和达到最大容量。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群