全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1010 2
2023-08-09
Peak Over Threshold POT estimator

Extreme Value Theory(EVT)极值理论

Extreme Value Theory(EVT)极值理论是参数法的一种,中心趋势统计量对正常值的分析可根据中心极限定理进行计算,但是中心极限定理并不适用于极值理论,极端值的统计应按照EVT理论。

极端值的确定方式

(1) Peak Over Threshold-POT 法

对所有样本数据,确定一个阀值,超过阀值的样本数据,都称为极端值,这种方式叫做POT法(Peak Over Threshold)

由这部分极端值形成新的极端值分布,称为广义帕累托分布图(Generalized Pareto Distri]

---极值分布的统计值(均值、方差)意义不大。

---阀值的选择是POT法最重要的。

---极端值扎堆(Cluster)现象会使得数据不具备统计学意义。

(2) Block Maxima Method-BMM法

称为广义极值分布图GEV(Generalized Extreme Value Distribution)。

方式:将数据分组,每组抽出最大值,形成极端值分布。

优点:这样就避免了POT法中出现的极端值扎堆的问题。

缺点:容易存在数据损失的问题,分组后可能会过早的将部分极端值未挑选进最后的极端值分布中。

GEV分布分为Frechet分布(厚尾)、Gumbel分布为薄尾(正态或对数正态),Weibull分布非常薄尾分布。

其中,最常用的就是第一种Frechet,Weibull几乎不使用。

在选择分布时,采用尾巴最厚的分布Frechet分布。一般采用极大似然估计,回归等方式来估算分布等估计参数。

(3)GEV和POT的比较

---GEV可能会存在数据损失

---POT的问题主要在阀值的选择,GEV不存在这个问题

---EVT中阀值的选择需要寻求平衡,阀值选择太大,数据量会太少,如果阀值选择太小,数据量会太大。


图1 和图2 ,分别是 PDF 和 CDF 。

图1

Figsemipar.png




图2

semiCDF.png




R 程序拟合的参数值:

Title: Tail Fit: GPDKernel Fit: normalTail Estimation Method:  
mle Upper Tail:
-----------------------------------------
Estimated Parameters:     xi    beta
                                  0.07136 0.00581
Threshold: 0.01103
-----------------------------------------
Lower Tail:-----------------------------------------
Estimated Parameters:     xi    beta
                                   0.07881 0.00636
Threshold: -0.01019
-----------------------------------------
Description

==================================================
POT 采用的阈值是同行的 10%

图3 与 图4 , 半参数估计与尾部绘图;
图3 GPDfit.png
图4
gpd2.png



欢迎加好友交流, QQ : 2974861304



附件列表
Figsemipar.png

原图尺寸 9.29 KB

Figsemipar.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2023-8-11 11:16:06
不错, 大号终于可以登录;
以后这个小号会较少登录了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-11-2 22:41:00
tulipsliu 发表于 2023-8-11 11:16
不错, 大号终于可以登录;
以后这个小号会较少登录了。
你好,这个qq号加不到啊

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群