北岛尔 发表于 2023-6-2 15:26 
您好,我想求教您第二个问题。我的种子不同结果不同,但是差异很大,会影响门槛值的选择,这样可以自己挑 ...
计量分析本质上是一个数据挖掘的过程,需要通过不同方式和角度探测现象的显著存在性。没有探测到显著性不意味着相关性或因果关系不存在,可能只是因为方式、方法或角度不对。
门槛模型之所以需要需要设定种子,是因为门槛值的来源是网格搜索,但门槛值的显著性来源于bootstrap抽样检验。bootstrap抽样需要利用已有的总体样本N,有放回地再随机抽样形成抽样样本(n1 n2 n3 n4 n5……)并计算相应的统计量(如这里的门槛值thr1 thr2 thr3……),分析依据抽样样本(n1 n2 n3 n4 n5……)得到的统计量的分布,并作统计推断(即查看相应置信度下的置信区间)。
如果不设定的话 seed 一般会默认为此时的电脑系统时间,因此每次随机抽样样本每次都不一样,形成的统计量分布也不一样,得到的统计推断结果也会有差异。
如果种子值设定会影响结果显著性,可能是因为抽样的次数不够,即特定抽样样本下显著,特定抽样样本下不显著,结果不断摇摆。建议在设定种子值保证结果可以重复的情况下,将bs1(#), bs2(#), bs3(#)尽可能地设置大一些,例如1000,抽取尽可能多的抽样样本,以争取结果的稳定可信。