control variable category值过多怎么解决

Alicee0

778

收藏 2024-01-02

悬赏 2 个论坛币未解决

panel data model是：y～ zipcode + x + z，其中zipcode大概有150个，y是log continuous的时候没有问题，但是y是0-1 dummy时想做logistic似乎有共线问题？请问怎么解决呢？直接drop掉一些zipcode dummy吗？以及在做psm时是用psm-did法吗

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

att006

2024-1-4 09:01:51

当y是连续变量时，使用了对数转换有助于缓解共线性问题，因为对数转换可以稳定方差并且减少极端值的影响。
当y是二元变量时，使用Logistic回归可能会遇到严重的共线性问题，因为所有dummy variables（除了参考level）的和总是等于1，可能导致模型不稳定。解决方法:
逐步删除法。删除某些zipcode的dummy是解决共线性的一个常见方法，但需要谨慎操作。首先，确定哪些dummy variables与其它变量高度相关。然后根据相关性从高到低逐步删除。
数据变换。考虑对数据进行某种变换，如对数转换或Box-Cox转换，有助于解决共线性问题。但可能不适用于二元变量。
集成其他变量。考虑在模型中集成更多的控制变量或协变量，也有助于解决共线性问题。
PSM-DID:
在处理面板数据时，倾向性得分匹配（PSM）是个常用的方法。当比较不同组（例如处理组和对照组）的平均结果时，PSM可以消除观察到的和潜在的混杂因素。
在PSM之后使用双差分（DID）是一种常用的方法，特别是在评估政策或处理效果时。DID可识别并估计处理组和对照组之间的平均处理效果。
使用PSM-DID的一个关键前提是处理组和对照组在观察结果上必须有相似的前瞻性趋势。如果这一前提不成立，结果可能不准确。
分析之前确保数据清洗和预处理步骤正确，包括处理缺失值、异常值和异常观察值。在统计建模之前进行一些探索性数据分析（EDA）可理解数据和潜在的共线性问题。在做出任何结论前考虑其他可能的解释和潜在的混杂因素。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Killua609

2024-1-4 10:09:15

得做数据预处理，清洗规整

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

capsulewya

2024-1-8 15:30:02

如果zipcode的矩阵比较稀疏，可以考虑lasso回归，或者干脆用机器学习的方法，降维

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群