通常意义下的选择性偏差是指,在抽样过程中,由于主体(研究者)的有限认知或客体的自我选择(有些样本单元的数据无法获得)而造成的样本分布与总体分布的偏倚。比如Heckman在上世纪70年代,关于女性劳动力工资的研究,一般选用的样本是正常参加工作并赚取工资的女性劳动力,通过调查其工资和多个相关变量来分析女性劳动力工资及其影响因素间的关系,并获得工资方程。这种做法在上世纪70年代以前较为普遍,但如此一来就忽略了在家待业的那部分女性劳动力,这部分劳动力因各种原因而选择在家待业,也无法获取工资及其他相关信息,这就造成了选择性偏差。因为,在家待业的这部分劳动力也具有工资,原文中泛指“影子工资”,当影子工资低于女性劳动力能接受的心理意愿时,她们会选择在家待业,同样也具有工资方程。两类女性劳动力的工资方程本质上是有区别的,但传统做法本质上是归为一类处理,由此造成的偏差会导致工资方程失真。当然,这类选择性偏差是由样本自身的行为选择造成的,所以也叫自选择偏差。
所以呢,选择性偏差很重要,在研究过程中,要时刻做好提防,一旦发现要努力去规避,以降低选择性偏差带来的结论偏倚。
以上说法,仅为个人理解,表达不是很正规,楼主可以找相关论文阅读进一步理解。