By Jeff Leek
目前很多科学杂志中的文章都表达了对数据科学和数据分析的兴趣,他们要为这写文章做一个清单。有人认为这样就可以防止文献的重复。
外科医生的清单和我看到的清单之间的一个主要区别是:外科医生的清单允许他们给病人做手术,我们的清单允许我们利用数据进行操作。
你永远不会让我给你做手术。我根本没有接受过医疗培训。但我常常问评审论文,其中包括复杂技术数据的分析,但也都没有受过训练的数据分析统计人员。最常见的方法是,博士后或研究生组中有人被分配做了分析,即使他们没有太多的正规培训。每当出现这种情况我都会警告。就像我不相信没有多年的训练和医疗许可以做手术一样,我不会让别人没有多年培训就进行数据分析,进而得出一大堆复杂的结论。
你可能会说,手术和复杂的数据分析其后果完全不同。我同意你的看法,但我和你思考的维度不一致。我认为,高压和复杂的数据分析,可以有比手术更大的后果。在手术中通常只有一个人可以伤害。但是,如果你做了错误的数据分析,声称说,疫苗导致自闭症,可以有数百甚至数千人因此受害。如此复杂的数据分析,尤其是影响很大的数据分析,一定要小心小心再小心。
我不认为单独清单会解决这个问题的原因是,他们很可能会使用没有经过正规培训的人员。一个明显的(和最近的)例子是HealthKit数据。一大批人们签署了关于他们的iPhone的研究,这一直都是一个大新闻。这个研究具有很大的样本数量,但是,如果不考虑到这个大样本数量一些特别因素的偏颇性,反而会因为样本数量巨大而得出明显错误的结论,产生恶劣影响。
如果我走进手术室,说我要开始做手术,我肯定会被马上丢出去。但人们做数据分析一直就是这样做的呀,由此可见后果有多么的严重。他们真正需要的是对每篇论文分析数据,而且一定要接受培训,学习专业知识。我们要把这个放在科学研究的第一步,防止再出现大面积复制造价的学术乱象。