| 2008-07-03 23:35:40 来自: 陳力恒 (香港) | 时兴造假,不甘落伍,随便聊聊。
造假食品、假零件、假衣物、假证件、假药等等,我都不懂,只好谈谈造假资料。搞资料、弄数据,靠统计。说来统计实广,医疗统计、生物统计、统计 物理、工程统计、数据挖掘﹝data mining﹞、机器学习﹝machine learning﹞、质量控制﹝quality control﹞、运筹学﹝operational research﹞、风险管理﹝risk management﹞、预测﹝forecasting﹞、精算、计量经济学﹝econometrics﹞、计量历史学、心理测试、政治科学等等。顺带一提,十八世纪德国大学的统计教授,近似现时的政治科学家,政府的决策不外是作人口、贸易、农业等等的数据分析[1]。
然应用广,陷阱亦多。张五常提过,如今计量经济学大行其道,回归分析﹝regression analysis﹞有助处理「其它因素」,但这种分析陷阱不少容易中计[2]。数据可以很有帮助,亦可以很有害。Darrell Huff [3] 和罗晓芳[4]写过小册高谈如何以统计欺骗人和生活中的数学,姑拾拾前人牙慧,阔论如何造假资料。
一、样本的内置偏见 The Sample with the Built-in Bias
当某某大学宣称,她们的毕业生的平均薪酬为某数时,这平均薪酬代表什么呢?我们先要留意,通常人们发问卷做调查,所收回的问卷有多少?愿意做调查答问卷的,通常是有固定职业一群。调查所忽略的,是站于边缘的人。那么,「平均薪酬」跟本不平均。再者,一般抽样调查,很难取得有代表性的数据。试想,假如你在办公时间作家庭电话访问,则忽略了上班人士;假如你在非办公时间作家庭电话访问,则忽略了夜游子。不论那一种调查方法,都有不足之处。统计学者有研究这类问题,然而,这里的重点是:假如某某机构想作宣传,大引调查结果,我们不可以轻易尽信,因为一般调查样本可以很误人。
二、精选的平均数 The Well-Chosen Average
平均数﹝average﹞一词可以很含糊。较通用的平均数就有三种:算术平均数﹝mean﹞、中位数﹝median﹞和众数﹝mode﹞。以 1, 1, 1, 1, 1, 2, 3, 5, 5, 6, 6, 6, 6, 7, 8, 8, 9, 9, 10, 10, 10 为例[5],算术平均数为 5.47619,中位数为 6,众数?1。Huff 所举之例更为极端,$3,500 和 $15,000 都为合法的平均数。普遍而言,薪酬结构是高薪者少,低薪者多,只谈平均数很易混淆视听。有些平均数像热恋中的情侣糖黐豆般近,有些则像冷战期或分隔异地的男女天角一方般远。有心造假,可造造手脚,含糊定义,以欺庸辈。
三、不存在的小图 The Little Figures That Are Not There
某某广告宣称,超过百分九十的顾客对她们的产品感满意。处理百分率,要留意样本的实际人数。十一人中有十人满意,是超过百分九十;百一人中有百 人满意,亦是超过百分九十。多少人的样本才真真足够?才有说服力?统计学有研究,这里不表,重点是小样本与大样本的挑选是造假的工具之一。
四、实际无之纷扰 The Ado about Practically Nothing
常听到某某 IQ 极高,是个天材云云。IQ 测试客观地对人作评估,是可靠的指数。面对这些议论,有没有什么可质疑呢?有。IQ 测试只是测试人的智力,单凭 IQ 衡量一个人显然不足,例如一般人 IQ 测试就忽略了人的创造力。让我再举一例,足球游戏会对球员能力作评估,例如派路﹝Andrea Pirlo﹞的射门能力值 7、传球 9、罚球 9、头球 5、过人 5;朗拿度﹝Cristiano Ronaldo﹞的射门 8、传球 8、罚球 6、头球 5、过人 9,诸如此类。以上的评估,忽略了球员状态、阅读球赛能力、进攻意识、防守意识等等。什么因素才重要可靠?各因素所占比例如何?统计学亦有研究,这里亦不表。造假之道,在乎对不同因素的取舍。
五、因果续航 Post Hoc Rides Again
分析数据可揭示表面不明显的因果关系。如某某药对某某病有没有作用?吸烟会不会致肺癌?统计可以是分析工具,也可以是误人武器。即便数据显示两者的因果关系存在,要误人,我们还可以追问关系有多大?是否两者独有?有没有其它因素?假如我们想证明两者有因果关系,只要它们有丁点儿关系就可以了。还有,假如有其它因素影响,我们大可略去不提,这也不算欺诈嘛!
六、图标
闲言少述,看图[6]:
http://chanlikhangnick.googlepages.com/writing20080703a.jpg
两图是同一条程序,只是垂直坐标轴的范围不一。既是同一程序,信息理应一样,可人受感观影响,对以上两图可能有不同的印象。这点亦是造假者不可不察的。
再看[7]:
http://chanlikhangnick.googlepages.com/writing20080703b.jpg
两图同是费雪[8]的 Iris data set,只是角度不同。所以,要人有特定印象,可从图像入手。
七、当股市顾问
写 32,000 封信,先适当运用以上技俩,并附计算机模型、金融分析等等,当中 16,000 封信预测某股下周升,16,000 封信预测某股下周跌。第二周,在测中的 16,000 人中,故技重施,再寄 8,000 封信预测某股下周升,8,000 封信预测某股下周跌。第三周后,4,000 人测中,然后是2,000,1,000,500。这 500 人以为你连续多次测中,这时再向他们收费,自然可以混水捞鱼。强调成功之例,省略失败个案,切记切记。
小结
造假之学实博大,今暂列七点,望君参阅,日后有缘再谈。
注
[1] J.L. Hodges, Jr. and E.L. Lehmann (2005) Basic Concepts of Probability and Statistics. (2ed ed.) Philadelphia: Society for Industrial and Applied Mathematics. p.239.
[2] 张五常:《经济解释.卷一.科学说需求》﹝香港:花千树,2006 年 11 月初版五刷﹞,页 180。
[3] Darrell Huff (1954) How to Lie with Statistics. New York: W.W.Norton & Company Inc. 文章首六点皆取自此书,解说和例子则是笔者随意发挥,恕不另作过细注目。
[4] 罗晓芳:《数学在你身边》﹝北京:科学出版社,2007 年 8 月初版一刷﹞。文章最后一点的例子出自此书,只作些微修改,恕不另作过细注目。
[5] 算术平均数和中位数以 R version 2.5.1 运算:
> data<-c(1,1,1,1,1,2,3,5,5,6,6,6,6,7,8,8,9,9,10,10,10)
> mean(data)
[1] 5.47619
> median(data)
[1] 6
[6] 以 Maple 10 绘,程序为:
> plot(x^2+1, x=0..1);
[7] 以 MATLAB R2006a 绘。
[8] R.A. Fisher's Iris data set. http://archive.ics.uci.edu/ml/datasets/Iris
http://chanlikhangnick.googlepages.com/writing20080703.htm
http://theprincipia.blogspot.com/2008/07/3-writing.html [此贴子已经被作者于2008-7-9 21:47:31编辑过]