在论坛精华版看到了置顶的帖子,关于巴西队被虐惨案由此引发对大数据分析的质疑。因为之前某大数据分析,巴西队夺冠概率高达48.5%,德国只有11%。此楼所说的大数据分析,应该是指高盛之前发布的一份60多页的报告。我并没有来得及看这份报告,有兴趣的同学可以下载仔细看看,可以更深入交流一下。对这份报告有段总结如下
“高盛对世界杯决赛周32支国家队的胜算,有它自己的一套评估方法,但以Elo命名的系统,在所有因素中分量最重。Elo是高盛自设的动态系统,不断根据球队近绩更新评分和排名。不难想像,在较近期赛事中表现出色的国家,相对往绩彪炳但近况低沉的对手有明显优势。”
由此有以下几个问题:
(1)高盛采用的数据其实是非常片面的,甚至不能称为所谓的大数据。大数据强调信息的全面性,即使不规则,全、散的数据也比规则而狭隘的数据面强。高盛采用近期赛事的战况去做预测非常狭隘,因为影响足球运动结果的要素实在是太多了。从大的方面来说,举办地的环境与球员的适应度、教练及球员近期的身体情况、球员之间的新闻(团结不团结)、球员家庭成员的信息(尤其关注感情纠纷之类的,你懂的)、裁判表现与可能的误判、博彩公司及大财团操控比赛(关注可能的消息)等。因此,一场足球比赛的胜负,绝对不是之前成绩能预测的,尤其是实力相当的球队。
(2)因为数据的不全面,高盛对突发情况的预测也非常不足,而突发情况对比赛结果的影响也是非常大的。内马尔的受伤,作为球迷可能更容易想到,而高盛不一定会过多关注。内马尔技术很好,但难称悍将,身体素质比起C罗,看看大腿粗细就知道了。
还有很多可以做得更好,在此不赘述,抛砖引玉而已。
只是想说,预测的失败不是大数据的失败,而是大数据应用得还非常不够。更全面的数据库、更完善的分析方法、更实时的数据更新,都是需要跟进的。