检验因果关系有效性。
本文提出可以被管理者们应用于数据讨论的普遍方法,从而帮助他们更好地做出决策。
本文选自《哈佛商业评论》中文版2024年9月刊
《“数据驱动型决策”的五个陷阱及避坑指南》一文
假设你正在主持一场关于公司仓库员工时薪的会议。多年以来,员工的时薪一直在根据通货膨胀率自动小幅上调。而你的团队中有人引用了一家大型公司的研究,该研究指出,高薪可以显著提高员工生产率,乃至会增加企业利润。因此,他主张采取一种不同于以往的方法:为仓库中的所有员工一次性大幅加薪,每小时增加2美元。你会怎么做?
在这种情况下,公司领导者往往会走向两种极端:要么将提出的证据视为济世良方,要么对它不屑一顾。其实这两种方法都是不可取的。领导者应该做的是组织相应的讨论,全面深入地评估这一看似相关的证据及其在给定情况下的适用性。
在以上描述的情景中,你应该提出一系列的问题来评估工资增长对公司可能产生的具体影响。比如,你可以问:
→ 你能否详细说明一下该研究的设定,以帮助我们评估其是否适用于我们的仓库员工?
→ 与那些争相雇佣我们员工的其他雇主相比,我们的工资水平如何?与研究中的大型公司相比如何?
→ 研究结果是否经过了实验验证?如果没有,那么该研究使用了何种方法来确定是工资的增长导致了生产率的变化,还是仅仅简单地将生产率的变化归功于工资的增长?
→ 研究中使用了哪些生产率指标,效果被监测了多长时间?
→ 还有哪些其他可能相关的分析或数据?
当然,提问的语气很重要。你必须本着真正的好奇心,带着学习和获得合理建议的态度提出这些问题。
无论证据是来自外部研究还是内部数据,在做出重大决策之前,对其进行全面彻底的研究分析都是至关重要的。在我们与多家公司(包括数据量庞大的科技公司)的互动中,我们注意到这种做法并没有得到始终如一的贯彻。先入为主的观念、并不恰当的类比以及群体思维往往主导着对证据的讨论。心理学和经济学的研究表明,一些偏见(例如基础比率谬误,即倾向于忽视一般统计信息而偏好具体案例或小概率事件,以及确认偏差,即倾向于寻找并偏重支持现有观念的证据)也会阻碍对证据的系统性评估。但这些错误模式并非不可避免。基于我们的研究、与公司的合作以及我们的教学经验(包括领导力和商业分析方面的高管教育课程,以及最近开设的名为“数据驱动型领导力”的MBA课程),我们总结出了一种可以被管理者们应用于数据讨论的普遍方法,帮助他们更好地做出决策。
01
检验因果关系有效性
搜索引擎广告会增加销售额吗?允许员工远程工作是否会降低员工流失率?这些问题涉及因果关系,也正是数据分析能够帮助回答的问题类型。事实上,已有许多论文对这些问题进行了详尽的研究。然而,管理者们却经常误解这些研究和其他研究的结果如何适用于他们自己的业务情况。在做决策时,管理者们应该考虑这些结论的内部有效性——分析它们是否在所研究的场景中准确地回答了问题。他们还应该考虑这些结论的外部有效性——在多大程度上可以将它们从一种场景推广到另一种场景。这将帮助管理者们避免决策过程中五种常见的错误:
将因果性与相关性混为一谈。尽管大多数人都知道关相关性不等同于因果性,但这种错误却出乎意料地常见。以eBay的广告策略为例:多年来,该公司一直在谷歌等搜索引擎上投放广告,希望通过吸引更多客户来增加需求量。一份咨询报告指出,当一个市场上出现更多eBay广告时,这个市场中用户在eBay上购买的总价值就会更高,因而得出这些广告有效的结论。可惜的是,这份报告的结论是错误的。加州大学伯克利分校史蒂文·塔德利斯(Steven Tadelis)领导的经济学家团队进行的一项实验,让eBay公司最终意识到这些广告与需求量之间只是关联关系,因为这些广告针对的是本来就很可能会访问eBay的人群,以及在即使没有广告的情况下,对eBay需求也会激增的市场。
要了解因果关系,就要深入探讨相关研究的实施方式。例如,研究人员是否进行了随机对照试验,将受测试人群随机分配到两组:实验组接受干预条件,对照组则不接受?随机对照实验通常被认为是评估因果关系的金标准,不过这样的实验并不总是实际可行的。研究人员也许会选择通过自然实验来观察某一事件或政策变化对特定群体的影响。例如,如果进行一项衡量某项福利影响的实验,研究人员可以通过抽签选出福利的受益人,然后比较这项福利如何改变了中签者和未中签者的境遇或行为。
没有机会进行计划实验或自然实验的研究人员,可以在数据分析时尝试控制潜在的混杂因素——那些影响被关注变量的变量,虽然这在实操中可能会具有挑战性。例如,如果要评估培训项目对生产率的影响,就必须确保在数据分析中控制了先前经验以及其他可能影响生产率的因素。
低估了样本量的重要性。设想有两家医院:一家是每年接生数千名婴儿的大医院,另一家是每年接生几百名婴儿的小医院。你认为哪家医院的男婴出生率超过60%的天数会更多?
答案是小医院,因为它每天出生人数的变化更大。而小样本量则更有可能表现出更大的统计波动。心理学家丹尼尔·卡尼曼(Daniel Kahneman)和阿莫斯·特沃斯基(Amos Tversky)在他们关于认知偏见与启发法的经典著作中发现,大多数人对于该问题的答案都是错误的,会有一半以上的人说“差不多”。人们往往低估了样本量对估算精确度的影响。这种常见错误会导致糟糕的决策。无论是想知道该在多大程度上相信线上评论、如何解释生产力趋势背后的动因,抑或是要给予广告实验结果多大的权重,被分析的样本量都是需要考虑的重要因素。
在评估因果关系中的“果”时,除了要询问样本量大小,对置信区间的询问也会有所帮助。置信区间提供了一个真实效果(去除了混杂因素的影响)可能所在的数值范围,以及对其所在该范围内的确定程度。这些问题的答案应该会左右你将采取哪种行动方案的讨论。
关注了错误的业务成果。罗伯特·卡普兰和大卫·诺顿在1992年发表在《哈佛商业评论》上的经典文章《平衡计分卡——驱动绩效的指标》(The Balanced Scorecard—Measures That Drive Performance)中,以一个简单的观点开篇:“你衡量什么,就会得到什么”。虽然他们的文章发表于现代数据分析时代之前,但这一观点在如今比以往任何时候都更加贴切。实验和预测性分析通常会关注那些容易衡量的结果,而不是那些公司领导者真正关心却很难甚至无法确定的业务成果。因此,所选择的成果指标往往不能完全反映公司运营的普遍绩效。
让我们回到增加工资的例子。成本很容易衡量,而生产率的提高却很难量化。这可能会导致管理者狭隘地只关注工资提高导致的成本增加,而忽视了工资提高带来的潜在收益。更广泛的分析应采用类似于经济学家纳塔利娅·伊曼纽尔(Natalia Emanuel)和艾玛·哈灵顿(Emma Harrington)在研究中使用的方法。她们试图了解一家大型在线零售商设定的仓库员工薪酬水平的潜在影响。研究人员考察了2019年仓库工人加薪后生产率的变化,发现生产率和营业额的提高幅度是如此之大,远大于加薪带来的成本增加。他们在研究高薪对客户服务人员的生产率和流失率的影响时,也发现了类似的结果。
同样重要的是,要确保所研究的成果能够很好地代表实际要考量的机构目标。有些公司只跟踪了几天的实验结果,就认为它们是长期效果的有力证据。在针对某些问题和场景时,短时间的跟踪很可能是不充分的。亚马逊就是一家努力避免这一问题的公司:它投入巨资来探索可能的产品变化所产生的长期成本和收益。对业务成果的相关性和诠释的评估方法有很多,从明确讨论其局限性到正式分析短期效果与长期效果之间的关联等,不一而足。
要想真正从任何数据集中有所收获,你都需要问一些基本问题,比如:我们都衡量了哪些业务成果,是否包含了所有与我们必须做出的决策相关的成果?它们是否足够概括,以至于我们能够捕捉到关键的预期与非预期后果?对它们跟踪的时间长短是否恰当?
误判了普遍适用性。以仓库员工工资增长为例,一个至关重要的问题是,针对一组仓库研究所得的结果对另一组仓库意味着什么。此外,公司可能希望了解这些结果如何适用于在餐厅或零售店等不同环境工作的员工。
我们看到公司领导者们在判断普遍适用性时,往往会走向两个极端,过高或者过低估计了研究结果的适用性。例如,当一家大型科技公司的工程高级副总裁告诉我们,他的公司规定在招聘工程师时不考虑大学成绩时,我们向他询问了这样做的理由。他说,谷歌已经“证明了成绩并不重要”——指的是他在某处读到的谷歌某高管声称学校成绩和职业发展之间没有关联的评论。他把这条信息当成了放之四海而皆准的真理,实际上却忽视了这一结论的内部和外部有效性的潜在局限性。
在评估研究结果的普遍适用性时,针对可能解释该结果的机制以及这些机制是否适用于其他情况的讨论,可能会有所帮助。你可能会为此提出诸如以下的问题:这项研究的设定与我们的业务有多相似?分析的背景或时段让研究结果与我们的决策更加相关或更不相关?所研究样本的构成情况如何,及其对研究结果的适用性有何影响?产生的效果在不同的子群体之间是否有所不同?
偏重于某个具体结果。盲目依赖于单一经验性发现而不对其进行系统性讨论,就像轻率地认为其与你的情况无关而不予考虑一样不明智。为避免这一错误,你有必要去查看关于这一主题的其他研究。另一个不错的选项是在你自己的机构内进行实验或更深入的分析。而你需要提出的问题应包括:是否有其他分析验证了这些研究结果和研究方法?我们还可以收集哪些额外的数据?以及,收集更多证据产生的效益是否会超过与其相关的成本?
02
从勇于发表意见开始
1906年,弗朗西斯·高尔顿爵士(Sir Francis Galton)对一次畜牧展览会中猜测公牛体重的比赛结果进行了数据分析,其结果意义深远。虽然每个人猜测的重量误差大小各异,但猜测的平均值却几乎精准无误,这一结果展示了群体智慧的威力。然而,驾驭这种智慧却是一个挑战。群体智慧发挥出最佳表现时,往往是因为其建立在鼓励积极主动和多元参与的机制之上。否则,群体也可能会放大偏见——尤其是当他们的观点同质化时。
为了克服偏见,公司领导者可以邀请具有多元视角的人员参与讨论,要求他们质疑观点并加以拓展改进,同时确保讨论是基于高质量的数据并能够进一步深挖。[请参阅大卫·盖文(David A. Garvin)和迈克尔·罗伯托(Michael Roberto)于2001年9月在《哈佛商业评论》发表的《关于决策,你所不知道的秘密》(What You Don’t Know About Making Decisions)一文。]对不同意见和建设性批评的鼓励有助于消除集体思维,帮助团队更好地预见意外后果,并避免过度依赖领导者的意见。领导者还必须促使与会者考虑决策对不同利益相关者的影响,并有意识地打破各自为政的孤立视角。
这类讨论有助于确保团队对证据进行深思熟虑的权衡。但是,即使看起来富有成效的讨论也常常会偏离正轨。无数研究表明,机构中的等级制度会导致人们隐瞒自己的不同意见,当与会者没有心理安全感时,他们往往不愿分享潜在的相关数据或提出更深入的问题。我们这里所说的心理安全感,是指与会者相信坦诚是理所应当且不受惩罚的。没有必要的心理安全感,我们阐述的方法就不太可能奏效。
当团队成员认为他们提供的数据、想法、顾虑以及不同观点会受到同事和管理者的重视时,团队将会从中受益。最重要的是,在许多讨论中,与会者都应将提出探究性问题视为自己工作的一部分。
关于如何在团队中建立心理安全感的论述已经有很多了。[参见詹姆斯·迪特特(James R. Detert)和艾米·埃德蒙森(Amy C.Edmondson)于2007年5月在《哈佛商业评论》发表的《为什么员工害怕发声》(Why Employees Are Afraid to Speak)一文。]但是,对于一个旨在利用证据做出商业决策的团队来说,建立心理安全感尤为重要——这样,团队成员就不会因为害怕提呈不受欢迎的发现而导致关键数据缺失。
心理安全感不足导致的寒蝉效应,在Facebook对一项实验研究的回应中表现得尤为明显。这是一个探究展现更多积极或消极帖子是否会影响用户情绪的实验。2014年,由于公众对这项研究的强烈反对(部分原因是人们不知道Facebook正在进行此类实验),CEO马克·扎克伯格(Mark Zuckerberg)终止了正在进行中的这类对外研究项目。正是这一决定使得员工们不敢再开展其他主动探索Facebook社会影响的实验。直到最近,扎克伯格才改弦更张,重新表达了对这类对外研究的兴趣。然而,如果扎克伯格在十年前就选择在公司内部营造出一种安全的心理氛围,让高管们感觉能够坦诚详尽地讨论社交媒体的负面影响,那么该公司也许就能避免近期一些与虚假信息及用户健康相关的声誉挑战。
03
从数据到决策
面对不确定性,决策必然是一个迭代的过程;它需要定期暂停,对决策的信息和过程进行反思。高效的团队会从数据中学习,相应地调整计划,并有意识地提升团队讨论的水平。
花时间去讨论分析中的细微差别(包括样本大小和构成、所衡量的业务成果、为区分因果性和相关性所采用的方法,以及分析结果在多大程度上可以适用于不同情境),对于理解证据如何能够,或不能,为特定决策提供依据至关重要。其实,经过仔细斟酌,每项实证结果都揭示了决策拼图的一部分,能够帮助公司理清不同的变化是否以及何时可能会产生影响。这些讨论还将为公司更加严谨地收集数据奠定基础。
即使在理想情况下,证据也很少是确定无疑的,而一项商业举措将如何发挥作用也是不确定的。但是,你仍然可以力求在现有或可能获取的信息基础上,做出深思熟虑的选择。通过采用系统性方法来收集、分析和解释信息,你可以更有效地从不断增加的内部和外部数据中获益,并据此做出更明智的决策。