全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
893 0
2020-10-22
使业务假设与规定的结果可行
第1课:创建可行的(预测性)业务假设
学生创建的几个业务假设过于广泛和笼统,但更重要的是,它们缺乏使业务假设可行的特定性。为了使该假设可行,该假设必须设法预测有关关键业务实体(例如航空公司,机场,星期几和一天中的时间)的特定结果,以便提出规范性建议。假设越集中,细化,合理和可行,数据科学团队的成功就越好。一些团队在建立他们想证明的假设方面做得很好:     
一个团队试图根据一周中的某天预测商务人士应该走的路线,这对我们商务旅行者来说非常好!
另一个团队试图了解气候变化对机场延误的影响,这也是很大的(尽管他们选择机场可能会阻碍其分析的有效性)。
一个团队试图预测航班延误,稍后我将讨论该团队。
一些团队奋斗的另一件事是,在构建“假设发展”画布时,理解了描述性分析与预测性分析之间的区别。 再次,假设应该集中在预测上。 例如:
确定性能最差的[航空公司]或[机场] –这是发生情况的描述性分析。
预测[航空公司]或[机场]何时可能处于最坏状况以及在什么情况下–这就是Predictive Analytics,因为我们正试图预测可能会发生什么结果。
尽管描述性分析对于尝试识别和理解可能隐藏在数据中的趋势,模式和关系很重要,但描述性分析还不够。 您的数据科学之旅不能止于描述性分析。 最终,人们必须尝试预测特定的结果(整理数据中隐藏的模式,趋势和关系),以便他们可以提出规范性的建议或行动(最终推动货币化或增加收入机会)。
第2课:数据准备的重要性
团队遇到的另一个挑战是推导尚未标准化的基于假设的数据。 团队发现在比较航空公司,机场,航线,星期几和时间时存在“见解”延迟,但有时在某些情况下,这些“见解”最终导致误导甚至是错误的,因为某些情况下数据没有被标准化以进行比较和分析。目的。
在进入数据分析之前,请确保使用指数,比率,“总计百分比”,“基础百分比”,法线等效曲线(NCE)等技术对数据进行归一化来比较各个苹果和分数。
另一种有用的数据准备技术是数据“条带化”,即将数值数据分类为值范围(或条带)。 将数据分成相关范围或分段可以提高分析的质量和可操作性。 我们的航班数据中的带状示例包括:
班机延误:可以忽略的延误(少于10分钟),烦人的延误(10到30分钟),严重的延误(30到90分钟),破坏性延误(超过90分钟)。
分组飞行路线类型:短途vs远程,直航vs连通
当您开始跨频带分析时,这种划分变得更加有趣。 例如,如果在交通繁忙的一天中出现紧密的联系,那么45分钟的延迟可能会毁灭性的(由于没有可用的座位,因此只能选择搭乘下一班航班)。
是的,可怕的级联延迟问题!
通过与业务利益相关者和主题专家合作来了解逻辑波段,可以从中受益(如果您与我交谈,我可能会分享很多有关航班延误的见解)。 并期望尽管主题专家给您提供的频段是一个很好的起点,但是您的分析可能会掩盖更相关和有见地的数据频段。
第3课:谨慎对待平均值,因为荷马·辛普森潜伏着!
学生可能遇到的最大问题是使用平均值进行假设和决策。
如果您基于平均值进行分析,那么您只会得到平均值。
幸运的是,我们遇到了辛普森(而不是荷马·辛普森(Homer Simpson)的)悖论的一个例子。辛普森悖论是一种概率现象,其中趋势出现在精细的数据组中,但是当这些组合并或聚合时,趋势消失甚至逆转。幸运的是,我们找到了一个与航班延误有关的真实示例。   
图1显示了阿拉斯加航空和美国西部的真实航班准点性能数据(这是一个有限的旧数据集,但足以支持我们的课程)。 令人惊讶的是,在每个机场,阿拉斯加航空的“延迟延误率”都比美国西部低(更好),但总体(当对5个机场进行汇总时)美国西部(10.9%)却更低(更好) )的“延迟百分比”效果高于阿拉斯加(13.3%)。
怎么可能?
图 1:阿拉斯加航空公司在每个机场的表现如何能超过美国西部,但整体表现却较差?
经过仔细检查,我们注意到图1中的“航班延误”数据比较了按字母顺序排列的机场的“延误百分比”表现(例如,将洛杉矶与洛杉矶进行比较,将凤凰城与凤凰进行比较)。但是航空公司从不同的机场起飞的航班数量差异很大,在逐个机场比较“延误百分比”平均值时,这会被掩盖。
如果我们重新组织绩效分析以根据每家航空公司的相对重要性(交通)来比较机场,我们将获得完全不同的印象。 也就是说,数字是相同的,但我们只是通过对每个航空公司的交通量与按字母顺序排列的机场进行排名(参见图2),从而得出了一个不同且更相关的观点。
图 2: 航空公司最重要的机场对“延迟百分比”的分析
示例1:西雅图是阿拉斯加最重要的机场(这是西雅图的枢纽机场,占我们数据集中所有阿拉斯加航班的57%),阿拉斯加的“延迟延迟百分比”为14.2%。 另一方面,凤凰城是美国西部最重要的机场(这是他们的枢纽,在我们的数据集中占其航班的73%),美国西部的“延误百分比”为7.9%。
请注意,美国西部航空公司在西雅图的表现也很糟糕,但通过西雅图的交通量要小得多,因此对美国西部航空公司整体“延误百分比”的影响较小。
底线:西雅图只是一个想要避免的机场!
例2:让我们扩大分析范围,检查阿拉斯加和美国西部两个最重要(最繁忙)的机场的性能。阿拉斯加航空的两个最重要的机场是西雅图和旧金山,它们占总航班的73%。 美国西部的两个最重要的机场是凤凰城和洛杉矶,它们占总航班的84%。 阿拉斯加最重要的两个机场的准点率(“延误率” = 14.8%)比美国西部最重要的两个机场的准时率(“延误率” = 8.8%)要差得多。
底线: 与在西雅图和旧金山枢纽的阿拉斯加相比,美国西部航空公司在凤凰枢纽的“延误百分比”绩效要好得多,这就是为什么在总体总体水平上,美国西部航空公司的“延误百分比”绩效比阿拉斯加更好。
当您重新组织分析以从更相关的角度查看数据时(基于我们的示例中大多数机场的重要性或交通量,而不是字母顺序),来自数据分析的洞察力将变得更相关,更可操作并最终更正确。
有关辛普森悖论的更多信息,请参见“研究设计和统计简介”和/或“辛普森悖论和城市统计传奇:Ber ...的性别偏见”。
最终获胜者是…
我想在我们的黑客马拉松比赛中重点介绍一支确实把球击出公园的球队。 该小组由南加州大学的学生Chotika Chansereewat和Thuy Tran组成,他们得到了Sheila Jung和Good Data的Phil Farr的帮助。他们所说的业务假设是“开发和货币化飞行搜索引擎中的一项新功能,该功能可以预测航班取消。”
他们完成了所有必需的描述性分析工作,这些工作导致使用线性回归创建以下预测模型(请参见图3)。
图 3: 航班取消预测模型
我知道图3中的预测模型存在一些问题,如果他们花了几个小时以上的时间来构建预测模型,他们会解决的。 最重要的是,他们创建了预测模型! 现在,他们有了可以开始测试新数据集,新变量甚至新分析算法的知识。
不要让完美阻碍前进!
但是,团队并没有停止使用预测模型-他们有一个出色的想法,即如何通过预测货币化(见图4)!
图 4: 通过航班预测获利(通过航班保险)
他们的想法是将他们的预测模型与航空公司的预订网站或应用程序集成在一起,并将他们对航班延误可能性的预测作为出售航班延误保险的机会。 绝对辉煌??!
像数据科学家一样思考
对于组织来说,仅仅了解他们的数据和不同的分析技术是不够的。 希望利用高级分析(机器学习,深度学习,人工智能)潜力的组织必须向其业务利益相关者传授“像数据科学家一样思考”。
在《哈佛商业评论》的标题为“如何建立AI研发实验室”的文章中,强调了使整个组织“像数据科学家一样思考”的重要性:
“领导者在这里往往会错过的是,我们在人工智能方面取得的科学进步不会自动使该技术适应任何环境。从专有数据类型到操作约束和合规性要求,每项业务都面临着自己独特的挑战和要求,这可能需要额外的自定义和科学进步。”
我们的USF课程旨在向明天的商业领袖讲授重要的数据科学操作因素,例如了解误报和误报的成本(这是一项业务决策而非技术讨论),以及批判性思维的重要性(例如存在辛普森(Simpson)的悖论),并在一个由可疑的分析学科主导的世界中持怀疑态度。 正如您在此博客中所看到的那样,我们必须确保我们正在教会我们的业务利益相关者对最初的结果表示怀疑,并在他们试图发现可行的,准确的,数据集中包含真实的客户,产品,服务和运营洞察力。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群