数据科学项目的假设生成-关键问题解决步骤
解决数据科学项目中问题的第一步与构建
机器学习模型无关。是的,你看的没错!
这种区别属于假设的产生-将我们的问题解决能力与我们的业务直觉相结合的步骤。这是确保成功进行数据科学项目的真正关键的一步。
老实说-我们所有人几乎每天都会想到一个假设。让我们考虑一下印度著名的板球运动的例子。在每年的那个时候IPL发烧很高,我们全神贯注于预测获胜者。
如果您一直在基于各种因素(例如体育场的规模和具有六次击球能力的团队中的板球运动员或具有较高T20平均水平的板球运动员)来猜测哪支球队会获胜,那么对你们所有人来说都是荣誉。你们都在进行有根据的猜测并根据您对这项运动的领域知识生成假设。
假设检验
同样,使用机器学习解决任何业务问题的第一步就是假设的产生。了解具有良好领域知识的问题陈述很重要,提出假设将使您进一步接触到新的问题解决思路。
因此,在本文中,让我们深入研究假设生成是什么,并弄清楚为什么它对每个数据科学家都很重要。
目录
什么是假设生成?
假设生成与假设检验
假设产生如何帮助?
什么时候应该执行假设生成?
案例研究:使用纽约市出租车行程持续时间预测的假设生成
什么是假设生成?
假设的产生是各种因素的有根据的“猜测”,这些因素正在影响需要使用机器学习解决的业务问题。在构筑假设时,数据科学家必须不知道基于任何证据生成的假设的结果。
“假设可以简单地定义为猜测。科学的假设是明智的猜测。” –艾萨克·阿西莫夫(Isaac Asimov)
假设生成是任何数据科学项目中至关重要的一步。如果您跳过或略过,项目失败的可能性将成倍增加。
假设生成与假设检验
这是数据科学初学者经常犯的错误。
假设生成是一个从有根据的猜测开始的过程,而假设检验是一个推断有根据的猜测是对/错误或者变量之间的关系在统计上是否有意义的过程。
后一部分可以使用统计证明进行进一步研究。根据用于检验假设的测试的显着性水平和测试分数,接受或拒绝假设。
要详细了解假设检验,您可以在此处阅读,也可以通过本课程学习。
假设产生如何帮助?
假设产生在数据科学中如此重要的五个关键原因:
在我们深入研究推断影响目标变量的各种因素时,假设的产生有助于理解业务问题
您将更好地了解解决问题的主要因素是什么
需要从各种来源收集的数据,这些数据是将业务问题转换为基于数据科学的问题的关键
如果您花时间了解问题,则可以提高您对领域的了解
有助于以结构化方式解决问题
什么时候应该执行假设生成?
百万美元的问题–在世界上什么时候应该进行假设生成?
假设生成应在查看数据集或数据集合之前进行
您会注意到,如果您充分地完成了假设生成,那么您将在假设生成中包括数据集中存在的所有变量。
您可能还包含了数据集中不存在的变量
案例研究:基于“纽约市出租车行程持续时间预测”的假设生成
现在让我们看一下“纽约市出租车行驶时间预测”问题陈述,并生成一些假设,这些假设会影响我们的出租车行车时间,以了解假设的产生。
这是问题陈述:
预测行程时间,以便公司可以为下一次行程分配免费的出租车。这将有助于减少客户的等待时间,也将有助于赢得客户的信任。
让我们开始!
基于各种因素的假设生成
1.基于距离/速度的功能
让我们尝试提出一个公式,该公式与旅行持续时间有关,并且可以帮助我们针对该问题生成各种假设:
时间=距离/速度
距离和速度在预测行程时间中起着重要作用。
我们可以注意到,行程时间与行进距离成正比,与出租车的速度成反比。利用这一点,我们可以得出基于距离和速度的假设。
距离:出租车行驶的距离越长,行驶时间越长。
内部落点:到拥挤或内部车道的落点可能会增加旅行时间
速度:速度越高,行程时间越短
2.基于汽车的功能
汽车具有各种类型,大小,品牌,并且这些功能对于通勤而言不仅对乘客的安全至关重要,而且对于旅途时间也至关重要。现在让我们根据汽车的特征生成一些假设。
在CA的条件[R :好空调车都不太可能有故障问题,可以有更低的时间之旅
汽车尺寸:根据汽车的尺寸和城市的拥堵情况,小型汽车(掀背车)的出行时间可能较短,大型汽车(XUV)的出行时间可能会更长
3.旅行类型
行程类型因旅行供应商而异-可能是站外旅行,单人旅行或游泳池旅行。现在让我们基于所使用的行程类型定义一个假设。
池汽车:与池旅行能带来更高的行程持续时间为车到达您指定的目的地之前到达多个地方
4.基于驱动程序详细信息的功能
上班时间是驾驶员的重要角色。有关驾驶??员的各种因素可以帮助您理解行程持续时间的原因,以下是一些假设。
驾驶员年龄:年长的驾驶员可能会更加小心,可能会导致旅行时间更长
性别:女司机可能会慢速行驶,可能会增加出行时间
驾驶经验:驾驶经验很少的驾驶员可能会导致出行时间延长
医疗状况:患有医疗状况的驾驶员可能会导致出行时间延长
5.乘客详细信息
乘客可以有意或无意地影响旅行持续时间。我们通常会遇到乘客要求司机在他们迟到时提高速度,并且可能还有其他因素需要我们去考虑。
乘客年龄:老年人作为乘客可能会增加旅行时间,因为驾驶员在涉及老年人的旅行中往往会变慢
医疗状况或怀孕:患有医疗状况的乘客会延长旅行时间
紧急情况:发生紧急情况的乘客可能会缩短旅行时间
乘客人数:由于座位拥挤,较高的乘客人数导致行程时间缩短
6.日期时间功能
星期几和时间很重要,因为纽约是一个繁忙的城市,在办公时间或工作日可能会非常拥挤。现在让我们对基于日期和时间的功能生成一些假设。
接送日:
周末可能会导致更多的外出旅行,并且可能会有更长的旅行时间
由于交通繁忙,平日的出行时间往往较长
如果接送日为节假日,则旅行时间可能会缩短
如果接载日为节日周,则由于交通流量减少,行程时间可能会缩短
时间:
由于交通较少,清晨旅行的行程时间较短
由于繁忙时间,夜间旅行的行程时间较长
7.道路特征
道路类型不同,道路状况或道路障碍物是不可忽视的因素。让我们基于这些因素形成一些假设。
道路状况:如果道路状况不好,则行程时间更长
道路类型:混凝土道路上的出行时间通常较短
沿途罢工:沿行驶方向在道路上进行的罢工会导致行驶时间延长
8.基于天气的功能
天气随时可能变化,如果天气变坏,可能会影响通勤。因此,这是我们假设中要考虑的重要特征。
旅行开始时的天气:阴雨天气会增加旅行时间
题库