全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2055 0
2020-08-14
使用SAS Viya一见钟情
改变游戏规则系列
Boemska业务分析实习生Stefan Dimitrov Stoyanov
正如您在第一 篇和第二篇有关SAS Viya的文章中可能已经注意到的那样,我对SAS内存云分析平台一见钟情。但是,您相信您可以与某人一见钟情吗?
根据2017年精英单打民意测验,大多数人同意,是61%的女性和72%的男性。格罗宁根大学进行的研究也支持这些结果。因此,有可能像我一样,你是一个绝望的浪漫信徒。:)
我从未完全考虑过让人们如此突然坠入爱河的原因。就是说,直到我碰上SAS Viya视觉数据思维和学习学习免费试用版。它引导我完成了对哥伦比亚大学( Kaggle)托管的快速约会数据集的分析和可视化。通过这次试用以及GitHub挑战-我将在本文中讨论这两者-SAS Viya帮助我们第一次认识最重要的因素,以及如何预测与该特殊人物的潜在匹配。
根据调查结果,我为下一次约会感到更加准备。正如我将在本版#GameChanger系列中所展示的那样,SAS Viya再次成为我的游戏规则改变者!?
了解数据
哥伦比亚大学商学院教授Ray Fisman和Sheena Iyengar进行了一项实验。它由2002年至2004年的一系列快速约会聚会组成。哥伦比亚大学通过在实验的不同阶段进行调查收集数据。在每次聚会之前,参与者都会回答有关年龄,区域,职业,兴趣和爱好以及他们对快速约会活动的期望等人口统计问题。此外,还要求他们在六个关键特征上赋予自己的重要性:吸引力,野心,智慧,乐趣,诚意和共同利益。在聚会期间,与会者花了4分钟与来自异性的每个参与者交谈。每隔4分钟,他们被要求对相同的六个关键属性进行日期评分。与会者不得不说是否要再次见其他与会者。收集到的信息形成一个具有195列和8000多个记录的数据集。
一旦开始免费试用,我就可以立即通过精美而全面的Visual Analytics报告探索此数据集。最酷的功能是它以单个交互式仪表板的形式可视化数据。因此,我可以一目了然地看到有关实验参与者的宝贵新知识。
例如,我可以立即注意到参与者是非常社交的。但是,与此同时,大多数人却很少约会。更有趣的是,我已经看到一个人一见钟情的主要因素之一就是另一个人是否很有趣。?
我喜欢的是仪表板是交互式的,可以让我快速探索更多的见解。如果需要仔细查看,可以扩展图表。通过选择报告顶部的性别选择,我什至能够仅针对女性或男性修改图表。通过单击特定的图表并打开一个信息窗格,我可以看到更多有趣的见解。例如,通过浏览“兴趣相关度”图表,您可以找到最有机会根据自己的兴趣进行匹配的人。
通过遵循免费试用版中的分步说明,只需在SAS Viya Visual Analytics工具中单击几下,便可以在几分钟内创建以下框图:
这两个方框图显示出,男人在智力方面排名最高,其次是诚心和野心。女性成绩似乎在六个属性中分布更为平均,其中只有“共同兴趣”的得分明显较低。
既然我们已经揭示了一些有趣的事实,那就是男女参与者如何相互评分,您是否想知道其中有些人是否参加了比赛?
创建数据自动分析
SAS Viya Visual Analytics环境中的“自动分析”机器学习对象帮助我快速确定了哪些变量会影响匹配。按照分步说明进行操作,我可以轻松地在试验中建立第一个基本的机器学习预测模型。您可以在一个交互式仪表板中很好地排列所有结果。但这还不是全部,最令人印象深刻的是,您甚至不需要努力解释数字和图表。SAS Viya代替您而不努力。SAS Viya应用自然语言处理以易于理解的文本形式自动生成有价值的见解。
自动化分析显示,在所有4184个速度日期中,有16.49%进行了比赛(690对)。顶部的彩色条按相对重要性对比赛的预测变量进行排序。它从左边最重要的预测变量开始。乐趣,其次是女性的共同兴趣和吸引力得分,男性的吸引力,娱乐和共同兴趣等级是成功比赛的最重要预测指标。这意味着,如果雌雄双方都认为在速滑约会中的伴侣很有趣,有共同的兴趣并且很有吸引力,那么比赛的机会就很大。
比赛还需要什么?自动化模型算法计算变量不同组合的匹配概率。仪表板显示,当女性和男性都发现自己的伴侣很有吸引力并且女性认为男性拥有自己的兴趣时,则有64.09%的匹配机会。
在顶部的彩色栏中,我还可以单击一个预测变量。然后,从右边的图表中,我将看到所选变量与匹配数之间的关系。例如,在上方的屏幕截图中,所选预测变量为2_154 –女性共享兴趣得分。您可以在条形图下方看到SAS自然语言处理算法生成的见解。结果表明,当一个男性的共同兴趣得分为6、7或8时,yes(匹配)的总数很高。
有趣的是,并非总是某个特定特征的最高得分导致了最多的比赛。
建立先进的机器学习模型,以发现对一见钟情的最佳预测<3
现在我们可以走得更远。免费试用版教会我们轻松,快速地构建,导航和评估不同的机器学习模型,以找到预测匹配的变量的最佳组合。您将探索“决策树”,“梯度提升”和“森林”。我什至学习了如何将开源python模型集成到SAS Viya中。此外,SAS Viya使我们能够自动比较和选择性能最佳的模型。哇!
在下面,您可以在一个称为“管道”的交互式图表中查看模型的完整结构化分析工作流程。它在Model Studio中提供-SAS Viya的基于Web的视觉界面,用于进行视觉机器学习。
使用准备好的模板更快地建立预测模型
SAS Viya通过使用准备好的模板,可以更快,更轻松地构建机器学习模型。免费试用版向我展示了如何在我的项目中包含要素工程管道模板。
通过探索,我了解了在尝试改善一见钟情的预测指标时可以使用的各种数据预处理技术。例如,免费试用版向我展示了如何真正快速地创建新功能,以及如何在构建模型时将有监督的方法与无监督的方法结合起来以选择最重要的变量。我还通过实际示例了解了如何执行早期停止以防止模型过度训练。这样,它可以做出更准确的预测。不错,不是!?
一见钟情自动预测最重要的爱情预测因子
免费试用版应用了SAS Viya出色的自动化模型可解释性功能。它为我们提供了一些图表,可帮助我们了解模型的最重要预测变量并比较许多不同模型的结果。这样,我们可以选择最好的一个。
选择了我们的冠军模型后,免费试用将向我们展示如何将其部署到生产中并对数据进行评分。现在,您可以看到SAS Viya使您能够经历整个分析生命周期,从数据发现到在一个集成环境中进行模型部署。真方便!
Model Studio包含许多很棒的工具,使您可以在使用SAS Viya进行机器学习时提高生产力。
预测一见钟情-GitHub挑战!
在展示了如何对模型进行调整之后,免费试用脚本向我们展示了其模型冠军。梯度提升模型以0.1267的验证错误分类率(事件)表现最佳。也就是说,仅在12.67%的情况下,该模型做出了错误的预测。对于速度日期的87.33%,模型正确地预测是否存在匹配项。从该模型中,我们可以看出,确定比赛的最佳预测因素是:女性的娱乐得分,男性的吸引力得分,女性的研究领域,女性的吸引力得分和女性的共同兴趣得分。
但是,这真的是影响两个人彼此了解的最好的预测因素吗?我们能否获得性能更好的模型,从而更准确地预测女性与男性之间的匹配?这是审判给我们带来的挑战。我接受了。
我决定再迈一步。我们正在尝试预测两个人之间是否存在匹配。在机器学习中,这意味着我们有两个类的目标–是/否。因此,我在项目中添加了“用于类目标的高级管道模板”。我在其中包括了变量增强数据预处理节点,然后是梯度提升模型节点。我还设置了管道中节点的一些选项。然后,我使用了独特的SAS Viya自动调整功能。这个动作帮助我找到了模型的最佳超参数。
我成功建立了一个机器学习模型,该模型比免费试用版中的模型冠军精确度高1.85%。我的梯度提升模型以0.1091的验证错误分类率(事件)表现最好。也就是说,仅在10.91%的情况下,模型做出了错误的预测。对于89.09%的速度日期,模型可以正确预测是否存在匹配项。
从该模型中,我们可以确定确定比赛的前10个预测指标:女性的吸引力得分,女性的乐趣得分,男性的吸引力得分,男性的乐趣得分,女性的比赛预估次数,女性的共同兴趣得分,共同的男性的兴趣分数,喜欢的分数,男性的概率伙伴喜欢您,女性的概率伙伴喜欢您。
因此,您可以看到,根据我的SAS Viya预测模型,影响一见钟情的基本因素之一是乐趣,吸引力和共同利益。但是,在这里我们可以看到一些有趣的预测变量。“概率合作伙伴按女性喜欢您”表示女性如何认为男性会在总体喜欢分数上给他们打分。同样,“概率合作伙伴按男性喜欢您”表示男性如何认为女性会在总体喜欢等级上给他们打分。就是说,我们认为我们的约会对我们有多喜欢是我们“一见钟情”感觉的重要催化剂!   
约会结束后,每个伴侣都给出了总体“您对这??个人的满意程度”分。“差异得分”是两个得分之间的差异。例如,如果男性给女性的总体喜欢评分为8,而女性给整体的喜欢评分为7,则此变量将为1(8-7)。如果两个伴侣彼此喜欢的方式没有显着差异,则这对夫妇更可能进行配对。  
基于预测的“女性比赛数”,我们可以看到另一种有趣的趋势。 如果一位女性认为自己在速滑比赛中会参加比赛,则更有可能发生这种情况。
为下一次约会做更好的准备。击败我最好的预测模型!
您为什么不尝试建立新模型?您可能会发现一种更准确的方法,可以提供更好的一见钟情。如果您这样做,请下载模型并将其上传到SAS Viya Trials Challenge GitHub存储库。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群