全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
727 0
2020-11-06
一点大学运动分析,但首先是一点数据争执
是大学体育迷,尤其是在有关哪个D1会议最好的辩论中非常活跃。五年前,我遇到了里尔菲尔德导演杯 ,这是根据硬数字进行的大学运动成绩的年度评估/排名程序。在单独的排名中,I,II和III类学校根据其在20多种性别和季节的大学运动中的排名而获得积分。在最终计算中,体育运动的权重是相等的,因此,女子赛艇的获胜者将获得与男子足球获胜者相同的积分。而且,将点数分配给每种运动中的许多顶级竞争者,并非没有一切。第一和第五之间的点差不是那么大。运动主管在其运动成绩单上将学校的DC总得分和得分视为重要成绩。的确,许多广告商在一定程度上是基于其导演杯的表现而获得奖金的。
历史导演杯数据 易于获取,尽管存在不易获取的pdf文件。当我第一次发现数据时,我立即着手对学校和会议对董事杯的排名进行为期五年的“研究”。(实际上,排名榜首并没有太多竞争:斯坦福红衣主教在过去的20多年里一直名列榜首。但是,仍然有会议吹牛的权利在争夺。)我的计划是研究FBS(顶级足球)会议在学年末排名以及秋季,冬季和春季“季节”中的比较情况。我认为汇总五年的数据将是一项简单的任务,并且我将花费大部分精力来尝试区分排名前六到十的会议。我错了。整理来自多年的数据最终变得更加艰巨。咄。
使用DC数据所面临的挑战反映了数据科学家在公司工作中所面临的挑战,这使得DC分析成为DS培训的理想之选。确实,我已经推荐了与分析/数据科学顶峰项目中的理事长杯为MS所做的类似的练习。
数据的第一个障碍显然是pdf格式。刚开始时,我只是从pdf物理上抓取数据,尽管后来我发现了一些可以使某些工作自动化的合理的软件包/库。现在有一些用于处理pdf表的漂亮工具。第二个挑战是表格格式几乎每年都在变化,因此每个报告都需要单独的代码。因此,如果您决定汇总三年,则意味着三个单独的数据争执。第三,在给定年度的报告中仅包括得分得分的学校,因此“较小”的会议可能不会每年都有所有的学校参加-而且记录的数量并不等于竞争对手的数量。一所学校可能代表一年而不是第二年。第四,报告随着时间的推移更改了学校和会议的名称,因此必须在多年汇总中加以考虑。例如,随着时间的推移,东南会议被同时表示为“东南”和“ SEC”,而“ UCLA”曾经被称为“加利福尼亚,洛杉矶”。最后,随着学校随着时间的推移切换部门和会议,存在尺寸变化缓慢的问题。直到几年前,马里兰州还参加了ACC会议。现在它是十大成员之一。数据仓库专业人员很好地理解了最后两个“机会”。而“ UCLA”曾经被称为“加利福尼亚,洛杉矶”。最后,随着学校随着时间的推移改变部门和会议的方式,尺寸会逐渐变化。直到几年前,马里兰州还参加了ACC会议。现在它是十大成员之一。数据仓库专业人员很好地理解了最后两个“机会”。而“ UCLA”曾经被称为“加利福尼亚,洛杉矶”。最后,随着学校随着时间的推移改变部门和会议的方式,尺寸会逐渐变化。直到几年前,马里兰州还参加了ACC会议。现在它是十大成员之一。数据仓库专业人员很好地理解了最后两个“机会”。
这是我身边时得到了发现Web应用程序之后开始塔布拉的和R版本tabulizer Java库,我决定试驾他们在2018年的DC数据,满以为从互联网上下载PDF至R data.table容易Munge时间。不是这样 同样,我在想什么?幸运的是,通过将注意力限制在每条记录仅八个属性上,我的任务变得更加容易,包括学校名称,会议,部门,总分,最终排名,秋季得分,冬季得分和春季得分。   
以下是用于下载最终的2018 DC pdf的R代码,最终产生了8个属性的R data.table。使用的技术是运行JupyterLab Beta和Tabulizer 0.2.2的Microsoft Open R 3.4.4。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群