全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
915 0
2020-12-22
我如何成为Scratch的数据科学竞赛大师
我最近在Zindi的《 Zimnat保险推荐》挑战赛中获得了最高奖项,这一成就在我的历史数据科学竞赛结果中名列前茅。
从纯粹的数字来看,这并不是我的第一个最高成绩,只是我在自己的数据科学竞赛中获得的30多个此类最高成绩中的一个。在从头开始并在机器学习黑客马拉松排行榜的顶级梯队中排名的这段时间里,我已经认识到通过经验进行学习的重要性,并且对上述报价的重要性没有足够的强调。
赢得数据科学竞赛是一个充满障碍的旅程。您正在与来自世界各地的顶级数据科学专家竞争,正在解决一个以前尚未解决的数据科学问题,并且您必须在严格的截止日期前完成所有这些工作!
但是我可以向您保证,只要知道自己在做什么,就可以完全打破排行榜的前3名。
这不旨在成为技术职位。这是关于我参加数据科学竞赛的旅程。当然,您现在应该如何以及为什么要开始。作为一个初学者,您当然不想错过阅读本文。敬请期待更多高级读者的技术文章,敬请期待!
正如我提到的,没有比实践数据科学更好的方法了。我鼓励您在延长的周末加入我们,参加有指导的社区黑客马拉松,数据科学竞赛专家将带您完成整个黑客马拉松现场直播:
HackLive 2 –指导社区黑客马拉松!
而且,您随时可以访问DataHack平台来练习数据科学技能或参加黑客马拉松!
我的数据科学竞赛之旅-从零开始到专家
在大学第三学期开始时,一位教授向我介绍了数据科学。他利用机器学习来发现类似于地球的行星以及外星生命的可能性。
好奇心随之而来,使我潜入了吴安德著名的机器学习课程。向我介绍了机器学习的各种应用程序,例如股市价格预测和自动驾驶汽车等。
进一步搜寻该领域的潜在机会,我发现了像Kaggle和Analytics Vidhya这样的平台。它进一步增加了我对数据科学的兴趣。下一个挑战是争分夺秒并不断进步,排在榜首–是的,我在谈论数据科学黑客马拉松!
我接触过的大多数初学者都觉得您需要首先了解机器学习的来龙去脉。只有这样,您才能开始参加数据科学竞赛。
这是一个很大的误解。
“参加数据科学竞赛,您只需要不断学习和改进的冲动。接下来将获得良好的排名。”
我的第一场比赛– Kaggle的Microsoft恶意软件预测挑战
让我快速谈谈我在Kaggle上的第一个严肃竞赛-微软恶意软件预测竞赛。这是在各种数据科学竞赛失败之后的几个月。但是直到现在为止,所有比赛中获得的经验都有所帮助。
在短短2周的时间里,我收到了一些意见书,跃升至公共排行榜的前20名。
随着时间的流逝,我与来自新加坡的一名学生,一位Kaggle大师以及来自伦敦,纽约和浦那的两名行业领袖组成了一个团队。在不同时区进行协作本身就是一个挑战,但是我们设法在Slack上日夜讨论和实施策略和模型。
最后,在我带领团队的情况下,我们在私人排行榜上排名第25位。这非常接近我们的公共排行榜排名21。考虑到公共排行榜前100名中几乎没有10支球队能够保持自己在私人排行榜上的位置,这是一个很好的成绩。
时至今日,我已经在各种平台上完成了30多个数据科学黑客马拉松的前3名。这包括我参与的几乎所有主要平台中的第一名(是的,Analytics Vidhya的JantaHack系列获得了两项第一名)。
因此,这是我从头开始征服数据科学竞赛的简要介绍。接下来,让我们了解一下,作为一个初学者,您如何开始参加数据科学竞赛。
如果我是初学者,如何开始数据科学竞赛?
这是我希望有人在我开始参加数据科学黑客马拉松比赛时给我的一条建议-参加您喜欢的任何比赛。最重要的是您开始。
Analytics Vidhya的JanataHack是每周进行的对初学者友好的系列比赛。最后,许多获奖者也很友善地发布了他们的解决方案。
刚开始的任何人都必须以点点滴滴的方式来解决以前的数据科学竞赛的获奖解决方案。当您遇到任何新的想法或概念时,请使用Google并花一些时间来理解它。如果您不能将学习的内容从一项竞赛转移到另一项竞赛,则您没有正确利用自己的时间。
深度学习到学习,转移学习非常重要。
如何参加数据科学竞赛?
在这里,我写下了一些在开始新的数据科学竞赛时应该牢记的关键指标。
我通常从一个非常简单的基线模型开始。只需查看数据,然后创建模型,而无需任何数据清理或功能工程
接下来,目标变为了解问题和数据以创建良好的验证集。一个好的验证集是必须的。只有这样,您才能信任您的本地结果。否则,请准备进行私人排行榜改革
功能工程是下一步的关键。优秀的功能总能区分赢家和前100名
随着比赛的临近,我通常会尝试建立各种模型,例如Gradient Boosting Models,Neural Nets等。然后将这些结果叠加或混合。合奏为您赢得竞争提供了优势。因此,这是您始终希望方便使用的工具
许多人不谈论的一件事是代码库的重要性。在任何数据科学竞赛中,时间都是至关重要的因素。您不应该浪费时间在多个比赛中一次又一次地编写相同的摘要。相反,将宝贵的时间集中在做新的更好的事情上
参加数据科学竞赛有什么好处?
这是一个有效的问题!数据科学竞赛需要您花费大量时间,是否值得?让我分享我在本节中的经验中的一些好处。
1.竞争与学习
在数据科学竞赛中,从问题解决到模型构建,您会学到很多东西。如果您想学习新的东西,比赛是最好的方法。在很短的时间内,您将进行大量的研究和实验,并且会发现自己不断在寻找更好的方法来改进模型。
2.联网
到目前为止,我已经与来自印度,新加坡,美国,英国,法国和非洲的25个以上不同的人合作参加了不同的数据科学竞赛。这些人的范围从学生到行业领袖。
老实说,网络是参加这些黑客马拉松的最大好处之一。结识志趣相投的人并与之互动无疑是您未来职业的一大资产。
多亏有了人际网络,我才将我目前的工作放在Analytics Vidhya上!
3.个人资料建设/简历建设
想象一下一个场景,您正在招聘一名数据科学家,并入围了两名出色的候选人。双方在数据科学领域有着相似的背景。第一个人已经完成了一些数据科学项目,而第二个人已经完成了类似的项目,并且在与数千人竞争的数据科学竞赛中也获得了“ X排名”。
那么,您想更喜欢哪一个呢?作为招聘经理,大多数人会喜欢第二种选择。
这并不是要破坏一个好的项目的重要性,但是在数据科学竞赛中的良好排名肯定可以使您在竞争中脱颖而出。如今,许多公司更喜欢具有数据科学竞赛背景的候选人。作为数据科学的有抱负者,您也应该开始!
4.获得奖励并赢得令人兴奋的奖品
最后但并非最不重要的一点是,经验丰富的Data Science竞争对手有很多可以赢得和赢得的机会。就在这次锁定期间,我赢得了足够的钱来为自己买车。如果您相信自己有能力解决世界上最有趣的数据科学问题,那么像Kaggle这样的平台将为您带来很多帮助。你还在等什么?
HackLive –指导性社区Hackathon!
如果有现场会议可以鼓励和帮助初学者参加数据科学黑客马拉松并提高他们的排名怎么办?那不是很好吗?
自成立以来,Analytics Vidhya一直在尝试解码数据科学界面临的问题,并提出可行的解决方案。无法开始参加数据科学黑客马拉松已经成为一种普遍现象。因此,作为解决此问题的步骤,让我介绍一下– HackLive 2 –指导社区Hackathon!
Analytics Vidhya的数据科学家将结合他们所有的行业专业知识和知识来帮助社区回答3个问题:
如果我获胜的机会很少,那是否值得?
我该如何开始?
我将来如何提高自己的排名?
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群