Kaggle Grandmaster系列–竞赛Grandmaster和排名第9的Dmitry Gordeev现象之旅!
还记得您对数据科学竞赛说“不”的时候吗?也许您发现它们很难破解,或者您觉得它们不值得。
好吧,我们广受欢迎的Kaggle Grandmaster系列肯定正在打破这个泡沫!对于前三个采访,我们收到了压倒性的好评,我们很高兴今天带来第四版!
请携手共进第9级Kaggle和大师Dmitry Gordeev!
德米特里(Dmitry)是Kaggle竞赛的大师,也是许多初学者仰慕的顶级社区成员之一。他的名字有10枚金牌和4枚银牌,这一成就使他与众不同。他还是讨论类别中的Kaggle专家。
Dmitry于2010年毕业于莫斯科罗蒙诺索夫国立大学(MSU),担任模式识别专家。在加入H2O.ai之前,他曾深度参与风险管理行业。他在Kaggle Grandmaster系列访谈中将所有这些经验带到了餐桌上!
在这次采访中,我们涵盖了一系列主题,包括:
Dmitry Gordeev在数据科学方面的经验
德米特里(Dmitry)从头开始到成为Kaggle大师的Kaggle旅程
Dmitry对数据科学初学者的建议
因此,事不宜迟,让我们开始吧!
德米特里·戈尔德耶夫(Dmitry Gordeev)的经历
数据科学访谈Dmitry Gordeev-经验
Analytics Vidhya(AV):在过渡到数据科学之前,您已经有多年的
数据分析师经验。在工具和流程方面,这种差距是否太大?您是如何弥合的?
Dmitry Gordeev(DG):我花了几年时间从事银行零售信用风险领域的专家工作,专注于统计模型的开发和验证。在很大程度上,这是正确的数据分析工作,但还包括基本的
机器学习和时间序列模型应用程序。
幸运的是,我的背景知识涵盖了机器学习的一般领域,因此当我决定转向数据科学时,它就不会从零开始。但是在我必须弥补的工具方面,还是有很大的差距。Kaggle可能是那个时期的主要知识来源,它使学生可以学习最佳实践,新方法,并尝试新的(不是那么有创意的)想法。一个由聪明才智和支持者组成的令人惊叹的社区,可以帮助您快速进入困难的话题。
“我遇到的另一个大空白与适当的代码管理,协作和模型部署的工具有关。但是我有机会在一个小的团队中端到端地开发了一系列与小数据相关的内部项目。那是一次很棒的经历,迫使我不得不使用以前从未接触过的工具。”
AV:我们注意到您在风险管理领域,尤其是在零售领域拥有丰富的经验。您能告诉我们的社区您如何在这个行业中使用数据科学吗?
DG:该行业在欧洲受到严格的监管,通常集中于可解释的决策。因此,通常在复杂的黑匣子模型上应用更强大且广为人知的方法。
但是,AI一直是该领域感兴趣的主题,因为它可以提供从银行通常收集的大数据样本中提取信息的新方法,并具有生成更准确的预测模型来申请业务的能力。
AV:您如何看待风险管理在机器学习方面的未来?
DG:我认为风险管理中关于机器学习的低端成果是能够将新型数据(例如文本,图形和图像)纳入考虑范围。正是这种类型的数据很难用标准方法进行分析,因此没有得到足够的审查。
但是这些都是机器学习大放异彩的领域,尤其是考虑到语言模型的最新发展和一般知识的转移。
另一个方面是可解释的AI的发展领域,它可以成为风险管理等行业的游戏规则改变者。使用更多种类的数据,做出更好的预测并能够解释它们的能力可以产生巨大的影响。
HS:许多有抱负的数据科学家都想知道H2O.ai的高级数据科学家所承担的日常任务。您能否带领我们度过工作中的典型一天?
DG:好的!
H2O专业知识的核心领域之一是AutoML,我们在其中提供开源和商业产品。在我平常的一天中,有一部分时间致力于为我们的客户提供支持,以使他们的用例从H2O工具中获得最大收益。这些是代表各个行业的公司,例如医疗保健,零售,生产等
我日常工作的另一部分致力于开发新的AI服务和产品。例如,今年我们投入了很多精力来实现和共享COVID-19传播预测的几种预测模型的代码。但更重要的是,我们强调必须适当地回测和验证此类模型,因为关键决策可以基于产生的预测。模型验证和模型稳健性的更一般主题是我目前的活动重点
最后但并非最不重要的一点是,与AI应用程序相关的主动行动总是引起我的注意。一个很好的例子是最近的Kaggle竞赛,该竞赛致力于预测mRNA分子的稳定性,这可以帮助开发mRNA疫苗
德米特里(Dmitry)从头开始的Kaggle旅程
AV:您是当前排名为9的Kaggle Competitions超级大师,当您开始时和开始攀登排行榜时会面临哪些挑战?
DG:开始第一场比赛是一个挑战,因为我对自己的知识和技能没有把握。但是渴望在排行榜上变得更好的想法一直激励着我继续,不断学习,尝试,而不是放弃。
“我很快就意识到比赛会令人上瘾且耗时,因此,可以说主要的挑战是在花力气尝试所有想法与休息和休息之间找到一个良好的平衡。”
另外,如果某些事情不起作用,也不要放弃,大多数想法都会失败,这很好。每个人都要经历它;没有人知道最好的解决方案。您只需要足够的耐心就可以继续寻找可行的方法。然后继续前进,寻找下一个超越潮流的大创意。
AV:参加Hackathons对您的职业生涯有何帮助?
DG:回顾过去,我必须承认这对我的职业生涯产生了巨大的影响,这是我成功转向数据科学领域的关键原因。
通常由您过去的工作来判断您的专业知识。因此,期望风险管理者擅长于风险管理,但不能擅长机器学习。
参加比赛虽然非常耗时,几乎没有任何业余时间来参加其他活动,但帮助我改变了职业道路。
视听:我们注意到,您获得高排名的比赛从欺诈检测到地震预测等非常多种多样。您是否有选择参加比赛的特定标准,如果可以,可以列出它们吗?
DG:只有一个标准,而且很简单–看起来我会喜欢上它吗?这可能是一个有趣的话题或具有挑战性的数据。我过去的大多数比赛都是出于尝试尝试新事物(例如语言模型)或时间序列(例如地震数据)的渴望。
我参加了NFL大数据碗比赛,因为它是少数与体育有关的比赛之一,其背后的数据非常新颖。这样,无论是在机器学习还是比赛领域,我都保持着很高的动力去创建更好的模型或为自己学习新的东西。积极的动机带来了新的想法,并渴望投入越来越多的时间来实施它们。
AV:孟加拉语AI手写字素分类是您引起我们关注的竞赛之一。您还获得了第二名。您对印度语言有任何了解吗?如果不是,那么您如何在那项比赛中获得如此好的排名?
DG:我以前完全不了解印度语,但现在我为能看到一些字素而感到自豪。
“这可能是机器学习作为一门学科的美丽之处–它可以应用于多个领域,而通常只需要很少的领域知识即可产生有价值的结果。通常是根据基础数据的类型而不是域对问题进行分类。”
例如,孟加拉语AI手写字素分类挑战吸引了许多杰出的计算机视觉专家,其中许多人以前从未使用过文本图像。但是,允许AI区分狗和猫,识别道路上的行人,甚至生成逼真的人脸图像的常用方法都可以用来对复杂的孟加拉语字素进行分类。
德米特里(Dmitry)对数据科学初学者的建议
数据类型MySql
视听:随着深度学习和
神经网络的最近兴起,您是否仍然看到诸如集成模型之类的传统技术在竞争和行业中都占有一席之地?
DG:当然,对于表格式的传统结构化数据,xgboost和lightgbm仍然是首选,而且对于时间序列预测而言,xgboost和lightgbm仍然是首选。在行业中,传统上以结构化方式收集数据非常重要。
“梯度提升方法通常可以产生更准确的模型,同时需要更少的计算资源和更少的训练时间。神经网络可以用作补充模型,从而改善整体集成,但只有在针对数据集进行了精心调优时才可以。”
神经网络为人工智能开辟了新领域,例如自然语言,计算机视觉,信号分类,深度强化学习等。机器学习竞赛将重点从表格数据转移到了这些新领域,因此我们看到了竞争领域
深度学习的蓬勃发展。这很令人兴奋,但是传统方法仍然像以前一样重要。
AV:您用于分析和数据科学任务(如可视化,统计任务等)的入门工具有哪些,它们与您用作初学者的工具有何不同?
DG:我认为没有唯一正确的做事方法,每个人都会发展自己的方法。我们探索并可视化数据以回答我们所遇到的问题,而重要的是我能以多快的速度获得答案。因此,我建议您使用熟悉且熟悉的工具以快速应用它们。最后,数据科学通常是关于试验和错误的,因此学会快速失败至关重要。
在大学里,我使用了底层编程语言和MATLAB。很自然地,我开始学习R来学习数据科学,但是很快就决定改用Python。如今,Python生态系统可能具有数据科学家可能希望的一切。诸如numpy,pandas,scipy,scikit-learn之类的核心软件包足以有效地回答与数据相关的问题,而PyTorch和lightgbm几乎涵盖了强大而灵活的模型拟合的所有需求。我相信对这些核心模块的了解已经可以使您构建出色的产品。
题库