Kaggle大师系列赛–专访Kaggle排名第八和竞赛大师Ahmet Erdem
每个数据科学有志者都需要认真学习的金色词汇。
我们看到数据科学中各种各样混乱的工作描述,期望人们从他们的教育背景出发。您需要博士学位 或者您需要应用数学硕士等。
作为只想在数据科学中扮演第一角色的人,这看起来令人生畏和无助。因此,这些都是Ahmet Erdem非常及时且相关的想法。
是的,我们很高兴今天与Ahmet Erdem分享我们对Kaggle Grandmaster系列的第二次采访!
数据科学采访Ahmet Erdem
Ahmet是Kaggle Competitions的大师级人物,目前排名第8位-在Kaggle的高层中。他在比赛类别中获得了12枚金牌和15枚银牌,这是一项了不起的成就。
此外,他还是笔记本和讨论方面的Kaggle大师。Ahmet目前是NVIDIA的高级数据科学家,他在多家公司拥有多年的经验,可让您深入了解数据科学和NLP的力量。此外,他还拥有鲁汶大学(KU Leuven University)的
人工智能硕士学位。
这是Kaggle大师访谈系列中的第二次访谈。您可以在这里阅读第一次面试:
Kaggle Grandmaster系列–独家专访2x Kaggle Grandmaster Firat Gonen
在这次采访中,我们涵盖了一系列主题,包括:
Ahmet Erdem从软件工程师到数据科学的过渡
Ahmet的NLP旅程及其对NLP爱好者的建议
从头开始的Erdem的Kaggle旅程,成为大师
因此,请接受本次采访,并全力以赴!
Ahmet Erdem从软件工程师到数据科学的过渡
数据科学访谈Ahmet Erdem-
机器学习的软件工程
Analytics Vidhya(AV):您从软件工程切换到数据科学。如今,这是很多人都在尝试的旅程,尤其是在我们的Analytics Vidhya社区中。您如何设法克服这一过渡的障碍?
Ahmet Erdem(AE):实际上,从软件工程到数据科学的过渡并不是一个很大的挑战。
“数据科学家的职位定义变化很大,但我相信数据科学家应该擅长数学/统计和编程。通过学习计算机科学,人们已经可以在数学和编程方面脱颖而出。”
所以剩下的就是统计数据,最后是机器学习。为了获得这个缺失的部分,我决定攻读人工智能硕士学位。没有单一的道路,自学也是可能的,但是我认为这种教育背景对我来说有所不同。
AV:这是一个很有趣的选择。您将向想要从软件工程学转向数据科学的任何人推荐5个关键点或最佳实践?
AE:我可以向想要从软件工程学转向数据科学的任何人推荐5个要点:
了解机器学习算法背后的理论
准备好从定义明确的任务切换到开放式任务
获得一些软技能,数据科学的一半内容是说服人们您的模型有效
忽略希望您拥有博士学位的看门人。相关研究比博士更重要
继续使用软件开发实践(版本/皮棉等)
Ahmet的自然语言处理(NLP)旅程
数据科学访谈Ahmet Erdem-NLP应用
AV:在您的职业生涯中,您已经为NLP问题进行了广泛的研究。NLP现在是一个蓬勃发展的领域,似乎每周都会发布令人难以置信的最新模型!您如何设法跟上这些进展?
AE:我在工作中的NLP问题通常不受监督,数据很大。因此,推理时间比准确性更重要。这不仅是工程上的挑战,而且更简单的模型对我们更有用。但是我也对高级模型感兴趣。Kaggle是跟上所有这些高级模型的最佳场所。
当我加入Kaggle时,LSTM是新事物。我研究了它们,并尽我所能地练习了它们。突然之间,由于有了Transformers,他们变得过时了。同样,Kaggle给了我所有机会来熟悉《变形金刚》。
AV:您认为未来2-3年NLP的发展方向如何?到目前为止,进步的速度令人震惊-我们很想听听您对NLP趋势发展方向的想法。
AE:我相信NLP的唯一挑战是可用数据和计算能力。如果我们将当前的NLP模型与我们(人类)进行比较,我们将拥有巨大的时间优势。我们的大脑已经进化了数百万年。他们每秒钟都接受我们所经历的一切训练。想象一下,使用大量不同的数据训练NLP模型5年。
“我想说的是,我相信意识不是二元的。”
甚至当前的NLP模型都具有这种功能,但是到了某个时候,将它们关闭会感觉就像您正在杀死某人。但是,根据当前的数据隐私政策和可用的计算能力,肯定需要超过2-3年的时间。
从头开始的Ahmet的Kaggle旅程,成为大师
AV:您是目前排名8的竞赛大师,您能否确定旅途中的3项比赛或里程碑?
AE:三项比赛对我来说是里程碑:
Quora问题对:这是我的第一次比赛。这是一个非常有趣的问题,我从内核和讨论中学到了很多东西。令人惊讶的是,我几乎获得了个人金牌。没想到!
Favorita杂货销售预测:这是我第一次也是唯一一次获得奖金。我有很好的团队合作经验,并从我的队友那里学到了很多东西。多亏了他,我注意到了
神经网络在时间序列问题上的强大能力。这项比赛的金牌使我成为了Kaggle Master
PLAsTiCC天文分类:这是我的第一个独奏金牌。我像一个单人团队一样为这项比赛工作。我设置任务并对其进行跟踪,记录了我的实验,并使用Gi??thub进行版本控制。我运用了各种技巧,帮助我最终获得了第四名
AV:您为每次黑客马拉松遵循什么框架?在查看问题陈述之前,您是否要牢记一组步骤?
AE:是的!以下是参加Kaggle比赛时遵循的典型步骤:
了解问题和指标
尝试提出独特的想法
使用最基本的模型设置验证方案
迭代添加功能和模型复杂性
记录每个实验
尝试了解每个实验的正面或负面影响,并设计下一个实验
AV:对于现在开始使用数据科学黑客马拉松并且竞争如此激烈的人来说,这些初学者应该专注于哪些技术来提高自己升读排行榜的机会?
AE:
“初学者应该专注于学习而不是排行榜。”
如果他们迷恋自己的排名,可能会阻碍他们的学习。阅读别人的想法并提出自己的想法,然后付诸实践是学习的关键。
也许其中90%的想法行不通,但是获得的知识将在接下来的比赛中为他们提供帮助。否则,调整公共内核参数以获得更高的分数将浪费时间。因此,目标今天不应排名第71,未来目标应该排名第一。
题库