全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1055 0
2020-12-09
2x Kaggle大师Gilles Vandewiele的独家专访!
我认为数据科学领域的优点之一是它是如此多学科化,任何渴望成为数据科学家的人都可以做到这一点。” – Gilles Vandewiele
金色的字眼!
作为数据科学的初学者,只要我不像其他许多数据科学爱好者一样来自科学或技术背景,这句话就给了我很多希望。当涉及到像我们这样的人时,寻找某人的学习经历真的很重要。
为简化此过程,我们很高兴为您带来Gilles Vandewiele的独家专访。他是竞赛和讨论类别的2X Kaggle大师。
他已经赢得了今年的3项金牌比赛。他积极参与Kaggle的讨论,并根据自己的经验和教训为他人提供帮助。他是学习的完美社区!
吉尔斯·范德维勒访谈
另外,Gilles是博士学位。根特大学信息技术系(INTEC)的互联网和数据科学实验室(IDLab)研究组的机器学习专业学生。在那里,他正在白盒机器学习领域中研究关键领域和(语义)知识模型。
对于数据科学初学者来说,这是一次非常有见地的采访。因此,全力以赴,享受您的旅程!
Gilles Vandewiele的教育
根特大学-SPOTTERON Citizen Science
Himanshi Singh(HS):社区中有很多成员希望从计算机科学转向数据科学领域。他们想从您那里知道您是如何从CS Engg过渡到DS的?
Gilles Vandewiele(GV):在我开始博士学位时,我的过渡相当顺利。在完成我的CS工程硕士学位后,直接在IDLab(根特大学)的机器学习专业获得博士学位。
我认为DS领域的优点之一是它是如此多学科,任何有志成为数据科学家的人都可以这样做。当然,某些学位(例如CS和数学)确实使这种过渡更加容易,但绝对不是成为数据科学家的必要条件。
HS:您提到您的研究主题之一是白盒ML模型,尤其是对于关键领域。什么是白盒ML?为什么其他人应该更多地了解它?
GV:我们通常在白盒和黑盒ML模型之间进行区分。白盒模型是固有可解释的技术,例如决策树,线性回归和贝叶斯网络。另一方面,我们有很难解释的黑匣子模型,例如神经网络。尽管存在可以突出说明某些技术为何做出特定预测的技术(例如SHAP),但是这些技术仅能够给出基于实例的局部说明,并且不可能完全掌握模型的内部结构。
在决策具有重大后果(例如法律,卫生和财务)的关键领域中,机器学习技术可以支持专家制定决策,而不是为决策制定决策,这一点至关重要。随着我们看到可扩展AI(xAI)领域的兴起,这种重要性正日益得到认可。
吉尔(Gilles)从头开始成为大师的Kaggle旅程
吉尔斯·范德维勒(Gilles Vandewiele)访谈-Kaggle
HS:您能从几点描述一下从开始到现在的Kaggle旅程吗?
GV:我在5年前的最后一个硕士年度就认识了Kaggle,这是机器学习课程项目的一部分,在该课程中我们必须认识到交通标志。我是一个非常有竞争力的人,并且记得我在该项目上花费了很多时间,因为我想最终获得排行榜的高位。尽管成绩不是那么好(在31支队伍中仅排在第20位),但我确实学到了很多东西。
然后我在接下来的两年里断断续续地闲聊,主要参加操场比赛以磨练我的技能。直到2019年左右,我才通过一次连续参加比赛而频繁地开始慢跑。大约10个月前,我获得了Kaggle专家的身份,而5个月前,我获得了Kaggle的硕士学位。2020年对我来说是丰收的一年,因为我能够赢得3项比赛金牌。
HS:我们一直都听到现实应用程序与黑客马拉松有何不同。您在现实世界中运用骇客马拉松知识有什么经验?
GV: 乍看之下,在Kaggle和现实世界中的项目肯定会有一些差异,但它们的相似性要比仔细检查时想像的要多。在现实世界中的项目中,需要花费大量的时间和精力在典型的数据科学流程的早期和后续步骤中(例如,数据收集,数据清理,模型可视化等)。尽管数据科学家应该在这样一个管道的每个步骤中都有一定的经验,但是我们不能指望每个人都能在所有这些步骤中成为专家。因此,我认为Kaggle是磨练管道建模和分析部分技能的理想场所。甚至比大多数现实世界中的项目还要多。Kaggle之所以拥有比真实世界更好的学习环境,主要原因是您的界限被其他竞争者进一步推崇:您希望最终获得较高的竞争优势,从而创建一个比其他解决方案(通常是数千种)更好的解决方案;在现实世界中,您创建了一个满足客户需求的解决方案,然后您就完成了。
HS:您目前在“讨论大师”中排名12。讨论过程中对您的数据科学职业有哪些重要帮助?
GV:积极阅读和参与讨论帮助我更好地理解了许多不同的主题:您通过阅读他人的帖子来学习新事物,并且在必须向他人解释后更好地了解了自己所知道的事物。
HS:我还注意到您创建了非常直观的文章,以了解您所构建的模型。您能否分享一些有关如何解释问题解决方案的提示?
GV:编写出色的文章绝对不容易,而且我可以进一步提高自己的水平。但是,作为数据科学家,向具有各种背景的人们解释您的解决方案是一项非常重要的技能。我通常从解决方案的示意图开始,这有助于结构化我的文章,还概述了需要讨论的组件。然后,我将更多的注意力放在我难以理解的组件上,并尝试以有助于我理解该主题的方式对其进行解释。它也可以帮助您及时回想比赛之前(当您对数据和问题一无所知时),并查看当时是否有可能了解该帖子。
HS:多数人倾向于关注Kaggle的比赛,为什么选择进入Kaggle的讨论方面?
GV:我从来没有只专注于讨论方面。我所有的讨论都是在我自己参加的比赛中进行的。
但是我确实在讨论上花费了相当多的时间,因为这也有助于我从中学到很多东西。我认为,在与他人学习时,Kaggle上一些最有价值的学习经验是在团队中进行的。同样,在论坛上讨论想法有助于理解问题和手头的数据。
HS:您是否有用于讨论或黑客马拉松的特定框架?我们的社区希望听到我们的想法以及您如何解决这些问题。
GV:我希望我可以说我对所有比赛都有很好的结构化方法和工作流程,但是我是一个非常混乱的人。我做了很多相同笔记本的副本,但做了一些小的改动,而我的比赛目录很快就变得一团糟。如果我能提供建议的话,在这些比赛中快速迭代至关重要。您需要快速建立管道并对其进行一些简化,以提高其效率,同时又不牺牲太多性能。此后,需要以反复试验的方式实施许多不同的想法。在实施这些构想时,重要的是要保持对构想是什么和不起作用的概述。最后,所有工作思路都可以集成到管道中。
Gilles对数据科学初学者的建议
访谈Gilles Vandewiele-初学者建议
HS:鉴于有多少讨论对您有所帮助,您对初学者有何建议?他们应该从哪里开始,应该关注什么?
GV:这也许听起来有些陈词滥调,但是我的主要建议是“不要退缩”。当您开始使用Kaggling时,您不必在意您的成绩,而应该在中学到什么。有时我从其他人那里听说他们不想参加Kaggle,因为他们担心在排行榜上的表现不佳。我认为这是一个大错误。
我想提出的另一条建议是“切勿捷径”或“操纵”系统。有时,我们会在笔记本,讨论和数据集层中看到不当行为,人们在LinkedIn上向他人发送垃圾邮件以赞扬他人,或s窃他人的工作。从长远来看,这永远不会有回报。
HS:除了骇客马拉松以外,您觉得人们应该集中精力建立个人形象吗?
GV:为了建立自己的个人资料,个人品牌很重要。绝对可以在不同的社交媒体上分享骇客马拉松带来的成就。另外,博客文章(例如,带有解决方案的文章)有助于吸引不参加黑客马拉松的人们。最后,网站或实时简历也是一件好事。我建议尽早制作,以便您可以随着时间的推移而延长。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群