全部版块 我的主页
论坛 金融投资论坛 六区 金融学(理论版) 量化投资
1291 0
2017-09-14

很多时候需要为非专业人士解释机器学习,本文提供以下参考。


1.机器学习意味着:从数据中学习

机器学习目前风头正劲,AI也是热搜词汇。只要将合适的数据放入合适的模型,许多问题可以迎刃而解。如果能够帮助你宣传,就叫它AI吧。但请记住,AI,除了在学术界以外,常常是大家可以随意使用的热门词汇,用于描述他们想描述的一切东西。


2.机器学习主要关乎算法与数据,尤其是数据


很高兴能够在机器学习算法,特别是深度学习领域有一些进展,但是数据才是机器学习算法实现的关键因素。机器学习可以没有复杂的算法,但不能没有好的数据。


3.除非你有许多数据,否则你应该坚持使用简单的模型


机器学习将基于数据识别模式,构建由参数定义的模型。如果你的参数定义过多,你很容易过度拟合。详细的解释需要更多数学知识,但是机器学习的原则是:尽可能使模型简单。


4.机器学习的性能受到输入数据质量限制


“无用输入,无用输出”巧妙地点明了机器学习的关键,机器学习只能发现输入数据中的模式。对于有监督的机器学习任务,例如分类,输入数据必须标记正确,特征明显。


5.机器学习需要具有代表性的数据


正如基金介绍书中所说:过去的表现不对未来结果作保证。机器学习则只能对与训练数据分布相同的样本外有良好效果。因此,应对训练数据和样本外数据的偏离表示警觉,经常性地重新训练你的模型以免失效。


6.机器学习中大部分的困难工作为数据转换


从天花乱坠的宣传中,你可能认为机器学习的主要工作为编写和调试代码。但现实更加乏味:大多数你的时间和精力将用于数据清洗和特征工程(将原始特征转化为更有代表性的特征)上。


7.深度学习是革命性的进度,但并不是灵丹妙药


深度学习在很多机器学习应用领域都做出重大贡献,进一步地,深度学习将一些传统需要特征工程的工作自动化进行,特别是在图像和视频领域。但是深度学习并不是一种新技术,仍然需要在数据清理和转化方面付出巨大的努力。


8.机器学习系统极易受操作者误差影响


借用NRA一句话:机器学习算法不会杀死人,只有人会杀死人。当机器学习算法系统奔溃时,一般很少是由于机器学习算法错误。而是因为大多数时候,你在训练数据中引进了人为误差,或者一些系统误差。所以,永远保持质疑。


9.机器学习可以漫不尽心地创造自我实现的预言


在机器学习的许多应用中,你今天做的决定将影响明天收集的训练数据。一旦机器学习系统中嵌入偏差,它就会生成更多新的数据强化这些偏差,有一些偏差会毁掉人的生活。负责任一点:不要创造可自我实现的预言。


10.AI不会拥有自我意识,不用担心崛起并毁灭人类


许多人从科幻电影中了解AI,我们应当从科幻小说中得到灵感,但不应该受其蒙骗,将它当成事实。有许多真实且急迫的危害需要操心,从有意识的恐怖分子到无意识的有偏差的机器学习模型。




原文链接:10 Things Everyone Should Know About Machine Learning

若您对这篇文章有更多意见,欢迎到 www.bigquant.com 与我们讨论。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群