全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1064 0
2020-11-05
突破深度学习的成本障碍
简介:  请记住,当我们以前说数据是新油时。不再。现在,培训数据是新的机油。事实证明,培训数据是深度学习模型的广泛采用和创建的最大障碍。我们将讨论当前的最佳实践,但更重要的是,全自动图像标签的新突破被证明甚至优于手动标签。
越来越多的数据科学家精通CNN和RNN的深度学习技术,这是一件好事。但是有趣的是,诸如回归,树,SVM以及XGboost和ensembles之类的普通统计分类器在图像和文本问题上仍然取得了很好的效果,有时甚至还更好。
就在今天早上,我与一位数据科学家同行进行了一次有关他的项目的对话,该项目旨在根据文本片段识别作者。LSTM是他使用的算法之一,但要获得良好的答案,必须将LSTM与XGboost,逻辑回归和多项式朴素贝叶斯相结合,以使项目令人满意地工作。
如果没有LSTM组件,这是否也可以正常工作?为什么要花费时间并进行计算以建立一个深层的神经网络?是什么使我们退缩?
与DNN Algos的合作变得越来越容易-有点
DNN本身的技术越来越容易。例如,我们对使用多少层和多少个神经元作为起点有了更好的了解。许多方法以前都是反复试验,但是有一些良好的经验法则可以帮助我们入门。
现在有许多关于此的论文,但是Ahmed Gad尤其吸引了我,这篇文章提出了一种简单的图形化图表技术可以回答这个问题。
诀窍是绘制要分类的数据,以便它向您显示需要使用直线分割数据的多少分区。在此图中,即使将数据混合在一起,Gad仍认为正确的隐藏层数为4。至少它使您有了一个良好的起点。
是的,AWS,Google和Microsoft的计算成本现在比以前要低一些,并且随着GPU的出现和自定义TPU的出现,启动速度也更快。不过,您实际上无法在办公室的CPU上执行DNN。您需要花费大量时间和金钱与GPU云提供商合作,以获得成功的结果。
转移学习(TL)和自动深度学习(ADL)
迁移学习和自动深度学习需要被视为具有相同目标的两个单独的类别,以使DL更快,更便宜,并且对非专业数据科学家的中间层更具评估价值。
首先,自动化深度学习必须完全自动化NN架构,节点,层和超参数的设置,以实现完整的从头深度学习模型。这是专业(AWS,Google,Microsoft)专业的圣杯,但是到目前为止,我唯一看到的是来自相对较新的OneClick.AI,它可以同时处理图像和文本。顺便说一句,他们的平台还具有包括混合,准备和功能选择在内的全自动机器学习功能。
同时,转学是专业人士在获得完整ADL的过程中向我们提供的低调的成果。目前,TL主要用于CNN。那过去只意味着图像,但是最近CNN也越来越多地用于文本/语言问题。
中心概念是使用更复杂但成功的预训练DNN模型,将其学习“转移”到您更简化的问题上。已经成功的CNN的较早或更浅的卷积层正在学习这些功能。简而言之,在TL中,我们保留成功的前端层,并断开后端分类器的连接,将其替换为针对新问题的分类器。
然后,我们将使用您的问题数据对新的混合型TL进行重新训练,而使用更少的数据可以非常成功。有时每堂课只有100个项目(越多越好,因此,也许1
微软(Microsoft Custom Vision Services,https://www.customvision.ai/)和Google(于1月 Cloud AutoML的beta版)已经推出了Transfer Learning服务。
这些是很好的第一步,但是它们与成功的原始CNN的主题可以相距多远,并且在传输模型上仍能保持良好的性能相比,存在许多限制。
关键问题仍然是培训数据
请记住,当我们曾经说数据是新石油时。时代变了。现在,培训数据是新的机油。
显然,获取或手动编码带标签的训练数据的数百万个实例既昂贵又费时,并且是导致许多有趣的DNN项目被放弃的唯一约束。
由于云提供商迫切希望我们使用他们的服务,因此在我们阅读的所有内容中,成功培训所需的项目数量一直处于最小化状态。
云提供商已经在传输模型中重用大规模模型是一个好的开始,但是真正的突破性应用仍然在于开发您自己的从头DNN模型。
一个2016年的研究由古德费洛,Bengio和库维尔得出结论,你可以得到“可接受”的性能,并且每类约5000标记的例子,但它会采取每类10个万元标识样本,以“达到或超过人的表现”。我的猜测是您和您的老板确实在为第二个目标开枪,但是可能无法达到目标所需的数据。
创建DNN训练数据的一些替代方法
今天,在降低创建培训数据的成本方面有两个主要的探索方向。请记住,您的模型可能不仅需要其初始训练数据,而且还需要不断更新的重新训练和刷新数据,以使其在不可避免的模型漂移的情况下保持最新状态。
带有生成标签的人在环中
您当然可以付钱给人以标记您的训练数据。为此,在低劳动力成本国家中设立了整个服务公司。或者,您可以尝试机械土耳其人。
但是理想的结果是创建一个单独的DNN模型来标记您的数据,并且在某种程度上正在发生这种情况。问题在于标签不完美,未经正确使用会导致最终模型出错。
正在使用两种不同的方法,一种使用CNN或CNN / RNN组合来预测标签,另一种使用GAN生成标签。但是,只有在由人工检查员检查和纠正质量的情况下,两者才是现实的。目标是最大程度地提高质量(如果仅抽样,则永远不会完美),同时将成本降至最低。
图8公司(以前称为Crowdflower)已在其平台周围建立了整个服务行业,用于通过环环校正自动生成标签。已经出现了许多其他平台,这些平台使您可以为同一目的组织自己的内部SME。
全自动标签生成
通过完全自动地生成训练数据标签来消除人力成本和时间障碍是下一个大障碍。幸运的是,有几个组织正在为此做准备,其中最重要的可能是斯坦福黎明项目。
这些人正在研究整个解决方案组合,以简化深度学习,其中许多已经推出。在培训数据创建方面,他们提供DeepDive和最近的Snorkel。
浮潜最好被描述为深度学习中一种全新的活动类别。斯坦福黎明的人们将其标记为“数据编程”。这是一个完全自动化(无人工标记)的弱监督系统。  在这里看到原始研究。
简而言之,可能不是数据科学家的中小型企业受过训练,可以编写“标签功能”,以表达未标签数据中预期会出现的模式和启发式方法。
来源:Snorkel:通过弱监督快速创建培训数据
然后,Snorkel从不同的标记函数中学习生成模型,以便可以估计它们的相关性和准确性。然后,系统输出一组概率标签,这些标签是深度学习模型的训练数据。
到目前为止,与手工标记和其他伪自动标记方法相比,结果在效率和准确性上都非常好。这种重大突破可能意味着节省大量成本和时间,以及使非专业人员能够产生更有价值的深度学习模型的能力。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群