全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2726 1
2016-02-13
悬赏 30 个论坛币 已解决

采用决策树、神经网络、回归等算法时,包括集成学习,一般基于历史样本数据训练模型,如果加入增量数据后(不是时序模型问题)除了将算法在全量数据(历史样本数据+增量数据)上重新运行一遍外,是否有其他的算法或机制对模型结果进行更新?在大数据应用的时候,如果一旦有增量数据就在全量数据上更新算法结果太费资源了。例如在推荐应用中,网易云音乐根据用户每天的行为数据更新推荐结果。

最佳答案

Crsky7 查看完整内容

不用重跑全量数据啊,这些互联网公司用的都是online learning算法,比如stochastic gradient descent这种,每过来一个样本,更新一次参数,drop掉这个样本,甚至不需要储存历史样本数据,但可以达到和跑全量数据差不多的效果。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-2-13 12:18:14
不用重跑全量数据啊,这些互联网公司用的都是online learning算法,比如stochastic gradient descent这种,每过来一个样本,更新一次参数,drop掉这个样本,甚至不需要储存历史样本数据,但可以达到和跑全量数据差不多的效果。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群