不适当地拆分数据
在建模时,
机器学习从业者通常将数据分成训练集和测试集,用训练集训练模型,用测试集评估模型的性能。研究员通常会随机拆分数据,但是现实生活里真正随机的数据少之又少。他们可能包含了时间趋势,例如收集数据方法的变化,或是收集信息的各种选择。
例如,这种历史模式隐藏在分子数据集中,而机器学习算法正在对这些数据集进行虚拟筛选,以寻找候选药物。这里的挑战在于预测一个分子如何会被有效地被人体吸收或减少炎症。筛选从有关分子的数据开始,这些分子具有或不具有预期的效果,但是收集数据的背景或许会与机器学习模型的使用方式有所不同。
一个模型可能是用一组公开可用的分子数据集训练的,然后用于测试另一组专有的分子数据集。而当有希望的候选项被检测和丢弃时,化学家的关注点往往从某些分子群转移到另一些分子群。