人工智能“可复现性”问题引起业内注意
神经网络是一种技术,这种技术让我们制造出了 Go-mastering 机器人,以及能创作中国古典诗歌的文本生成机器人,但这种技术通常被称作黑盒子,因为它们运转的原理非常神秘。这种神秘性表现在我们不能理解网络模型的现实意义,以及中间层所表达的物理或数学指征。而且,在研究、应用过程中,特别是引用他人的模型、方法时,实际想让它们运作良好可谓是一门艺术,它涉及许多媒体没有报道的微调操作。网络也在变得越来越大、越来越复杂,加上庞大的数据集和庞大的计算机阵列,使得复现和研究这些模型变得非常昂贵,只有资金最充足的实验室才能承担这样的研究——如果能够承担的话。
这就是所谓的“可复现性”困境。
马萨诸塞大学机器学习研究员安娜·罗杰斯(Anna Rogers)正试图改变这种局面。她是顶级人工智能会议 NeurIPS 的可复现性主席。在她的监督下,会议现在要求研究人员提交一份“可复现性清单”,其中包括一些经常从论文中省略的信息,比如在选出“最佳”模型之前训练过的模型数量、使用的计算能力,以及代码和数据集的链接。这是该领域的一次变革——这个领域的参与者声誉建立在排行榜的基础之上(排行榜决定了谁的系统是某项特定任务的“最先进水平”),并提供了大量激励,让人们掩盖得出这些惊人结果背后他们所经历的曲折。
这个想法是为了鼓励研究人员为其他人提供一个复制自己工作的路线图。复现这些人工智能模型不仅对找出研究的新途径很重要,而且也是一种研究算法的方式。
其他人也在着手解决这个问题。谷歌的研究人员提出了所谓的“model cards”,来详细说明机器学习系统是如何被测试的,包括指出具有潜在偏差的结果。其他人则试图证明”最先进“这个表述有多脆弱,因为针对排行榜中使用的数据集而进行优化的系统,换到其他环境中就变得非常不可靠。艾伦人工智能研究所(Allen Institute for Artificial Intelligence,简称 AI2)的研究人员发表了一篇论文,旨在将皮诺的可复现性清单扩展到实验过程的其他部分。他们称之为“展示你的作品”。
复现性的重点不是准确地复现结果,因为考虑到神经网络代码中的随机因素,以及具体硬件和代码运行的不同,这几乎是不可能的。相反,这个想法是提供一个路线图,以达到与原版的研究相同的结论,特别是涉及到决定哪个
机器学习系统最适合某一特定任务时,复现性就尤为重要。这可能有助于提高研究效率。