美德两论文数据库撤销120余篇机器论文    2014年02月26日 16:45          来源于     
财新网
http://china.caixin.com/2014-02-26/100643538.html[url=http://culture.caixin.com/2012-12-27/100477771.html][/url]
 
  
【财新网】(记者 刘虹桥)学术期刊上的论文本应是科研工作者心血和智慧的结晶。然而,来自法国约瑟夫傅立叶大学的计算机科学家Cyril Labbé在过去两年的研究中发现,通过特定的电脑程序,不仅可以生成像模像样的虚拟学术论文,还有可能被主流国际学术论文数据库收录。
  2月24日,《自然》杂志网站新闻频道刊文称,美国Institute of Electrical and Electronic Engineers (IEEE)近日撤销100余篇 “机器论文”,德国Springer数据库也删除16篇这样由电脑生成的“废话”。
  过去两年间,Cyril Labbé对2008年至2013年期间发表的30余个会议论文集进行了分析。他发现,主流学术论文数据库IEEE和Springer均有收录“机器论文”。在Cyril Labbé私下告知后,两家论文数据库均表示正在移除这些论文。
  这些“机器论文”多通过论文会议提交。相当数量的论文会议发生在中国,论文作者亦以中国人居多。
  2013年在成都举办的“质量,可靠性,风险,维护与安全工程”国际会议就是其中一例。虽然该会议网站声称提交的所有论文的内容均经同行审查,但其中不乏可笑的错误。如,该论文集收录的一篇标题为《TIC:一种建设电子商务的方法》的论文,其摘要称“我们集中驳斥电子数据表是基于知识、移情和契约”。
  文章称,《自然》新闻的工作人员曾试图联系上述会议的主办方及这篇论文的作者,但未获回复。不过,虽然通篇论文都是电脑生成的虚构内容,但至少论文的部分署名作者经查确有其人。
  在这篇新闻发布一天后,一位署名作者答复《自然》新闻称,直到会议主办方于2013年12月告知其所属大学,他才第一次听说这篇论文的存在。他表示,自己无从获悉为何被列为署名作者,“相关调查人员正在调查此事”。
  实际上,这并不是IEEE首次被揭露收录“机器论文”。2005年,为证明学术会议会接受毫无意义的论文,3名来自美国麻省理工大学的研究生编写了一个叫做“SCIgen”(意为SCI生成器)的电脑程序。该程序自动生成的论文《拔根:一种典型的接入点和冗余的方法》即被IEEE收录的“世界系统学、控制论和信息学多方会议”接收。此事经媒体宣传,在学术界闹的沸沸扬扬。
  SCIgen的原理是,从固定词库中随机抽取专业术语,随机组合符合语法的句子,并加入图表、引文、格式等元素。咋一眼看上去,SCIgen生成的“机器论文”与正经的学术论文并无两样。除非经过认真、细致、严谨的同行审查,这些论文很容易被以赚取高昂出版费为目的的出版机构收录,并被纳入学术数据库。
  由于SCIgen可在网络上免费下载,原则上任何人都可随时生成此类“机器论文”。2010年4月,Cyril Labbé就通过SCIgen生成了102篇“机器论文”。他编造的论文作者Antkare的论文,不仅被谷歌学术数据库收录,H指数(一种用于评估研究者学术产出数量与学术产出水平的量化指标)分析还显示,虚拟作者Antkare已成为全球第21名被引用次数最高的“科学家”。
  2012年,Labbé在《科学计量学》期刊上发表了一种鉴别这种“机器论文”的方法,如检索SCIgen的语料库。他还专门设立了一个叫“SCIgen检测仪”的网站,帮助读者识别此类“机器论文”。他透露,目前发现的“机器论文”多来自订阅出版物,暂未在开放获取的期刊中发现这类问题。
  “我不知道问题(指使用SCIgen生成论文并经出版物正式发表)到底有多大规模,但它的确在发生。不时有人给我们发邮件说,又发现SCIgen生成的论文。”SCIgen的编写者之一Jeremy Stribling说。■