↑↑↑关注柳叶刀学术↑↑↑
来源 | Nature、British Journal of Surgery、arXiv、解螺旋
你们知道一篇论文的署名作者最多能有多少人?Nature上发表了这样一篇文章,Hyperauthorship: the publishing challenges for‘big team’science,里面详细介绍了现合著的文章信息。
在粒子物理学科,众多合著者并不鲜见。好几千人合著的论文越来越多,成百上千名作者的更是家常便饭,甚至一篇论文的字数和作者数量平均下来,每个人也就仅仅只有几个字。
2012年,一项证实希格斯场存在的实验,所发表的论文有2932名作者。3年后,又一篇更精确测量了希格斯玻色子质量的论文,创下了当时一篇论文最高作者数的新纪录:5154人。
随后,新冠肺炎疫情打破了这一纪录,一篇研究论文有15025名合著者检验新型冠状病毒疫苗对术后新冠肺炎感染和死亡率的影响。小编下载这篇论文之后,发现光作者页就已高达79页了。
甚至,单纯的写作作者都有35名。
那如果其中有一人或多人涉及到学术不端行为的话,会如何处理呢?
就在前两年3月份的时候,一篇由19家机构、100位中国学者联合署名发表在 arXiv 上的200页论文引起了国内外人工智能领域的广泛关注。
这篇论文是一篇研究综述,题为“A Roadmap for Big Model”(大模型路线图),主要围绕近年来人工智能领域兴起的大规模语言/视觉模型(如GPT-3)研究进行了深入归纳与讨论。
此外,该论文在首页就表明:大模型的路线图由清华大学的唐教授设计,分为十八节,包含16篇章节,16篇章节中的每一节由一位(部分为两位)通讯作者组织。
从文章的出发点(促进大规模人工智能模型的研究)、合作作者数量与署名机构的权威性来看,这篇研究综述对AI研究者均有极大的阅读吸引力。Google Brain的研究员Nicholas Carlini就是其中一员。
但,就在4月8日,Nicholas在他的个人博文发文,称“A Roadmap for Big Model”一文抄袭了他参与的论文“Deduplicating Training Data Makes Language Models Better”,而且,他还指出,这篇论文至少还抄袭了十余篇其他论文。
在他的博文中,他用绿色高亮部分对比了大模型路线图一文(左)与其他被抄袭论文(右)的重合部分。其中,我们可以看到,Nicholas所标亮的内容基本是几句话构成的一大段「复制-粘贴」:
随后4月13日一早,当事方 智源 即在知乎回复,表示注意到了对该论文的质疑,正在对相关情况进行核实,并尽快通报有关进展。
参与该论文的19家机构中,中国高校有6所,中国高校/政府研究机构有4所,企业有5家(腾讯、华为、京东、字节跳动、微软)。其中,分别排名第一与第二的北京人工智能研究院与清华大学最突出:
智源对这次论文抄袭事故作了调查,公布的初步内部调查显示有5个章节“应属抄袭”,目前已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本。
所以,对于想做一件“大事”的清华教授来说,这次抄袭事件确实变“大事”了,他只能保证自己的部分不抄袭,可是却控制不了其余99位学者是否会有学术不端的行为,也属实是倒霉了。
随着科学的发展,在某些领域,50名或以上作者的论文数量大幅增加。例如,在医学和健康科学领域,此类论文数量从2015年的58篇增加到2021的203篇,增长了250%。与此同时,物理科学是“超作者”最常见的研究领域,2021有335篇论文,比2015年增加了18%。
正是这些变化,反映了科研上的复杂问题,越来越需要大型跨地区的研究小组来回答,也体现了科研人员对自己能够成为作者的渴望,尤其那些在过去可能被忽视的研究人员。但“超作者”现象给研究人员和出版他们论文的期刊带来了挑战。协调众多来自不同机构和国家的人,以及如何审核是否有学术不端的行为,这无疑是一项巨大的后勤工作。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.