职称论文检测报告的技术修正

2011年浙江省率先在职称评定方面新增了参评文章的学术不端检测要求,并规定一般由该市较权威的高校图书馆负责第三方检测。[1]检测系统为以北大方正开发的cnki学术不端检测系统,拥有几个端口,分类依据为文章类型:学位论文抄袭检测系统、科技期刊抄袭检测系统、社科期刊抄袭检测系统、大学生论文抄袭检测系统等。[2]现在检测系统还专门开发了一个全新的端口———“已发论文检测”,目前是收费端口,只有被cnki审核通过的机构才有权进行已发论文检测,用这个通行证严控职称论文检测者的检测权,以保证检测的公平合理性。从上面的介绍可以看出来,学术不端检测系统既可以按照学科进行分类,也可以按照论文是否发表分为已发论文检测系统和未发论文检测系统。

职称论文检测报告的技术修正

一、职称论文检测系统的检测原理

将待评审的职称论文进行学术不端检测是cnki学术不端检测系统的一大新应用,其检测原理是和未发论文检测系统的原理相同,只是检测手段稍有不同。

(一)检测原理———“文字比对”20世纪90年代后,随着互联网技术的发展,信息内容迅速增多,复制粘贴变得越来越容易与普遍。文本复制(抄袭)是学术不端文献的重要特征。随着内容管理与版权保护的需要,文本复制的检测研究也得到进一步发展,陆续提出数字指纹、VSM等检测方法。[3]笔者通过对检测原理的深入研究发现,目前国内外的学术不端检测系统都是以“文字比对”———提供文字复制比率为基本原理,也就是说出现了初级的文本复制类型的抄袭,系统可以轻易地识别。以这种“文字比对”为识别基础的学术不端检测系统采用的是“外形”对比以及针对文字、字母与数字的排列组合进行形式上的比对,如果被比对的两段文字的句式、用词、排列顺序相同,就可以被检测出来。但如果是意义抄袭就比较隐蔽,系统基本无法检测出来。

(二)检测手段的改进将一篇待检测的职称论文放在未发论文检测系统中会发现全篇皆红,系统会提示这篇论文和该作者的已发表的论文重复率为100%,也就是说未发论文检测系统是没有办法对已经发表的论文进行检测的,主要是因为该系统缺少一个时间模块判定功能,即自动删除该文章发表时间以及以后的“相似”论文。基于此,已发论文检测系统特别设置了论文发表时间功能,并要求委托人提供论文的发表时间。据此时间,去除了发表时间在所测论文发表时间之后(含发表时间在同一天)的“相似”论文,最终获得由系统自动生成的“文字复制比”结论。这个结论虽然不包含所测论文发表时间之后(含发表时间在同一天)的抄袭结果判定报告,但是对该文章发表之前,它是否存在抄袭的现象是可以检测的,这部分的功能和未发论文检测系统是一致的,所以我们可以适当借用未发论文检测系统部分适用的研究成果来探讨对检测结果的判断。

二、抄袭判断的量化指标

由上面的分析可知,检测方只负责提供第三方检测报告,真正使用报告的是各校的负责职称评定的人事部门,到目前为止,笔者尚未见到各人事部门有关于对检测系统结果统一、公开的量化标准。因此我们可以借用较为通行的未发论文的量的检测标准,这个毕竟是通过大量的检测最终被实践证明的较为合理的标准。通常情况下,对于待发论文检测来说,各期刊社和图书出版社根据自己的具体情况有不同的规定。有的编辑部认为,论文中超过10%的重复率即视为抄袭,而有的编辑部规定“雷同比例达20%为抄袭”,还有的放宽到了30%,对有争议的结果大部分都采取个别处理的方式,没有制定出可以适用的行业标准,基本上各编辑部根据投稿论文的平均水平制定适合本部门的比例。对于学位论文检测来说,高校将这个重合比的限度定为25%-30%。若检测发现超过这个比率,论文就会被提交至该校学术委员会来判定是否存在抄袭行为。[4]例如中南大学为了保证检测结果的公正性,会将检测结果公示,对有异议的结果和超出规定值的论文检测结果,组成相应学科的专家评议组,对检测系统所得出结果做进一步的分析和审议。[5]总体来说,使用机构对检测结果判定方面较为通行的.数字方面的标准为,“一篇论文与数据库的文字重合率大于或等于10%,属于句子抄袭;30%到50%之间属于段落抄袭;50%以上则被判断为整体抄袭。”[6]综上所述,这个可以借用的标准看似操作简单方便,标准明确,但实际还有一些值得探讨的部分,如果不具体问题辩证分析,只是以最终检测数据为唯一判断文章是否抄袭的标准,恐怕是有失公允,特别对像职称评定这样对人生有重大意义的事情,还需慎重,当然人事部门还有一个专家评议环节,但是对部分可能面临在前面关卡就被枪毙的稿件存在一定的不公平。在笔者长期的检测工作中,发现即便检测者并不了解一篇检测文章是否抄袭,用笔者总结出来的一些经验仍然可以对结果进行科学修正,但首要条件是搞清楚影响已发论文检测结果存在哪些因素。

三、影响职称论文检测结果的因素

(一)提供的待检测文档的类型及出处Cnki期刊学术不端文献检测系统目前以“中国学术期刊网络出版总库”为全文比对数据库,当前,可对DOC、 TXT、CAJ、KDH、NH、PDF等多种格式的文件进行比对,从词、句子到段落等方面,可检测抄袭、伪造、一稿多投、篡改、不正当署名、一个成果多篇发表等多种学术不端行为。[6]同时,职称评审文件中规定:优先从图书馆“中国知网CNKI数据库”中下载CAJ或PDF格式电子版论文(专著、译著、教材及外文刊物上发表的论文除外)。如未在该数据库中检索到提交论文,可以从图书馆其他数据库中继续查找并下载PDF格式电子版论文,如仍然没有,方可提供 WORD文档。提交论文原件和完整论文的电子版(须PDF格式,著作、教材除外)。[7]经过笔者的了解,在实际操作中,也是按照这个文件的规定做的,待检测文献的电子文档,并没有一定要求使用PDF格式,只要提供的电子文档能够正常地从中复制出文本来,PDF、DOC、CAJ(及其系列文档类型)、 RTF及DOCX都可以。首先是从cnki学术网络中下载,可是受技术水平的限制,很多早期的文章是以PDF照片———图片的形式存在的,不能复制文本,还有部分编辑部提供的原稿采用了密码或版权保护也不能复制,另外一种情况是由于编辑部新发论文上网需要一定周期,新发论文也没有原始文档,只能向送检人索要编辑部的修改文档,当然,非cnki下载所得的文档,所有的文档类型要在检测汇总表中予以说明。由以上的复杂情况来看,不同类型、不同情况下提供的电子文档,在检测中会出现检测比例的不同。如一位研究者反映,他在《航空学报》个人比对库中的一篇文章(格式,为作者提交的录用定稿)已经在中国期刊网上发布(具体采用的比对文件格式未知),新提交的一篇稿件被检测出与这2篇文章有文字重合的问题,但检测结果中该稿与个人对比库中的稿件间的文字复制比为46%,而与同一篇文章在中国期刊网中的版本的文字复制比为26%,不同的格式竟然造成检测结果间20个百分点的差别。[8]可见不同的文档形式会对检测结果产生较大的影响,这种现象需被重视。