引文分析法,就是利用各种数学及统计学的方法进行比较、归纳、抽象、概括等的逻辑方法,对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法。引文分析方法的数学基础是概率论与数理统计。在进行分析比较时,已将其作用排除在测度结果之外了。
引文分析法的类型
从不同的角度和标准来划分,引文分析方法有着不同的类型。如果从获取引文数据的方式来看,有直接法和间接法之分。前者是直接从来源期刊中统计原始论文所附的被引文献,从而取得数据并进行引文分析的方法;后者则是通过“科学引文索引”(SCI)、“期刊引用报告”(JCR)等引文分析工具,查得引文数据再进行分析的一种方法。若从文献引证的相关程度来看,则有自引分析、双引分析、三引分析等类型。如果从分析的出发点和内容来看,引文分析大致有三种基本类型:
1.引文数量分析:主要用于评价期刊和论文;研究文献情报流的规律等。
2.引文网状分析:主要用于揭示科学结构、学科相关程度和进行文献检索等。
3.引文链状分析:科技论文间存在着一种“引文链”,如文献A被文献B引,B被文献C引,C又被文献D引,等等。对这种引文的链状结构进行研究可以揭示科学的发展过程并展望未来的前景。
引文分析法的基本内容
从不同的角度或从各种基本要素出发,对科学引文的分布结构进行描述和分析,便形成引文分析的基本内容,一般包括:
1.引文年代分析:一般来说,随着年度的由远而近,引文量呈增长趋势,即时间愈近,被引用的文献愈多;文献被利用的峰值是该文章发生以后的第二年。如果以引文年代为横轴,各年引文量为纵轴,在坐标图上描绘各年数据点,然后用一条线连接起来,便可得到一条引文年代分布曲线。通过对该曲线的分析,不仅可以了解被引文献的出版、传播和利用情况,而且可以研究科学发展的进程和规律,特别是在文献老化和科技史的研究中,引文年代分析更是一种广泛应用的有效方法。
2.引文量分析:引文量是某一主体对象含有的参考文献数量。它是引文链的基本特征之一。通过引文数量的分析,不仅可以揭示文献引证与被引证双方的相互联系,而且还可以从定量的角度反映出主体之间的联系强度。如果两篇论文或两种期刊之间的引文数量大,就可以认为它们之间的引证强度大,说明其联系较紧密。引文量的分布规律可从下列几个方面分析:
(1)引文量的理论分布:我们将一定量的论文的引文量数据进行分析比较,发现其变化规律表现为以平均数为中点,接近中点的频数最多,离平均数远的频数趋于减少,形成中间高两极低的正态理论分布。
(2)引文篇数分布:即每篇研究论文平均占有的引文篇数的分布。它不仅反映了论文作者引用文献的广度和深度,而且还能说明引文与被引文的学科内容之间的联系强度。
3.引文的集中与离散规律分析:引文分布的集中性与离散性是相对于一定的测度指标而言的。引文按来源期刊的分布,引文篇数的频数以平均数为中心的分布,引文按年度、语种、文献类型等的分布,都表现出这种集中与离散的趋势。
4.引文类型分析:科学研究中引用的文献很广,有期刊论文、图书和特种文献。对被引文献的类型进行分析,将有利于确定文献情报搜集的重点。
5.引文语种分析:引用文献是由不同语种的文献构成的。某一语种的文献被引用量愈大,则说明该语种比较常用和重要。考察和分析引文语种的分布,对于人们有计划地引进外文文献、译文选题、外语教育等,颇有参考价值。
6.引文国别分析:对引文的国别分析,特别是各国文献互引情况的统计分析,可以探明各国互引文献的状况,弄清国际文献交流的数量和流向。
引文分析法的特点
1.广泛适用性;引文分析的素材是引文与被引文,而引文现象又是普遍存在的。以期刊论文为例,全世界范围约有90%以上的科学论文附设了引用文献,平均每篇论文有引用文献15篇。我国目前88%左右的重要科学论文带有引用文献,平均每篇中文科学论文有引用文献8.9篇,可以说,凡是有引用文献的地方,引文分析方法就有用武之地,所以,引文分析方法具有广泛适用性。
2.简便易用性:由于引文分析不要求其它先决条件和辅助条件,不需要使用者具有十分专深的知识,研究的深度、广度可以由自己控制,所以一般的信息人员都可以借助于这种方法,完成一些有价值的研究课题,解决一些工作中的实际问题。总之,这种方法的使用限制极少,简便易用,很值得在广大的信息人员中普及推广。
3.功能特异性:由于引文分析方法具有广泛适用性和简便易用性的特点,通过一些不太复杂的统计和分析,就可以确定核心期刊、研究文献老化规律、研究信息用户的需求特点,甚至可以研究学科结构、评价人才等,我们不能不为其功能而感叹。
引文分析法的局限
著者引用文献是一个人为控制的思维和判断过程,而作为其表现形式的引用文献,仅仅是宏观的、表面的测度,受到许多限制因素的影响。
(1)引文关系上假联系的影响:引用文献的原因多种多样,两篇论文可能出于完全不同的原因或从不同的角度引用同一篇早期文献,一篇可能是引用其方法,另一篇可能是引用其结果,那么这两篇文献在内容上的联系就有可能是虚假的。引文有些是发生在前言和篇名中;有些是发生在正文中;有些发生在结论或讨论中。在这些情况下,作者对原著的引用内容和程度是不相同的。引文对原著的关系和重要性也各不相同,但在目前的引文分析中,对它们都是同等看待,不加区分的。这样也容易造成成假关系。新刊的论文得不到大量引用;小型期刊被引率往往低于大型期刊;引而未用或用而未引的情况也时有发生。文献引用中的这些现象都会影响引文分析方法的应用和效果。
(2)文献被引用并不完全等于重要:例如,有些具有错误观点或结论的论文,后人出于批评商榷,被引次数可能很多。另一方面,被引次数较少的文献也不能一概认为不重要。它受到许多因素的限制,如发表的时间、语种、学科专业等等。被引次数上的微小差别也不能完全说明质量上的优劣,它有很大的随机性,只有当这一差别很大时,才能说明问题。
(3)著者选用引文受到可获得性的影响:索普(M.E.Soper)研究指出,著者引用的文献,大部分是个人收藏的文献;少部分是本部门和就近图书馆的资料,而其它城市或其它国家的文献所占比例甚小。这说明著者选用参考文献以方便为准则,以占有为前提;同时还要受到著者语言能力、文献本身年龄和流通周期,以及二次出版物报道的影响。
(4)马太效应的影响:有的研究者认为,在文献引用方面也存在着马太效应的影响。人们往往以“名著”、“权威”作为选择引文的标准,有的确是出于需要,也有的则是为了装饰门面,抬高自己论文的身价。一种期刊因为发表名人的文章而为众人所引用,以至引起连锁反应,结果其引文率很高。这种马太效应的心理作用,掩盖和影响着文献引用的真实性。