论文部分内容阅读
〔摘 要〕文章介绍了一种新的适用于计算机的引文检索和引文分析的方法——关系矩阵法,这种方法能更快速更方便地进行引文分析和引文检索,并具有更强大的功能,例如计算文献的耦合单位。
〔关键词〕关系矩阵;引文索引;引文分析
DOI:10.3969/j.issn.1008-0821.2010.10.041
〔中图分类号〕G254.36 〔文献标识码〕B 〔文章编号〕1008-0821(2010)10-0153-02
To compile Citation Index and Analyse Citation With Relationship MatrixWang Xiaofen1 Deng Dongning2 Zou Xiaoshun3 Xiao Xia1
(1.Library,Wuhan Sports University,Wuhan 430000,China;
2.Library,Zhongnan University of Economics and Law,Changsha 410000,China;
3.Library,Wuhan University of Science and Technology,Wuhan 430000,China)
〔Abstract〕The paper introduced the new algorithm of compiling citation index,it could be used in citation retrielval and citation analysis quicklier and conveniantlier.The algorithm also have more fuctions,such as counting the coupling number between papers.
〔Keywords〕relationship matrix;citation index;citation analysis
引文索引是从被引用文献检索引用文献的索引(当然,我们也可以引用文献检索被引用文献)。两篇文献具有引用与被引用的关系,那么它们的内容之间一般都具有某种联系;在科技文献中,这种联系更加密切。另外,如果两篇文献引用了同一篇文献,那么这两篇文献的内容或多或少也有联系,不过这种联系一般不像直接的引用和被引用关系那样强烈。情报人员用这种联系定量地描述文献之间的相关关系:如果两篇文献共同引用了一篇文献,称这两篇文献具有一个“耦合单位”,耦合单位越多,说明两篇文献的相关性越强。美国的《科学引文索引》(SCI)和《社会科学引文索引》(SSCI)这两种著名的引文索引正广泛地应用于我国的学术界。
人们常常利用引文索引进行“滚雪球”式的检索:从一篇文献出发,找出引用它的所有文献;再从检索出的文献出发,找出引用它们的所有文献,……以此类推。这样做虽然检全率低,,但对于追溯一个科学家、一个课题产生的历史渊源和学术思想的形成有着特殊的功用,因此引文索引正广泛的应用于科学评价的领域。
显然,所谓“滚雪球”式的检索正是把引用与被引用关系当作一种传递关系来对待的,因此我们很自然地联想到用关系矩阵来进行这种“滚雪球”式的检索,因为用矩阵运算求间接的引用关系毕竟要方便得多。
首先介绍一下关系矩阵。
在一个有n个元素A1,A2,…,AN的集合Q中,如果任意两个元素Ai,Aj之间具有R关系,那么我们可以用下面矩阵S表示它们之间的关系:
S=a11a12…a1n
a21a22…a2n
…………
an1an2…ann
令S中各元{aij=1,当Ai和Aj具有直接的R关系,
否则aij=0
则称S为集合Q的R关系矩阵。
通过下面例子,我们可以发现用关系矩阵进行引文检索可以非常方便快速地进行引文检索,同时还可以得到一个副产品,就是两篇文献的耦合度很容易在关系矩阵中看出来。
例:已知文献A被文献B、C、I引用,文献B被D、F引用,C被E、F、G、H、I引用,E被G、H、I引用,求:(1)与A相关的所有文献;(2)A、B、C、D、E、F、G、H、I 9篇文献中,哪两篇文献的耦合度最大(最小),因而它们的相关程度最大(最小)。
由A、B、C、D、E、F、G、H、I之间的被引用关系可列出它们的“被引用”关系矩阵S(当然也可列出“引用”关系矩阵),其中各元按各文献发表时间的先后顺序排列。
用关系矩阵编引文索引和进行引文分析Oct.,2010Vol.30 No.10
ABCDEFGHI
S=A
B
C
D
E
F
G
H
I011000001
000101000
000011111
000000000
000000111
000000000
000000000
000000000
000000000
由S,可以看出引用关系矩阵是上三角矩阵,因为引用文献发表的时间一定迟于被引用文献发表的时间。
由S+S2(S2=S×S,逻辑乘)可以看出,文献A的引用相关文献是B、C、D、E、F、G、H、I,因此我们要了解由A文献产生的学术思想的发展状况,可以从B、C、D、E、F、G、H、I等文献中寻找线索。同样,由S+S2可知C的引用相关文献是E、F、G、H、I,E的引用相关文献是G、H、I。
由S矩阵求任意两篇文献的耦合度显然是很容易的。从左到右,S的行显示的是“被引用”关系;因此从上到下,S的列显示的就是“引用”关系。我们任意比较两行(如i和k行)的第j个元(j=1,2,…,n),若有一对同时为1,就表示第i篇文献和第i篇文献有一个耦合单位,两篇文献的总的耦合单位A可由下面公式求得:
A=∑nj=1Si,j•Sk,j,n是S的维数,即文献的篇数。
在S矩阵中很容易求出A、B、C、D、E、F、G、H、I两两之间的耦合度。显然G、H、I两两之间的耦合度最大,都是2,其次是F、G、D等,耦合度为1,最低的为0,即两篇文献没有共同的引文。
如果把文献-属性相关矩阵C(见邓珞华教授于《情报学报》2003年2期上发表的“概念空间——定义、意义与局限”一文)引进来,引文关系矩阵的功用就更多了:我们用引文关系矩阵S与文献-属性相关矩阵C相乘得到一个新矩阵R=SC,那么R(ij)=a就表示第i篇文献的引文中有a篇是用第j个主题词标引的。此外S与它的转置矩阵S的乘积Z=S•S的元Z(ij)表示第i篇文献和第j篇文献都引用了的文献的数目,而S×S=Y的元Y(ij)则表示既引用了第i篇文献又引用了第j篇文献的文献数目。
参考文献
[1]邓珞华.信息检索系统数学模型的理论及其评价[J].大学图书馆学报,2002,(1):6-13.
[2]夏淑萍,邓珞华.计算机信息检索[M].武汉大学出版社,2005.
[3]邓珞华.用矩阵编机内主题词典[J].计算机与图书馆,1982,(2-3).
[4]G.Salton.Mathematics and information retrieval,Journal of Documentation,1979,35(1):1-29.
[5]邓珞华.用关系矩阵显示概念之间的关系[J].情报学报,1983,(1).
[6]邓珞华,孙清兰,范并思.图书情报数学[M].长春:东北师范大学出版社,1983,(8).
〔关键词〕关系矩阵;引文索引;引文分析
DOI:10.3969/j.issn.1008-0821.2010.10.041
〔中图分类号〕G254.36 〔文献标识码〕B 〔文章编号〕1008-0821(2010)10-0153-02
To compile Citation Index and Analyse Citation With Relationship MatrixWang Xiaofen1 Deng Dongning2 Zou Xiaoshun3 Xiao Xia1
(1.Library,Wuhan Sports University,Wuhan 430000,China;
2.Library,Zhongnan University of Economics and Law,Changsha 410000,China;
3.Library,Wuhan University of Science and Technology,Wuhan 430000,China)
〔Abstract〕The paper introduced the new algorithm of compiling citation index,it could be used in citation retrielval and citation analysis quicklier and conveniantlier.The algorithm also have more fuctions,such as counting the coupling number between papers.
〔Keywords〕relationship matrix;citation index;citation analysis
引文索引是从被引用文献检索引用文献的索引(当然,我们也可以引用文献检索被引用文献)。两篇文献具有引用与被引用的关系,那么它们的内容之间一般都具有某种联系;在科技文献中,这种联系更加密切。另外,如果两篇文献引用了同一篇文献,那么这两篇文献的内容或多或少也有联系,不过这种联系一般不像直接的引用和被引用关系那样强烈。情报人员用这种联系定量地描述文献之间的相关关系:如果两篇文献共同引用了一篇文献,称这两篇文献具有一个“耦合单位”,耦合单位越多,说明两篇文献的相关性越强。美国的《科学引文索引》(SCI)和《社会科学引文索引》(SSCI)这两种著名的引文索引正广泛地应用于我国的学术界。
人们常常利用引文索引进行“滚雪球”式的检索:从一篇文献出发,找出引用它的所有文献;再从检索出的文献出发,找出引用它们的所有文献,……以此类推。这样做虽然检全率低,,但对于追溯一个科学家、一个课题产生的历史渊源和学术思想的形成有着特殊的功用,因此引文索引正广泛的应用于科学评价的领域。
显然,所谓“滚雪球”式的检索正是把引用与被引用关系当作一种传递关系来对待的,因此我们很自然地联想到用关系矩阵来进行这种“滚雪球”式的检索,因为用矩阵运算求间接的引用关系毕竟要方便得多。
首先介绍一下关系矩阵。
在一个有n个元素A1,A2,…,AN的集合Q中,如果任意两个元素Ai,Aj之间具有R关系,那么我们可以用下面矩阵S表示它们之间的关系:
S=a11a12…a1n
a21a22…a2n
…………
an1an2…ann
令S中各元{aij=1,当Ai和Aj具有直接的R关系,
否则aij=0
则称S为集合Q的R关系矩阵。
通过下面例子,我们可以发现用关系矩阵进行引文检索可以非常方便快速地进行引文检索,同时还可以得到一个副产品,就是两篇文献的耦合度很容易在关系矩阵中看出来。
例:已知文献A被文献B、C、I引用,文献B被D、F引用,C被E、F、G、H、I引用,E被G、H、I引用,求:(1)与A相关的所有文献;(2)A、B、C、D、E、F、G、H、I 9篇文献中,哪两篇文献的耦合度最大(最小),因而它们的相关程度最大(最小)。
由A、B、C、D、E、F、G、H、I之间的被引用关系可列出它们的“被引用”关系矩阵S(当然也可列出“引用”关系矩阵),其中各元按各文献发表时间的先后顺序排列。
用关系矩阵编引文索引和进行引文分析Oct.,2010Vol.30 No.10
ABCDEFGHI
S=A
B
C
D
E
F
G
H
I011000001
000101000
000011111
000000000
000000111
000000000
000000000
000000000
000000000
由S,可以看出引用关系矩阵是上三角矩阵,因为引用文献发表的时间一定迟于被引用文献发表的时间。
由S+S2(S2=S×S,逻辑乘)可以看出,文献A的引用相关文献是B、C、D、E、F、G、H、I,因此我们要了解由A文献产生的学术思想的发展状况,可以从B、C、D、E、F、G、H、I等文献中寻找线索。同样,由S+S2可知C的引用相关文献是E、F、G、H、I,E的引用相关文献是G、H、I。
由S矩阵求任意两篇文献的耦合度显然是很容易的。从左到右,S的行显示的是“被引用”关系;因此从上到下,S的列显示的就是“引用”关系。我们任意比较两行(如i和k行)的第j个元(j=1,2,…,n),若有一对同时为1,就表示第i篇文献和第i篇文献有一个耦合单位,两篇文献的总的耦合单位A可由下面公式求得:
A=∑nj=1Si,j•Sk,j,n是S的维数,即文献的篇数。
在S矩阵中很容易求出A、B、C、D、E、F、G、H、I两两之间的耦合度。显然G、H、I两两之间的耦合度最大,都是2,其次是F、G、D等,耦合度为1,最低的为0,即两篇文献没有共同的引文。
如果把文献-属性相关矩阵C(见邓珞华教授于《情报学报》2003年2期上发表的“概念空间——定义、意义与局限”一文)引进来,引文关系矩阵的功用就更多了:我们用引文关系矩阵S与文献-属性相关矩阵C相乘得到一个新矩阵R=SC,那么R(ij)=a就表示第i篇文献的引文中有a篇是用第j个主题词标引的。此外S与它的转置矩阵S的乘积Z=S•S的元Z(ij)表示第i篇文献和第j篇文献都引用了的文献的数目,而S×S=Y的元Y(ij)则表示既引用了第i篇文献又引用了第j篇文献的文献数目。
参考文献
[1]邓珞华.信息检索系统数学模型的理论及其评价[J].大学图书馆学报,2002,(1):6-13.
[2]夏淑萍,邓珞华.计算机信息检索[M].武汉大学出版社,2005.
[3]邓珞华.用矩阵编机内主题词典[J].计算机与图书馆,1982,(2-3).
[4]G.Salton.Mathematics and information retrieval,Journal of Documentation,1979,35(1):1-29.
[5]邓珞华.用关系矩阵显示概念之间的关系[J].情报学报,1983,(1).
[6]邓珞华,孙清兰,范并思.图书情报数学[M].长春:东北师范大学出版社,1983,(8).