论文部分内容阅读
当前,包括学术数据库在内的众多学术检索系统已经成为广大科研工作者必备的研究工具。而目前包括Elsevier, Web of Science, CNKI在内的众多知名学术数据库在其检索模块都主要是采用基于文献内容的解决方案,而由于学术信息彼此之间内容较为相似,难以甄别的特点,这样的检索解决方案往往使用户陷入检索结果集的茫茫森林之中,难以准确定位自身所需求的信息,用户体验不佳。而不同于其他文本,学术文献除了其本身的内容信息之外,还拥有许多其他的信息:引用,被引,作者,机构,杂志(会议),基金等,这些外部信息很大程度上反映了文献的质量和内容,用户在检索文献的过程中也往往利用这些信息进行相关性判断。因而将这些信息应用于传统的基于文献内容的检索算法上应该会取得更好的检索效果。本文的研究将把文献的引用关系应用于检索结果聚类和相关反馈算法中,并设计一种综合利用文献内容、引用关系、作者,机构,杂志(会议),基金等信息进行检索的学术检索系统架构。本文的研究工作主要包括以下几个部分:(1)利用统计学上的相关分析方法探索了文献同被引、文献耦合强度与文献内容相似度之间的相关性关系。采用BioMed数据库的论文分别得到两篇论文的文本相似度(包括题名-文摘相似度和全文相似度)以及文献耦合次数与文献同被引次数分别进行相关性分析,分析结果表明文献耦合次数、同被引次数和文献内容相似度之间具有显著的相关性关系。其中相比文献耦合次数,同被引次数与文献内容相似度相关性更显著,相比题名文摘相似度,文献全文相似度与文献耦合次数、同被引次数的相关性更显著。(2)利用文献的引用上下文扩充文本内容,改进原有的"bag of words"文本表示模型。文献的引用上下文(citation context)是指一篇论文在引用其它文献时,引用符号附近的上下文。一般而言,在作者进行引用行为时,会对被引文献的内容进行简单扼要的概括,来自施引文献的这些概括内容是对被引文献文本内容一个很好的扩展,常常包括了原文所没有的特征项。通过本文后期实验的证明,这样的文本表示方法有效提升了文本表示的效果。(3)提出一种基于文献同被引关系的K-means改进算法,利用第一轮对文献同被引矩阵的层次聚类确定K-means算法的K值和初始聚类中心,较为有效地解决了限制K-means算法聚类效果的问题。(4)提出了一种基于n元语法的聚类标签抽取算法,首先在语料库上进行先期学习生成领域短语词表,再通过聚类从聚簇中抽取n元语法项并计算TFIDF值,对出现在词表中的特征项赋以更高的权值,最终以得分最高的特征项作为聚类标签。此外,本文在抽取聚类标签时提出了一种改进的TFIDF权重计算公式,在评价标签质量时提出了一种新的标签评价方法R@N方法。(5)提出了一种基于文献同被引关系和耦合关系的相关反馈算法。在相关反馈的相关文献判断阶段利用文献同被引关系和耦合关系进行相关文献集扩充,并结合聚类的思想抽取特征项进行查询扩展,有效地提升了检索效果。(6)设计了一种新的学术信息检索系统的架构,将前面提到的几项算法运用于系统中,并提出在学术信息检索中综合运用学术文献内容、引用、作者、机构、期刊(会议)、基金等信息来改进检索效果的设想。论文在提出算法思想的同时,利用实验对新算法与已有算法进行了性能比较,都取得了不俗的实验效果,相信本文的研究成果将对学术检索系统检索功能的改进有一定的参考意义。