基于引用分析的学术检索系统改进研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:pf2858888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,包括学术数据库在内的众多学术检索系统已经成为广大科研工作者必备的研究工具。而目前包括Elsevier, Web of Science, CNKI在内的众多知名学术数据库在其检索模块都主要是采用基于文献内容的解决方案,而由于学术信息彼此之间内容较为相似,难以甄别的特点,这样的检索解决方案往往使用户陷入检索结果集的茫茫森林之中,难以准确定位自身所需求的信息,用户体验不佳。而不同于其他文本,学术文献除了其本身的内容信息之外,还拥有许多其他的信息:引用,被引,作者,机构,杂志(会议),基金等,这些外部信息很大程度上反映了文献的质量和内容,用户在检索文献的过程中也往往利用这些信息进行相关性判断。因而将这些信息应用于传统的基于文献内容的检索算法上应该会取得更好的检索效果。本文的研究将把文献的引用关系应用于检索结果聚类和相关反馈算法中,并设计一种综合利用文献内容、引用关系、作者,机构,杂志(会议),基金等信息进行检索的学术检索系统架构。本文的研究工作主要包括以下几个部分:(1)利用统计学上的相关分析方法探索了文献同被引、文献耦合强度与文献内容相似度之间的相关性关系。采用BioMed数据库的论文分别得到两篇论文的文本相似度(包括题名-文摘相似度和全文相似度)以及文献耦合次数与文献同被引次数分别进行相关性分析,分析结果表明文献耦合次数、同被引次数和文献内容相似度之间具有显著的相关性关系。其中相比文献耦合次数,同被引次数与文献内容相似度相关性更显著,相比题名文摘相似度,文献全文相似度与文献耦合次数、同被引次数的相关性更显著。(2)利用文献的引用上下文扩充文本内容,改进原有的"bag of words"文本表示模型。文献的引用上下文(citation context)是指一篇论文在引用其它文献时,引用符号附近的上下文。一般而言,在作者进行引用行为时,会对被引文献的内容进行简单扼要的概括,来自施引文献的这些概括内容是对被引文献文本内容一个很好的扩展,常常包括了原文所没有的特征项。通过本文后期实验的证明,这样的文本表示方法有效提升了文本表示的效果。(3)提出一种基于文献同被引关系的K-means改进算法,利用第一轮对文献同被引矩阵的层次聚类确定K-means算法的K值和初始聚类中心,较为有效地解决了限制K-means算法聚类效果的问题。(4)提出了一种基于n元语法的聚类标签抽取算法,首先在语料库上进行先期学习生成领域短语词表,再通过聚类从聚簇中抽取n元语法项并计算TFIDF值,对出现在词表中的特征项赋以更高的权值,最终以得分最高的特征项作为聚类标签。此外,本文在抽取聚类标签时提出了一种改进的TFIDF权重计算公式,在评价标签质量时提出了一种新的标签评价方法R@N方法。(5)提出了一种基于文献同被引关系和耦合关系的相关反馈算法。在相关反馈的相关文献判断阶段利用文献同被引关系和耦合关系进行相关文献集扩充,并结合聚类的思想抽取特征项进行查询扩展,有效地提升了检索效果。(6)设计了一种新的学术信息检索系统的架构,将前面提到的几项算法运用于系统中,并提出在学术信息检索中综合运用学术文献内容、引用、作者、机构、期刊(会议)、基金等信息来改进检索效果的设想。论文在提出算法思想的同时,利用实验对新算法与已有算法进行了性能比较,都取得了不俗的实验效果,相信本文的研究成果将对学术检索系统检索功能的改进有一定的参考意义。
其他文献
新课程理念下的综合实践课程要求教师从课程的执行者向开发者转变;由班级授课向开放性教学转变;由个体独立的教学向合作教学转变;由重知识传授向重学生学习方式转变。综合实
<正> 一位教师在黑板上出示了这样一道习题:"某校有一块长方形操场.在比例尺是1/1000的图上,这操场的长是7厘米,面积是28平方厘米.这操场的实际面积是多少平方米?"一个学生在
<正>有图书馆、阅览室,不等于"书香学校";有读书或读书活动,不等于"书香学校";有制度或读书计划,不等于"书香学校";校长或某些老师喜欢读书,也不等于"书香学校"……"书香学校
本文介绍了捷联惯导系统的数据采集与实时处理,ST—732 A/D、D/A转换板的结构、初始化和使用及8253、8259A的初始化和编程方法,同时还给出了捷联惯导系统的框图、软件框图和
随着新建地方本科院校确立应用型办学定位,高等数学教学模式陈旧与应用型人才培养要求不相适应的矛盾日益突出。构建应用型人才培养的高等数学基础课教学模式,是我国高等教育
目的了解小儿手足口病的流行病学特征,为手足口病的预防提供科学依据。方法用描述性流行病学的方法,对2009年1月-2010年12月在医院确诊的2346例手足口病患儿在性别、年龄、地
目的:探讨跖跗关节脱位及骨折脱位的治疗方法及临床疗效。方法:对1998—2004年收治的74例跖跗关节损伤患者进行了回顾性研究,本组病例复位后分别采用石膏外固定24例、克氏针
本文通过对"白狗黑"等先秦名家"诡辩"命题的研究,指出这些命题是先秦名家的理性主义哲学思想命题。由于古汉语的非屈折性语言特征,先秦名家通过对形容词之为"名"的语义本体地
目的:探讨慢性阻塞性肺疾病(COPD)患者非药物治疗依从性与其生存质量间的相互关系。方法:采用自行设计的COPD非药物治疗依从性问卷(依从性问卷)和圣乔治呼吸问卷(SGRQ)对COPD患者92例
对于教师来讲,责任意识是潜在深层次的力量,是自我专业发展的基石,也是成为一名合格教师的前提条件和根本保证。本文在分析中小学教师责任意识缺失表现的基础上,给出了中小学