基于图的科技文献相似性搜索关键技术研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:lmwtz0x8u0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术是极具传承性的事业,任何一个科技工作者要取得好的进展,都离不开前人或他人的经验和成果。近年来,随着计算机、生物、化学、医药等领域的研究成果发布周期越来越短,科技文献数目加速增长。目前,仅中国知网能检索到的文献就超过7000万篇,平均每天出版文献28000篇。面对日益增长的文献资源,如何了解当前研究领域内前人或他人的主要的研究成果、诱导类比、联想各种创新思维,促进科学发现和技术创新,快捷准确地搜索相似文献已成为人们关注的热点问题。随着生物信息学、化学情报学、社会网络分析的广泛应用,图在诸如蛋白质结构、神经网络等复杂结构建模方面日趋重要。在现实世界中,有许多科技、商业、经济、生化等领域的问题可以抽象成图上的相似性搜索问题。基于这一思想,本文提出了文献拓扑图模型,其中包括无向文献拓扑图和有向文献拓扑图,将文献的相似性搜索问题转化为图搜索问题。论文工作主要包括以下两个方面:首先,基于无向文献拓扑图提出了一种新的文献相似度评估方法,该方法结合了对文献内容与文献间的引用关系的分析,并应用容斥原理计算文献间相似度;提出了一种基于Erdǒs理论的文献相似性搜索算法—Hub-N,该算法采用了广度优先与剪枝策略相结合的搜索技术,缩小了扫描文献范围,提高了搜索效率,并通过实验验证了其有效性和可行性。同时,Hub-N算法也适用于其他领域的相似性搜索。其次,分析了PageRank算法应用于科技文献相似性搜索的可行性、优点和不足,针对PageRank的不足提出了一种改进的PageRank算法——IPR,IPR算法基于有向文献拓扑图,结合了对文献内容和文献间的引用关系的分析,从内容分析角度解决相关性需求,从引用分析角度解决权威性需求,综合计算文献间相似度,提高了搜索结果的准确率。最后,通过实验验证了IPR算法的有效性和可行性。
其他文献
宽视域(FOV,Wide field-of-view)在许多的工业生产中发挥着重要的作用,比如空中交通管制、大型车辆的驾驶与导航中都离不开FOV。在这篇论文中介绍了一种实时的沉浸感显示系统,能
射频识别(RFID)作为一种高效的数据采集和自动识别技术,在制造、物流、医疗、运输、零售等领域具有广泛的应用前景。但随着RFID技术的快速发展和其应用规模的逐渐扩大,RFID系
医学图像融合是对多幅不同模态的医学图像进行信息综合,合成一幅包含所有源图像重要信息的融合图像的过程。该技术充分利用不同模态医学图像提供病灶信息的冗余性和互补性,以获
随着现代工业和交通运输业的飞速发展,噪声问题日益引起了人们的极大关注。基于自适应控制理论的噪声主动控制技术已经成为噪声控制领域的重要研究内容之一,并取得了丰硕的成果。在自适应噪声主动控制控制系统中,控制算法是直接影响自适应控制性能的重要因素。目前,在自适应噪声主动领域,使用最为广泛的是基于线性自适应滤波器的滤波-XLMS算法,而滤波-XLMS算法存在需要较高阶次的自适应滤器和不能有效的控制非线性噪
H.264是一种高度压缩的数字视频编解码标准,2002年由ITU-T视频编码专家组和ISO/IEC动态图像专家组组成的联合视频组(JVT, Joint Video Team)提出,其特点是具有更好的编码效率
计算机技术、网络技术、Internet技术的进步,带来了数据挖掘技术的迅速发展。该技术主要是以从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜
现代计算机技术的高速发展,使得在科学研究和社会生活的各个领域中积累了大量的数据,为将这些数据转换成有用的信息和知识,数据挖掘技术应运而生并得以迅速发展。但是存在一
网络系统日趋大型化、连续化、高速化和自动化,功能越来越多、结构也越来越复杂,其故障诊断与预测技术涉及到相互关联、相互制约的多个层次和众多因素,其中有很多因素对于系
随着经济全球化的发展,互联网为中小型企业的发展带来更广阔的市场前景。针对目前网购市场中的大量女性客户,本文设计并实现基于化妆品销售的中小型B2C商城系统,提供给客户一
自从20世纪80年代后期数据挖掘理论出现以来,数据挖掘技术有了突飞猛进的发展。随着数据量大量增加,数据挖掘技术变得越来越重要,从而引起了众多研究人员的兴趣,数据挖掘迅速