信息检索中的排序与相关度计算研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:c1b2n3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。信息检索的研究可以帮助人们有效的找到感兴趣的信息,帮助用户发现对自己有用的知识。信息检索的核心问题就是预测文档的相关度,并按照其相关度对文档进行排序,一般而言,排在最顶端的文档被认为最相关。因此,相关性的计算和排序算法就成为信息检索的核心。传统的信息检索主要采用向量空间模型计算相关度,该模型也多用于Web信息检索。但Web网页与普通文档相比,有很多独特的特征,如单个Web网页具有URL、HTML Tag、Anchor Text、入度;同时Web网页之间具有超链接,分析这种超链接关系,可以改进检索结果的排序效果。而Deep Web是一种特殊的Web资源,其信息存储在数据库中,用户只能通过一些含表单的网页对其访问,但是这些网页中所含内容较少,网页之间链接关系较少,若采用一般的Web检索相关度计算方法,会得到很差的效果。本文的研究主要着眼于Web和Deep Web信息检索领域,有以下几个方面的贡献:1.实现了一个基于向量空间模型的全文检索系统,对如何利用Web网页的HTML标签、锚文本、入度特征来改进相关度计算进行了研究。并针对Web网页的URL特征,给出了对检索结果重排序的方法。该系统在国内文本检索会议(SEWM2007)中表现较好,取得了一定的成绩。2.针对Web网页之间的链接特征,提出了一种面向主题的页面重要度计算方法,新算法基于PageRank超链接分析算法,考虑了网页内容与主题的相关度、主题信息对网页间链接的分类和web页面自身重要度等因素对网页重要度计算的影响。实验证明针对具体领域,该算法在P@10和用户满意度等方面优于PageRank算法。3.给出了计算Deep Web数据库之间语义相关度的两种算法。第一个算法基于向量空间模型,但在计算数据库表之间的语义相关度时,综合考虑了含有数据库表的网页内容和数据库表之间的语义距离。且利用模糊分层集合,把同义和近义的标记词进行归一,依据新的词频计算方法产生对数据库表的向量表示。第二个算法采用本体和模糊集理论,将向量表示的数据库表转化为概念模糊集的形式,利用模糊集的匹配度来计算数据库表之间的语义相关度。分别采用分类算法和聚类算法来检验两种算法的效果。实验表明,两种新的语义相关度算法比余弦相似度算法表现好。
其他文献
在这个日新月异、瞬息万变的时代,科技的发展让人们的生活越来越丰富。近几年,智能化的领域越来越受到大家的关注,而智能机器人作为智能化的高端科技设备也受到大家的青睐。
图像分割是计算机视觉与模式识别领域的一个重要研究的方向。物体轮廓的提取在各个方面所起的作用越来越重要,因此这方面的研究也越来越多。主动轮廓模型,Active Contour Mod
随着我国汽车拥有数量地不断增加,交通的现代化一方面为社会创造了大量财富,给人们带来了极大的便利,另一方面也带来了严重的灾难,交通事故频发。国家出台政策法规推广车辆行驶记
在信息技术、云计算等新兴技术的推动下,互联网上的软件服务数量急剧增多的同时,互联网的便捷性也使服务提供者面对的用户群体规模迅速增长,用户需求的个性化程度逐渐增大。
纹理分析在遥感、医学图像处理、计算机视觉及基于纹理的按图像内容检索等许多应用领域中具有重要意义。经验模态分解(Empirical mode decomposition,EMD)由Huang等人在1998
肤色检测技术的研究是目前图像识别与理解研究中的一个热点,它是很多基于肤色的应用的前期处理,如人脸检测、手势识别、色情图像识别及过滤等。稳健的肤色检测技术是这些计算机
数据挖掘指的是从大量数据中提取隐含的、事先未知的、并且潜在有用的知识的技术,是目前国际上数据库和信息决策领域最前沿的领域之一。聚类分析就是其中一个重要的研究方向,
由铝箔和纸料贴合而成的贴纸铝箔是香烟包装行业的主要包装材料,在烟箔生产过程中,对张力控制的好坏直接影响烟箔的质量,因此张力控制系统是复合机控制的关键技术。论文从复
路径规划就是指按照先验知识,在满足一定约束条件下,从有障碍物的环境中规划出一条从起点到终点的无碰撞路径。它在机器人学,地理信息系统,G IS等众多领域有广泛的运用,对它的研究
科学计算可视化是20世纪80年代发展起来的一个新的研究领域。它运用计算机图形学和图像处理技术,将科学计算过程中产生的数据及计算结果数据转化为图形及图像在屏幕上显示出来