【摘 要】
:
随着互联网信息的爆炸性增长,搜索引擎已成为人们从海量数据中获取信息的一个重要途径。目前搜索引擎主要还停留在关键词匹配的基础上进行信息的刷选,因此用户输入的查询短语准
论文部分内容阅读
随着互联网信息的爆炸性增长,搜索引擎已成为人们从海量数据中获取信息的一个重要途径。目前搜索引擎主要还停留在关键词匹配的基础上进行信息的刷选,因此用户输入的查询短语准确与否对查询结果有着极大的影响。然而语言存在歧义性以及用户偏向于输入较短的查询短语,查询短语往往不能准确地表达出用户的查询需求,此时搜索引擎会根据用户提交的查询短语向用户推荐相关的候选查询,如何准确地衡量查询短语之间的相似性则是其中的难点。
具有相同关键词的查询短语在语义上往往具有一定的相似性,本文依据该假设,利用用户的查询日志建立了以关键词为索引、查询短语为倒排表的倒排索引。利用倒排索引,我们能迅速地从大量查询短语中返回具有相似性的小部分候选查询。
本文的主要贡献是提出了两种计算查询短语相似性的方法:改进的编辑距离算法和加权的相似度算法。改进的编辑距离算法用于计算长度较长的问答式查询短语之间的相似度,加权的相似度算法则用于计算长度较短的普通查询短语之间的相似度。这两种相似度算法都充分考虑了在查询的语境下,影响查询短语相似性的各个不同因素。依据考察对象的不同,我们可以分为两类:一是针对关键词的不同属性,如词性、频率、关联度、词语的相似性;二是针对查询短语的不同属性,如新鲜度和流行度。查询短语最终的相关度由以上各个不同的因素加权得到。
最后,本文还依据用户查询日志对用户的查询行为进行了简单的分析,并用概率统计的方法从日志中发现未登录词来对中文分词系统进行改进。
其他文献
嵌入式系统现在在世界各行各业中得到广泛应用,嵌入式软硬件的复杂度在不断增加,嵌入式系统开发变得越来越复杂。嵌入式系统的开发环境和开发工具发展却相对很滞后。为了提高
跨入数字多媒体时代,图像作为人们获取信息最直观直接的方法之一,大量涌入到社会的各个领域。图像本身具有的易编辑、易修改等特性,以及图像处理软件的日益增多,使人们对图像
Web服务是一种运行在Web上的自包含、模块化的应用程序,它可以在网络中被描述、发布、查找以及调用,从而扩展了应用程序的功能,实现了软件的动态提供。随着电子商务的不断发
为了解决面向服务的体系架构存在的一些问题,例如服务提供者部分失败、服务注册中心部分失败、特定于位置的查询以及服务使用者与服务提供者位置紧耦合,现有的技术和思想均做了
人脸表情识别(Facial Expression Recognition,FER)技术作为计算机科学与人机交互领域一个重要组成部分,受到了众多学者的重视。人脸表情识别技术实际是一门综合性学科,开始
“僵尸网络”是受攻击者控制的危害网络安全的计算机网络。攻击者可以利用僵尸网络实施多种多样的恶意活动,例如垃圾邮件、分布式拒绝服务(DDOS)攻击、网络钓鱼、口令破译、
人类的视觉系统是这个世界上发展最为完善、机制最为复杂的感知系统之一。多年来赋予计算机人类视觉的功能一直都是所有人的梦想。计算机视觉的主要目的就是使计算机系统具有
随着计算机软硬件技术的不断发展和突破,基于图像处理的视觉测距已经成为研究的热点。视觉测量改变传统的测量方式,其可用于无人驾驶、三维重建、智能控制等众多领域。视觉传
参考文献信息是科技文献中的一部分主要内容,用来反映作者所做工作的主要理论基础,同时也提供了一些与该文献相关的其他科技文献的信息。传统的信息检索系统只是把文档的内容
近年来,随着三维数字扫描设备和技术的不断发展,点云模型作为曲面的一种新的表示方式获得了工业界和学术界的大量关注,点云模型在医学辅助诊断、数字娱乐、工业设计、航天模