搜索引擎的话题在线聚类及标注方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wudizihao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的普及以及互联网的快速发展,搜索引擎已经成为人们日常生活中必备的信息搜索与获取工具。虽然搜索引擎发展非常迅速,但其效果远未达到令人满意的程度。用户不得不逐页浏览检索结果,这种线性的检索结果呈现方式极大的降低了检索效率,已经成为用户快速准确的查找信息的一个瓶颈。  本文的主要工作是通过引入语义分析、文本聚类等自然语言处理技术,帮助用户了解整个检索结果的内容分布,从而建立高效的、实时的、层次化的检索模型。  本文首先分析了常见的基于划分、基于层次和基于模型等三类聚类方法,分析了衡量聚类性能的标准,并结合汉语自身的特点详细的分析了中文文本聚类中所涉及到的关键问题及其技术,给出了通用搜索引擎在线聚类的总体设计。  为了提高在线聚类的效率,本文采用了一种基于重复串的文本特征提取方法。通过这种方法提取出的短语特征具有相对完整的上下文语义,以及较好的统计特点,并能显著的降低特征空间的维度。  同时,结合k-means聚类方法,设计并实现了基于话题的搜索引擎在线聚类模块,借助重复串特征提取的结果实现了对聚类结果的话题标注。结合聚类的特点,设计了基于聚类的检索结果精度评估模型。  最后,在本实验中心构建的智能化Web信息检索平台(InarSE)上,进行了实验,对聚类结果进行了检索精度评估,并于通用搜索引擎的检索结果进行了比较。实验结果表明,与通用搜索引擎相比,基于话题的在线聚类方法极大的提高了检索精度。  本文的研究与探索为进一步研究搜索引擎的个性化技术,开发高质量的网络信息检索工具提供了良好的开端。
其他文献
NGN(NextGenerationNetwork,下一代网络)是基于分组技术的网络,能提供多种电信级业务,满足人们对各种新业务的需求。其中,在NGN上提供实时语音和多媒体业务是当前的热点。  与此
H.264/AVC视频压缩标准采用了几种变长码技术,例如指数哥伦布码和基于上下文自适应的变长编码。而在其参考软件中,这些变长码的解码算法对于理解标准的内容有很大的作用,但是在
语音处理技术有着广泛的应用领域,歌声旋律自动调整是语音处理技术的一个新的应用领域。对歌声旋律自动调整方法的研究在歌声评估、音乐教学、歌声纠正、娱乐等领域都有很大的
足球机器人的研究在近几年得到了迅速发展,使得这个多学科交叉的项目受到越来越多的关注,作为一个新的研究领域,有很多内容值得去研究。本文的研究对象是中型组足球机器人,着重对
指纹识别是生物特征识别技术中被广泛关注的应用之一。一个典型的指纹识别系统包括四个主要部分:指纹图像获取、图像预处理、特征提取和特征匹配。由于基于细节点的指纹识别无
随着数据库技术的不断发展及数据库管理系统的广泛应用,同多媒体数据一样,数据库也面临着版权保护的问题。当在Internet上允许指定用户远程查询和访问数据库时,数据提供者要
生物系统是一种复杂系统,而生物网络是描述生物系统的一种有力工具。通过对生物网络研究,能够了解生物系统的运行过程,探索基因或其他分子化合物的功能作用。随着人类基因组计划
在WCDMA基站中,主控板和其他外围单板之间的交互显得非常繁琐,并且难以控制,一般的做法是采用大量的自定义的消息进行交互,即将需要交互的数据以厂家特定的形式封装在UDP或者TCP
随着计算机网络通信的迅猛发展,网络安全开始被人们所重视,其中安全协议分析验证已成为一个研究热点。对安全协议的分析验证的方法和手段有很多,其中形式化分析方法已被证明
场景文本识别主要研究的内容是识别出自然场景环境下拍摄的图像中所包含的文本。自然场景文本包括路牌、商业广告、杂货店店面和车牌号码等。随着计算机技术的发展,尤其是智能