聚类搜索引擎系统的研究与改进

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:byddr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,文本文档、Web页面在互联网中快速扩充,如何帮助人们更快捷、有效地获取信息,已成为目前搜索引擎领域重要的研究课题之一。鉴于此,聚类搜索引擎应运而生。聚类搜索引擎将文本聚类技术应用到搜索引擎中,对搜索结果进行有效的聚类,帮助用户快速准确地定位感兴趣内容,从而提高搜索引擎检索精度。近年来,聚类搜索引擎在国外发展迅速,许多技术已经应用成熟。相比之下国内这方面的研究还比较少,但也有部分中文搜索引擎将聚类技术引入其中,以提高中文信息检索的精度和效率。我们将其称为中文聚类搜索引擎。   本文的主要工作是对聚类搜索引擎的体系结构进行了深入研究,并对现有的中文聚类搜索引擎进行改进,以提高检索的效率和精度。具体的研究工作简要概括为以下几个方面:   一、对聚类搜索引擎系统及其核心模块进行了简要的设计,并在此基础上对每个模块中的关键技术做了一个详细的介绍。   二、目前聚类特征选取方法大多是基于统计学的,其中最主要的缺点是忽略了词与词之间的语义关系,鉴于此,本文提出了结合语义的特征选择方法。该方法首先对特征项进行词性选择与分类,然后计算词语之间相似度,最后进行同义词合并加权。经过这些步骤使得特征选取从词的层面上升到主题语义的层面,不仅大大降低了特征空间的维度,而且提高了聚类的速度和精度。   三、K-means方法在应用中容易受到孤立点的干扰,为了克服这个缺点,本文提出了一种基于平均密度过滤孤立点的方法。该方法简单实用,且能够较好的识别文本集合中的孤立点,为下一步的聚类的稳定性奠定了良好的基础。   四、针对传统K-means算法中聚类参数K的不确定性以及初始聚类中心选取的盲目性,本文改进了基于“最大最小”原则选取初始聚类中心的方法,使得聚类参数K的确定过程自动化,提高了文本聚类质量。
其他文献
随着海上油田的进一步勘探开发,海上钻井平台钻探任务不断加大,平台的拖航次数、拖航的距离及拖航的时间都相应的增加,同时海上船舶调度及船舶运输的工作量也随之变得繁重。
信息时代,网络的安全问题越来越受到关注。网络运行的安全状况如何,潜在的风险及其脆弱性有哪些,这些问题已成为人们首要关心的问题。基于此,本文提出一套脆弱性评估的指标、
主题地图是一种全新的数字化知识表示与组织方法,已经成为知识发现领域中的一个重要的研究方向。主题地图不仅可以定位某一知识点所在的位置,还可以清楚的表示各知识点之间的
网络的路由放置问题在无线Mesh网络中一直是一个重要研究方向。一个高效的mesh路由节点放置方法能有力地保证网络的连通和用户的全覆盖。因为无线mesh网络可以提供价格低廉的
随着互联网技术的快速发展,大规模的分布式系统在各个领域中得以广泛地应用。但是,系统的复杂度也随着系统规模的扩大而增加,这对大规模分布式系统的有效管理提出了更大的挑
机会网络是一种不需要源节点和目的节点之间存在完整路径,利用节点移动带来的相遇机会实现网络通信的移动自组织网络。当前关于机会网络数据转发机制的研究存在一个共同的假设
近些年来,随着嵌入式系统、无线网络通信和数字电路等技术的进步,使得多功能低功耗无线传感器网络得到了快速发展。无线传感器网络有着高度动态的系统行为,以数据为中心和动态自
不改变现存低分辨率成像系统,通过多帧互有位移、信息互补的低分辨率图像或视频序列获取高分辨率图像的超分辨重构技术,一直是图像处理领域中研究热点之一,在刑事侦察、目标
高性能的应用层组播研究已经越来越受到业界的关注,由于拓扑感知应用层组播能够最大限度地使底层物理网络拓扑与组播覆盖网络相匹配,从而获得更好的组播数据转发性能。拓扑感
随着宽带无线技术的快速发展,包含语音、视频、数据等多业务融合越来越成为未来人们对移动通信的需求。以政府、公司、航空、铁路等部门为用户主体的,具有集团指挥调度的宽带