基于语义的搜索结果聚类方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：q2316456q

【摘要】

：

随着网络的发展,越来越多的人们在互联网上获取信息。搜索引擎作为用户与互联网交互的中转站,负责信息的获取和检索,给人们带来了极大的便利。但是,随着互联网上信息量的增长

【作者】

：

党秋月

【出处】

：

北京邮电大学

【发表日期】

：

2014年01期

【关键词】

：

搜索结果聚类语义聚类 OPTICS 后缀树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络的发展,越来越多的人们在互联网上获取信息。搜索引擎作为用户与互联网交互的中转站,负责信息的获取和检索,给人们带来了极大的便利。但是,随着互联网上信息量的增长,搜索引擎返回的检索结果也日益繁杂,包含了很多不相干的、·重复的、混杂的结果。人们往往需要浪费很多的精力和时间来浏览这些信息才能找到满意的结果。因此,一些研究人员将信息检索中的聚类技术应用于搜索结果的分类中,将繁杂的搜索结果分类呈现给用户,这种方法称为搜索结果聚类。搜索结果聚类是指利用聚类这种无监督的机器学习手段,按照“最大化类内相似度,最小化类间相似度”的原则,将搜索结果聚集成类提取聚类标签给予用户一个类目导航。另外,搜索结果聚类对象不是传统的长文本而是搜索结果的短文摘。目前,搜索结果聚类技术多是采用独立的词语表示搜索结果短文摘,忽略了词语之间的语义关联等语义信息,存在严重的语义缺失。本论文针对搜索结果聚类技术中的语义缺失现象,对基于语义的搜索结果聚类方法进行了深入研究,主要的研究内容有：搜索结果预处理方法和建模方法,经典的搜索结果聚类方法以及基于语义的搜索结果聚类方法。另外,本论文在以上研究的基础上提出了基于OPTICS的搜索结果聚类算法和基于WordNet的后缀树聚类算法。这两种算法针对搜索结果聚类的语义缺失现象均提出了相应的改进,侧重于挖掘和利用搜索结果短文摘中的语义信息,以达到提高搜索结果聚类准确率的目的。最后,本论文在搜索结果数据集上进行了聚类实验,并对比分析了两种新算法的聚类性能。实验结果表明,本论文中提出的两种改进算法在聚类准确率方面较原算法有明显提高,并且缩短了运行时间,能够提高搜索结果聚类的可浏览性和实时性。

其他文献

分散红3B缩合工艺改进

研究了分散红3B原染料1—氨基—2—苯氨基—4—轻基蒽醌改进的缩合工艺，探讨了相关影响因素，提出了优化工艺条件。

期刊

分散红3B缩合工艺分散染料1—氨基—2—苯氨基—4—轻基蒽醌工艺改进amino-2-phenoxy-4-hydranthraquinonephenol

植物生产调节剂DCPTA的合成研究

在一步法合成DCPTA的基础上，通过加入相转移催化剂Bu4NBr，使其收率提高到63．1％，考察了最佳工艺条件。

期刊

植物生长调节剂DCPTA合成研究2-(34-二氯苯氧基)乙基二乙胺相转移催化剂dichlorophenoxy)ethyldiethylamine

雅诺什绘本创作解析

随着“绘本阅读热”在中国的兴起,大量的国外经典绘本被引进国门。但是对于中国儿童而言这是远远不够的,他们迫切的需要来自本土原创绘本的精神养料。国内绘本原创作者也不失

学位