基于语义的搜索结果聚类方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:q2316456q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,越来越多的人们在互联网上获取信息。搜索引擎作为用户与互联网交互的中转站,负责信息的获取和检索,给人们带来了极大的便利。但是,随着互联网上信息量的增长,搜索引擎返回的检索结果也日益繁杂,包含了很多不相干的、·重复的、混杂的结果。人们往往需要浪费很多的精力和时间来浏览这些信息才能找到满意的结果。因此,一些研究人员将信息检索中的聚类技术应用于搜索结果的分类中,将繁杂的搜索结果分类呈现给用户,这种方法称为搜索结果聚类。搜索结果聚类是指利用聚类这种无监督的机器学习手段,按照“最大化类内相似度,最小化类间相似度”的原则,将搜索结果聚集成类提取聚类标签给予用户一个类目导航。另外,搜索结果聚类对象不是传统的长文本而是搜索结果的短文摘。目前,搜索结果聚类技术多是采用独立的词语表示搜索结果短文摘,忽略了词语之间的语义关联等语义信息,存在严重的语义缺失。本论文针对搜索结果聚类技术中的语义缺失现象,对基于语义的搜索结果聚类方法进行了深入研究,主要的研究内容有:搜索结果预处理方法和建模方法,经典的搜索结果聚类方法以及基于语义的搜索结果聚类方法。另外,本论文在以上研究的基础上提出了基于OPTICS的搜索结果聚类算法和基于WordNet的后缀树聚类算法。这两种算法针对搜索结果聚类的语义缺失现象均提出了相应的改进,侧重于挖掘和利用搜索结果短文摘中的语义信息,以达到提高搜索结果聚类准确率的目的。最后,本论文在搜索结果数据集上进行了聚类实验,并对比分析了两种新算法的聚类性能。实验结果表明,本论文中提出的两种改进算法在聚类准确率方面较原算法有明显提高,并且缩短了运行时间,能够提高搜索结果聚类的可浏览性和实时性。
其他文献
研究了分散红3B原染料1—氨基—2—苯氨基—4—轻基蒽醌改进的缩合工艺,探讨了相关影响因素,提出了优化工艺条件。
在一步法合成DCPTA的基础上,通过加入相转移催化剂Bu4NBr,使其收率提高到63.1%,考察了最佳工艺条件。
随着“绘本阅读热”在中国的兴起,大量的国外经典绘本被引进国门。但是对于中国儿童而言这是远远不够的,他们迫切的需要来自本土原创绘本的精神养料。国内绘本原创作者也不失
中国的月亮神话是我们民族文化遗产中闪烁着迷人光泽的一串明珠。关于月亮神话中的神格动物——蛙、兔的来历以及蛙兔之演变,从屈原在《楚辞·天问》中对月亮神话的发问以来,对
随着不断进行的课程改革,提倡自主学习、合作探究的学习方式的呼声已经越来越高,所以作为教师我们的思想也应该随着发生转变.在初中数学课堂中采用小组合作的方式进行教学,可
以阳离子交换树脂为催化剂,研究了乳酸与异戊醇合成乳酸异戊酯的反应条件,结果表明:用1.0g阳离子交换树脂作催化剂、0.1mol(9g)乳酸,当乳酸与异戊醇的摩尔比为1:2,在回流条件下反应3
详细论述了催化酯化合成三油酸甘油酯的方法,此合成分两步完成,避免了酯化反应的可逆性,高质量的产品符合医药用标准。
<正>《生命科学研究》是由中华人民共和国新闻出版署、科技部批准创办的,国内外公开发行的反映生命科学领域中最新研究成果的综合性学术期刊。本刊是被中国科学引文数据库(CS
期刊
以原料二甲基硫醚与过氧化氢为原料,通过控制反应条件进行氧化反应,然后冷却结晶,离心分离,鼓风干燥,制得二甲基砜产品。
期刊