搜索引擎返回结果的聚类方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:babala_chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是目前最常用的互联网搜索工具,但目前搜索引擎还远远没有达到能令用户非常满意。目前的搜索引擎的一个明显的问题是,返回结果的呈现方式是一个线性列表,这就迫使用户在很长的线性列表中寻找自己感兴趣的信息,使得用户查询效率不高。 如果能够将搜索结果组织为层次结构的类别,就能够很大程度上帮助用户快速定位信息,提高用户浏览的效率。与传统的搜索结果聚类方法不同,本文提出了一种以类别可描述性为重点的聚类算法,将搜索结果以层次结构的类别形式呈现。我们将此算法称为HIDC,因为这个算法具有三个重要的特点:Hierarchical (层次的), Interactive (交互的), Descriptive (具有好的描述性的),C表示Clustering (聚类方法)。这一方法的主要思想是首先找到具有好的描述性的类别标签,然后将类别标签组织成一棵有层次的标签树。在标签树的基础上,将相关的文档分配到各个标签下,最后确定每个类的实际内容,完成类别树的构建。本文将详述如何使用隐含语义分析的方法来发现类别标签以及将标签组织为层次型标签树。除此之外,我们使用经典的向量空间模型来实现文档的分配。 作为论文的一部分,我们还在Carrot2框架中实现了算法,并将我们的实验结果与其他著名的搜索聚类系统结果,包括LINGO、SnakeT和Vivisimo,进行了比较。我们使用Yahoo!的搜索结果作为统一的数据源,从各个系统生成的标签质量和文档质量方面进行了比较和分析。实验证明,我们的算法是可行而有效的。
其他文献
彩铃业务是“个性化多彩回铃音业务”(Coloring Ring Back Tone)的简称,是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。该业务由被
目的 探讨拟定系统护理方案对小儿轮状病毒肠炎患者进行干预后获得的临床效果.方法 选择我院2017年03月至2019年05月收治的82例小儿轮状病毒肠炎患者作为实验对象;参照组(41
三十年来计算机与网络对人类生活社会、产业产生巨大影响,然而在教育界发挥的作用并不大,乔布斯和盖茨也在这方面提出了疑问。近些年来随着教育部对教育信息化方面的大力支持,教
目的 研究脑梗塞患者护理中运用社区康复护理的应用效果.方法 从2017年7月至2019年7月抽取在黄鹤楼街社区卫生服务中心治疗的脑梗塞患者供给120例作为本文的研究对象.平均分
下肢静脉血栓形成(DVT)是ICU患者常见的并发症之一,诱发DVT的因素很多,长期卧床、肢体活动受限、手术以及患者自身因素等,都可诱发DVT.ICU患者并发DVT不仅会影响临床治疗效果
目的 探讨在预防宫缩乏力性产后出血中采用综合护理干预的应用效果.方法 选取本院于2018年8月至2019年8月收治的102例产妇为研究对象.2018年8月至2019年2月收治的51例产妇纳
目的 分析研讨循证护理用于老年股骨粗隆间骨折患者护理中的效果.方法 随机从我科2016年3月至2018年12月收治的股骨粗隆间骨折患者中抽取78例,按护理方式分对照组(40例接受常
目的 探究老年综合评估护理模式应用于老年冠心病患者中的临床价值.方法 选取我院于2017年3月至2018年5月接收的60例老年冠心病患者为研究对象,采用随机数字表法分成对照组(n
随着信息爆炸时代的来临,对复杂的抽象信息之间的关系进行探索的努力,促使了信息可视化这一科学领域的出现。可视化技术不仅要用于科学数据,而且要作为一个基本工具,应用于抽象信