基于后缀树和LDA的检索结果聚类方法及实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:allans
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息全球化的今天,为了主动、快速、高效地获取自己需要的信息,人们对于搜索引擎的使用越来越频繁。当前的通用搜索引擎,对于任意查询,其检索结果都是以线性列表的形式组织展现,导致用户很有可能需要浏览多个页面之后才能找到自己需要的信息,这对于用户来说是十分麻烦而且耗时的。在这种背景下,对检索结果进行聚类是一项非常有现实意义的工作。针对此问题,当前已有许多相关的系统和方法,但是,它们都存在着诸多不足,其中聚类标签质量的欠缺尤为明显,从而导致用户体验较差,使得此类系统和研究不能广泛应用开来。   本文首先调研了该问题的国内外研究现状,并具体探讨了搜索引擎和检索结果聚类相关的关键技术和原理。在分析已有工作不足及原因的基础上,本文实现了一种先提取聚类标签,再根据标签进行聚类的算法框架。该方法以标签良好的可读性、描述性和区分性为目标,从搜索结果的标题和摘要集合中抽取合适的短语作为候选。在抽取短语过程中,先将搜索结果文档集合映射到一棵后缀树上,然后利用词性、词频、短语长度、位置距离、LSA分析等特征和技术来计算并挑选符合期望的候选标签。利用上述结果,根据标签和文档的内容关系形成初步聚类,然后在初步聚类结果的基础上,分别计算聚类内部平均相似度、标签的区分度得分等,进一步改进聚类和标签质量。   基于上述研究工作,针对普通检索结果聚类的一种常见应用场景,人名搜索聚类,本文随后进行了深入的研究。对于人名搜索聚类,它的核心在于消歧,对准确率有着较高的要求,需要利用外部准确有效的信息进行指导。本文提出了一种基于隐含主题信息的人名聚类框架,先利用LDA模型对外部海量文本进行主题分析,再将分析得的主题模型用于人名搜索结果信息增强,将每篇文档分别表示为主题向量和词向量。然后基于此文本表示方法进行文档间相似度计算,进而对人名搜索结果集合聚类。   以上述算法框架为背景,本文分别设计实现了普通中英文检索结果聚类的实用系统和人名搜索结果聚类的实验系统,并各自进行了对比实验,详细分析了实验结果。
其他文献
有这么一种常见的虚拟化应用:同一虚拟化平台上运行着多个虚拟机,并且这些虚拟机上都运行着相同的操作系统,运行着可能相同或者不同的应用程序。针对这种虚拟机运行背景的相似性
网络技术飞速发展,随之而来的网络增值业务也不断涌现。然而,这些增值业务所采用的开发标准与规范往往不尽相同。这样的结果是导致网络增值业务种类繁多,fH是却没有统一的接口标
随着互联网和知识经济的发展,越来越多记载着人类各种知识的文本出现在计算机和互联网上,网络上的海量信息和知识为人们的科研、学习、工作和生活提供了丰富的资源,极大地推动了
命名实体翻译是机器翻译、跨语言信息检索等多语言信息处理领域的一项重要任务。同时,随着互联网的发展,网络资源日益丰富,如何将海量的网络资源用于命名实体翻译任务,以提高实体
学位
机密性,完整性和可用性是计算机安全追求的目标。其中机密性保证了敏感信息的访问受限于某些特殊的群体。完整性保证了信息不会被任意地篡改,体现了人们对信息的信任程度。可用
如何高效、低成本地开发优质的软件产品一直是计算机软件领域重点研究的问题。模型驱动工程(MDE)被认为是软件开发技术朝此目标发展的一条新的道路。MDE的核心部分是建模和模
ARP项目是中科院“十五”期间重点建设的科研管理信息化支撑平台。自从2006年建成并部署使用以来,该系统极大地完善了中科院科研管理和电子政务业务建设,基本上解决了中科院内
学位
随着信息技术的发展和计算机技术的普及,互联网逐渐成为儿童生活中的一部分,但目前培养儿童创造力的网络软件很少。讲故事对提高儿童创造力起着非常大的作用,但是现有儿童网络讲
在约束满足问题中,给定一组变元和一组约束条件,求变元的一组赋值来满足所有的约束条件。很多实际中经常遇到的NP难问题(如布尔可满足性、图着色等问题)都是约束满足问题的特例
我国是一个小麦生产和消费大国,小麦是我国重要的粮食作物、商品粮品种和人民的主要口粮。小麦产量的高低将直接影响到人民的经济和生活,由于各种病害的存在严重地影响了小麦的