基于主题模型的检索结果聚类的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:jeff006902000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息技术的飞速发展使得信息检索成为用户从海量网络资源中获取有用信息的重要手段,由于目前大多数检索系统主要基于词语匹配,而其查询结果仅仅提供一个冗长的相关列表,这导致许多包含查询词但与检索意图并不相关的文本被返回,不同主题的文本混杂在长列表中,用户获得期望结果需要从中主题混杂的检索结果中逐条浏览再定位。  检索结果聚类通过对检索结果进行聚类,将其划分为不同的主题类别,并给出每个类别的标签描述,使得用户能够根据类别标签快速定位符合查询意图的类簇集。相比普通文本聚类,检索结果聚类有着类别标签描述的要求,传统的先聚类后标签方法通过词频统计提取的标签描述性太差,由此产生了许多强调标签的先标签后聚类的检索结果聚类算法如STC、Lingo等,然而先标签后聚类的方法并非传统意义上的聚类,其可解释性不强。  针对传统聚类算法标签提取的语义缺失问题,本文提出了一种将LDA主题引入检索结果聚类的先聚类后标签的方法,该方法将主题模型与传统文本聚类算法结合,利用主题模型将文本表示在低维的主题空间,不仅实现了语义层面的聚类,也使得提取的类簇标签具有更好的可读性。主要工作如下:  1.对检索结果聚类的特点进行分析,指出了语义对于聚类以及标签提取的重要性,提出了将LDA主题模型应用于检索结果聚类。  2.2.在面向检索结果聚类任务使用LDA模型时,提出了融合查询关联权重的主题模型,通过将查询关联权重融入吉布斯采样过程,增大查询相关特征词在主题分布中的影响,进而在后续的应用中提升聚类效果和标签质量。  3.通过分析检索结果聚类过程类簇数目不确定、聚类效率、以及类间可重叠等问题,提出了结合层次聚类和改进Single-Pass聚类的HRSP算法,并提出了一种基于主题排序模型的类簇标签提取方法。  4.最后结合改进模型和算法完成了检索结果聚类任务,通过与常用的检索结果聚类算法STC以及Lingo算法进行聚类效果及标签对比,发现提出的改进算法能有效提高聚类质量,此外提取的标签也具有很好的可读性。
其他文献
目的分析武汉市2012—2017年流感样病例暴发疫情的流行病学特征,为本地区的流感防控提供参考依据。方法收集2012—2017年武汉市报告的流感样病例暴发疫情资料,对疫情发生的时间、场所、病原等进行分析。结果2012—2017年武汉市共报告流感样病例暴发疫情19起,经实验室确认的流感暴发疫情15起,其中乙型流感疫情11起(73.33%,11/15)。19起流感样病例暴发疫情中,16起(84.21%
流体模拟,尤其是大面积水面及波浪的快速建模与可控动画一直是计算机图形学研究的热点问题之一。对各种波浪形态的模拟在影视特效、三维游戏开发等各种领域得到了越来越广泛的
近年来,消费者对食品安全问题越来越重视,畜产品可追溯系统作为食品质量安全风险控制管理的有效手段也随之受到了越来越多的关注。   本论文基于无线射频识别(RFID)技术提出
学位
江苏:省有线网络公司成立7月24日,江苏省广播电视信息网络股份有限公司在南京成立,注册资本68亿元,由南京、苏州等10地市广播电视台以现有广电网络资产出资,及中信国安等机构
学校开展党员先进性教育活动,要自始至终把群众满意、师生满意作为根本标准。胡锦涛总书记最近在山东考察工作时强调,要确保先进性教育活动真正成为群众满意工程。这是总书
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
  身份认证是多数计算机信息系统必要的组成部分,传统的身份认证多采用静态的用户名/口令身份认证机制。这种身份认证机制的优点是使用简单方便,但由于缺少全面的安全性方面
中断驱动系统(Interrupt-driven System)被广泛应用于安全关键系统中,因而中断驱动系统的正确性保障尤为重要。此类系统通常使用操作系统任务调度加中断处理程序的软件体系结
“文革”爆发后,国民经济遭到严重破坏,关系到国计民生的粮棉生产形势十分严峻。周恩来心急如焚,努力寻找粮棉双高产的先进典型,以推动全国农业的发展。1969年夏,山东党组织
少儿频道即将五周岁。其成长迅猛,显示了初生牛犊不畏虎的锐气。在全国上星频道中,少儿频道平均收视份额已从开办之初的第21位跃居目前的第7位,频道满意度列全国上星频道第9