面向短文本聚类的类别-高斯混合模型研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:passcardaj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本聚类作为一种无监督处理技术,能够对大量的无标记短文本进行初步筛选,从中挖掘出潜在的语义信息,为短文本的进一步处理提供了极大的便利。目前,主题模型仍然是一种解决短文本聚类的常用算法,它能够通过文档间的词共现信息去挖掘潜在的主题结构,但这种特征提取方式往往无法考虑到词语之间的上下文关系。因此,有研究者提出将文本向量引入到主题模型中,以弥补主题模型无法挖掘上下文语义信息的缺陷。大部分工作在将预训练的文本向量引入主题模型时,通常会假设文档里的词语作为生成过程的基本单位,并将词语的向量形式完全取代单词形式,这导致主题模型丢失了捕获文档间词共现信息的能力。也有一部分工作认为文档里的词语可以同时具有两种不同的表示,分别对应为单词和向量形式,在引入上下文语义信息的同时仍可以捕获文档间词共现信息,但现有的这类模型仅仅是将词语的向量表示简单引入到了主题模型中,并不能构建一个完整的生成过程。短文本数据由于词少低频、特征稀疏等特点导致传统的文本聚类算法在对短文本进行聚类时无法得到有效的结果。在本文工作中,我们在前人的基础上提出了一种更加完备的主题建模方式,通过假设生成过程的基本单位为文档,令文档和主题都对应有词袋和向量两种不同的表示,每一种表示都对应一个完整的生成过程,将文档的词袋信息和句向量信息同时构建于一个概率生成模型中。在这个模型中,我们利用类别混合模型去组织文档的词袋信息,利用多元高斯混合模型去组织文档的句向量信息,利用折叠吉布斯采样算法去解决短文本聚类问题,我们将它称为类别-高斯混合模型,简称为CMM-GMM。CMM-GMM能够克服短文本的特征稀疏、低频等问题,更加充分地挖掘主题模型的结构信息,通过假设生成过程的基本单位为文档,能够将文档最终选择的主题直接作为其归属的簇,得到一组聚类结果。CMM-GMM具有很快的收敛速度,并且能够很好地平衡聚类结果的完全性和同质性,我们在四个短文本数据集上做了大量实验,实验结果证明了模型的有效性。我们通过对CMM-GMM进行扩展性分析,发现该模型结构具有良好的一般化性质,能够将集成学习的思想蕴含在主题模型的生成过程中。
其他文献
人民是历史的创造者。党的十九大报告中把坚持以人民为中心作为新时代坚持和发展中国特色社会主义的重要内容。生计资本是农户生存发展的资源,保障农户生计水平是全面建成小康社会的重要一环。生态文明建设是中华民族永续发展的根本大计。天然林禁伐保护政策是全面落实“五位一体”战略总布局的必然选择,保护绿水青山,就是保障了中华民族的金山银山。天然林禁伐保护政策的全面推行,必然对山区、林区靠林吃饭的农户产生影响。保障
学位
时序数据(Time Series Data)是基于稳定频率持续产生的一系列指标检测数据。随着物联网、工业互联网和智慧城市的快速发展,时序数据的规模在不断激增。对时序数据的分析研究在金融、气象、健康和公共政策制定等许多领域发挥着越来越重要的作用。交互式可视分析是研究时序数据的重要方式,但目前的分析系统在面对不断增长的数据规模时,存在着数据查询慢、可视化效果差、交互延迟高等问题。针对上述问题,该论文设
学位
碳排放交易是为减少全球温室气体排放特别是二氧化碳而采用的一种市场机制,在这种机制下,二氧化碳排放权被视为一种商品,买方利用碳交易平台向卖方支付一定资金后从卖方处获得一定数量的二氧化碳排放权。自1997年192个国家签署《京都议定书》以来,各国纷纷实施或计划实施碳排放交易系统。中国同样积极建立碳排放交易市场,并取得了一定成果。但目前仍存在一定的问题,例如试点的交易所相互独立,职能的重复造成大量人力、
学位
三维几何引擎是三维计算机辅助设计(Computer Aided Design,简称CAD)软件的内核和基础组成部分。它是三维几何建模的基础,用户可以利用其提供的应用开发工具以及接口进行二次开发。数据交换功能是几何引擎中最基础的功能之一,在CAD系统之间进行数据交换时,因不同CAD系统数据结构不一致等原因往往会产生数据不兼容、数据丢失等问题。为解决以上问题,各国陆续开发了多种数据交换标准。其中,产品
学位
脱贫攻坚、新型城镇化与乡村振兴水平相互影响,三者有着内在的逻辑关系。基于脱贫攻坚、新型城镇化与乡村振兴理论构建三者的指标评价体系,本文选取江西省2011~2018年10个贫困县(市)的数据,借鉴熵值赋权法确定指标权重,采用相对指数法合成综合评价发展指数。以此为基础,利用耦合协同度模型对脱贫攻坚、新型城镇化与乡村振兴的耦合协同度进行量化对比分析,并借助Arc GIS软件对系统间的耦合协调度D进行空间
学位
拼贴砖,起源于错落有致而又丰富多样的拼贴艺术,因其蕴含着艺术灵感碰撞的美感而广泛应用于艺术家居、建筑外观等方向。陶瓷材料具有独特的物理特性和强度,已成为生活装饰、建筑航天等领域的重要材料之一,引发了关于陶瓷拼贴砖的探索。近年来,3D打印作为一种典型的增材制造技术获得了广泛的发展。3D打印制造精度和技术稳步提升,制造设备种类和材料也日益多样化。陶瓷3D打印相关技术的出现及创造性应用也引发了有关数字装
学位
音乐学习任务是艺术实践的具体化,是学生在现实生活或特定情境中综合运用所学知识、技能等完成的项目、解决的问题。它也是《义务教育艺术课程标准(2022年版)》中罗列的重要条目内容。根据不同学段学生的年龄特点,1~2年级在唱游·音乐课程中设置“趣味唱游”“聆听音乐”“情境表演”“发现身边的音乐”4项学习任务。本文主要研究“趣味唱游”学习任务教学的设计,并列举了相应的对策。首先,本文将对学习任务和趣味唱游
学位
阵型变换问题属于群体控制的一部分,通过对变换过程施加控制,使整个群体能够按照一定的要求从初始阵型变换到目标阵型。通常,阵型变换任务需要明确个体之间或子群体之间的空间邻接关系,以产生有意义的时空转换。一个平滑的视觉转换任务需要同时满足以下三个要求:(1)对于任意的中间帧,代理形成有意义的形状并与轮廓保持对齐;(2)对于任意的中间帧,代理需均匀分布;(3)每个代理的移动轨迹需要尽可能的平滑并且保持完全
学位
随着生活水平的提高,人们对服装的需求已经从基本的遮体避寒转为时尚得体的套装搭配。然而,并非所有人都有较好的时尚敏感度,能够从海量的服装单品中挑选并搭配出合理时尚的套装。因此,套装兼容性建模,即为套装的搭配程度进行自动评估,逐渐成为科研人员的研究热点。套装通常是由若干件互补的服装单品组成,而套装是否搭配取决于这些单品之间的兼容程度。传统基于成对单品的套装兼容性建模方法将套装解耦成若干成对单品的集合,
学位
当今社会对能源需求的急剧增长导致了传统化石能源的加速枯竭,造成了严重的能源和环境问题。为了可持续发展以及缓解环境问题,综合能源系统因其在消纳可再生能源和综合能源梯级利用优势成为当下研究的热点。在众多的能源系统中,以电力和天然气系统为主体的电-气互联系统因耦合设备技术、管网系统的相对成熟而得到广泛的研究。针对电-气互联系统的优化调度,目前对于电转气环节的建模精细程度不够,但在实际运行中电转气环节不仅
学位