贝叶斯非参数PCA模型的研究及其在主题模型中的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:anquanke123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型揭示了文档集合的隐藏主题结构,并通过一组主题找到每篇文档的高度压缩表示。实际上,如果将主题看成文档集中离散的语义信息,而主题建模过程则是将文档集合映射到离散的语义信息之上。然而,这种离散化的主题并不能精确表示文档的语义信息,例如无法度量文档集中各个主题之间的关系,而且无法直接确定的主题个数。针对于此,本文将PCA与贝叶斯非参数方法结合,首先,提出贝叶斯非参数PCA(BNPP)模型,使其应用于单一数据集的降维,并挖掘出数据集的隐含类别信息;其次,为了更好地对文档集进行主题挖掘,本文将文档集看作多组数据的组合,利用分层框架,提出基于BNPP的主题模型(BNPP-TM),该模型将文档集从原始样本空间投影到语义空间中,使用连续的语义空间来代替传统主题模型中离散的主题。本文的工作主要包括四个方面:1)针对传统无监督降维方法应用于高维样本数据的降维时,忽略了样本的隐含类别信息,本文提出基于贝叶斯非参数的PCA模型。BNPP模型在PCA方法基础上,增加了贝叶斯非参数先验知识,来挖掘样本的隐含类别信息;2)为验证BNPP模型的可行性,提出BNPP模型的吉布斯采样算法。使用CRP方法来构造模型中贝叶斯非参数成分,并使用吉布斯采样方法对模型进行参数推理。实验结果表明,该算法不仅能够有效地对样本数据进行降维,而且能够捕捉原始样本的类别特征;3)针对传统主题模型中,各个主题之间关系无法度量以及主题的个数无法直接确定的问题,本文提出基于BNPP的主题模型。BNPP-TM模型是将文档集建模为多组数据的组合,使用分层狄利克雷过程作为BNPP中隐含变量的先验分布,来构建分层模型,更好地挖掘文档集的隐含主题结构;4)为验证BNPP-TM模型的可行性,提出BNPP-TM模型的变分推理算法。通过使用截棍构造,BNPP-TM模型能够有效使用变分推理方法求解模型参数。实验结果表明,该算法能够将文档集投影到语义空间中,实现文档主题的提取,从而一方面能够度量文档集各个主题之间的关系;另一方面也能够更加准确地确定主题的个数。
其他文献
视觉监视系统是近些年来机器人和计算机视觉领域的热门研究方向之一,其主要目的是利用场景下所得到的一系列图像检测和跟踪特定目标。视觉监视系统在生产生活中得到了广泛的
钢铁业面对日益突显的能源紧缺、环境污染和严峻的钢铁市场形势,企业唯有依托国家节能减有排政策,大力支持技术创新,利用技术创新来获取新产品、新工艺、新技术,为企业实现更
以水泥砂浆为锚固剂的锚杆属于粘结型锚杆。它在水电、金属矿山、土木交通和地质灾害领域应用得比较多,其支护效果在工程灾害防治和调控上起着重要的作用。由于我国经济发展,
PPP(Public-Private-Partnership)作为改善公共服务供给机制的一种融资模式,不仅可以有效的缓解政府财政支出的压力,还极大的推进了我国基础设施的建设。PPP模式下准经营项目
主题发现和演化一直是自然语言处理领域的研究热点。主题发现是指从大的语料库中抽取出关键词组,能够简洁地表示出这个语料库的概述信息。主题演化是指发现主题的内容或者强
孪生支持向量回归机(Twin Support Vector Regression,TSVR)是一种有效的机器学习方法。由于TSVR只需求解一对规模较小的二次规划问题,每个二次规划问题的约束条件仅为支持向
在地震作用下,混合式交错桁架结构空腹节间两侧斜腹杆被压屈或拉断,导致结构发生脆性破坏。为改善该结构抗震性能,提出延性交错桁架结构的概念:将桁架跨中空腹节间设计为延性
自2013年习近平主席在哈萨克斯坦首都阿斯塔纳提出“一带一路”倡议以来,中国与哈萨克斯坦的经济合作迈上了新台阶。几年来,在“一带一路”与哈萨克斯坦“光明之路”新经济计
光致电化学生物分析技术作为一种最先进的生物分析技术,因具有操作简单、响应速度快、成本较低、低背景、高灵敏度等优点而受到了广泛的应用。截止到目前为止,光致电化学生物
自深度学习兴起以来,AI开始融入人们的日常生活,其中数字助理类的AI表现出了广阔的应用前景,如苹果公司的Siri、微软公司的Cortana。对大多数人来说,一天中的大部分活动都需