包含正交化主题的概率文本模型

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：qiang860412

【摘要】

：

如今，主题模型已经被广泛应用于文本分析中。一些已经问世的主题模型，比如基于概率的隐式语义分析法（Probabilistic Latent Semantic Analysis，PLSA）以及它的一些改良模型，在挖掘文

【作者】

：

么恩鹏

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2016年期

【关键词】

：

概率主题模型隐式语义分析文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

如今，主题模型已经被广泛应用于文本分析中。一些已经问世的主题模型，比如基于概率的隐式语义分析法（Probabilistic Latent Semantic Analysis，PLSA）以及它的一些改良模型，在挖掘文本的隐式主题结构上取得了重大成功。大部分的改良模型出于不同的目的均在文本-主题分布上进行了加强。然而，这些模型并没有在主题-词语分布上做出改变。但是主题-词语分布同样对主题模型的效果起着重要的作用，因此只对文本-主题分布进行加强而忽视主题-词语分布的方法具有一定的局限性。　　本论文着眼于提高主题模型中主题-词语分布的多样性与合理性，提出了正交化主题模型（Orthogonalized Topic Model，OTM）。具体来讲，OTM在主题模型中的主题-词语分布上加入了正交化的限制。同时，为了求解OTM，论文还提出了一种新颖的基于最大期望（Expectation-Maximization，EM）算法与牛顿-拉弗森方法（Newton-Raphson Method）的模型拟合算法。在两个真实语料数据集上的实验结果表明，与其他主题模型相比，OTM可以挖掘出更加多样化、合理的并且无重复意义的主题。在文本分类任务上的量化的评价结果也表明了OTM的分类准确率超越了其他的基线方法，证明了主题正交化限制的重要作用。

其他文献

障碍物遮挡环境下的无线传感器网络节点部署算法研究

如何有效的部署节点是无线传感器网络应用系统设计中必须要解决的关键问题之一，它关系到是否可以有效感知所关心的区域、部署成本高低和如何避免覆盖盲区等重要问题。节点部署

学位

无线传感器网络节点部署障碍物遮六边形蜂窝网格模糊C-均值聚类

安全生产标准化在烟草行业发展中的应用

安全生产是企业的最基本的标准,安全生产标准化为烟草企业提供了良好的作业环境、设备设施、制度规程和管理理念,有助于实现烟草行业的和谐、健康、安全发展.本文探讨了安全

期刊

安全生产标准化烟草应用

多CCD大幅面彩色扫描仪上层软件的设计和开发

多CCD大幅面彩色扫描仪在彩色印刷、广告、测绘、军事等领域有着广泛的应用，其大幅面、高精度的特点对扫描仪系统的开发提出了更高的技术要求。本文主要针对A0幅面5个CCD头拼

学位

上层驱动色彩校正色彩增强TWAINUSB2.0

基于电子签章技术的移动OA系统安全的研究与实现

随着无线通讯技术的发展，尤其是现在第四代通讯技术（4G）和WIFI的普及，很多人把移动终端作为不可或缺的工具，移动终端的使用大大推动了移动互联网的发展，移动OA也作为一种新的办公方

学位

椭圆曲线密码体制电子签章身份认证数据安全

基于灰色理论分析AUD对CRKP耐药率的关联度

期刊

自发表情识别中若干关键问题研究

人脸表情是人类情感信息交流的重要方式之一。表情识别已成为拟人化的新型人际交互模式研究中的关键课题之一。目前,国内外有多所研究机构和高校的研究人员采用不同的方法对

学位

自发表情人眼检测头部运动特征点追踪态度识别情感语义隐性标注

个人档案及个性化干预在空巢老人胃癌术后管理中的意义

目的探究空巢老人胃癌术后建立个人档案以及进行个性化干预在其管理中的意义.方法选取2014 年1 月～2016 年3 月于我院接受治疗的56 例空巢老人胃癌患者, 按照随机数字表法将

期刊

个人档案个性化干预空巢老人胃癌

程序代码抄袭检测的研究

随着计算机应用的普及，人们对软件的需求量越来越大。各高等院校也着力于培养学生开发软件的能力，主要的途径是通过开设程序设计类课程，培养学生的实际动手能力。随着程序设计类

学位

抄袭检测标记字符串字符串匹配相似度结构度量法程序代码

封面人物

她是江苏省特级教师，江苏省第四期“333工程”高层次人才培养对象，江苏省优秀中小学科技教育校长，徐州市名教师，徐州市五一劳动奖章获得者，徐州市云兴小学校长。　　她提出“生活

期刊

封面徐州市江苏省培养学生中小学科技教育高层次人才小学校长物质世界特级教师探究方法实践应用生命世界生活现象培养对象科学素养教学主张

GP-A型连锁防倒器的研制及应用

分析了原来煤巷掘进中使用的金属拉杆存在的弊端，介绍了所研制的ＧＰＡ型连锁防倒器的结构原理、性能特点、使用方法及应用效果。 The disadvantages of the metal pull rod used

期刊

煤巷掘进连接杆连锁防倒器卡棚器巷道掘进GP-A架棚煤巷支护活动连接工作面支架

包含正交化主题的概率文本模型

与本文相关的学术论文