基于主题模型和深度置信网络的文本分类方法研究

被引量 : 0次 | 上传用户:alex_tan01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来人们在机器学习领域,特别是深度学习(Deep Learning)这个子领域上取得了很大的进展。在这个领域中人们主要通过讨论如何通过建立多层结点的人工神经网络使得深度学习这一技术方法可以更好的被用于机器学习方面的问题。又因为“深度学习”这个结构模型在处理信息方面的行为,相比于其他的人工只能方法更加类似于人脑的处理。因此,有些人们认为这个模型应该就是以后人工智能发展用来解决复杂智能问题的一个突破口。目前深度学习最有效的方法就是采用深度置信网络(Deep Brief Network)进行相关的应用和研究。因为DBN相对与其他的神经网络算法来说更加的容易学习,而且对于DBN算法本身来说,它直接克服了因为具有多层网络叠加而造成的效率底下的问题。因此,我们可以看出,DBN模型方法在深度学习领域是一个非常值得研究的核心方法。同时,近些年来在文本挖掘的研究当中,出现了一种新的概率模型,即:Topic Model,翻译过来就是主题模型。这个新出现的模型和传统模型具有一定的区别,那就是,它并不再简单的只考虑文档在词典上的空间维度,而是在考虑词典空间上的维度的同时再加入一个维度,这个维度就是主题维度,这样便实现了文档在主题空间上的概率分布。这样一个简单的改变给我们的文本分类带来了很多好处,首先,它降低了文档的维度,也就是降低了维数灾难发生的可能,然后它是从发掘文档中隐藏在文本背后的隐含语义,也就是主题。可以看到这个模型在文本分类中也是一个非常重要的模型。在本课题中,将进一步讨论DBN的学习问题。在本文中,研究内容和创新工作主要包括:总结了DBN学习算法近年来的发展和发现可以把DBN模型结合主题模型改进的一种新的文本分类算法。随着深度学习领域的兴起,我们人在在文本分类上基于深度学习和主题分类的算法将变得越来越重要。同时随着文本分类和机器学习的联系更加紧密,有理由相信,基于深度学习和主题分类的算法将会是未来研究的热点。本文首次提出了这个想法,为今后探索出一种可行的新方向。
其他文献
目的:本研究通过观察针刺对急性脑梗死患者血清S-100B含量及神经功能缺损评分的影响,探讨针刺对急性脑梗死的治疗作用及其机制。方法:将40例符合纳入标准的急性脑梗死患者,以入
目的通过临床观察妇炎清方对湿热瘀结型慢性盆腔炎的疗效,为其临床应用提供依据。方法本次临床观察共收集病例60例,随机分为治疗组30例,口服妇炎清方;对照组30例,口服金刚藤
水污染是目前面临的一类主要的环境问题之一,利用水生高等植物治理污染水体的方法正逐渐受到人们的关注。菖蒲属植物在我国各地均有分布,该属的菖蒲和石菖蒲已被广泛运用于污
目的:通过观察保肝消脂颗粒对非酒精性脂肪肝(肝郁脾虚型)患者血清瘦素水平的影响,初步探讨保肝消脂颗粒治疗非酒精性脂肪肝的部分作用机理。方法:将符合纳入标准的60例肝郁
目的:通过观察补阳还五汤对代谢综合征动物模型胰岛素抵抗和血液流变性相关指标的影响,研究该方对代谢综合征血栓前状态的防治作用,并初步探讨其作用机理。方法:采用高糖高脂饮
目的1应用血液流变性可视化检测仪(MC-FAN),并结合其他血小板流变学指标的检测,直观的观察急性冠脉综合征(acute coronary syndrome, ACS)介入术后1-3年患者血液流变性的变化
<正>一书写欲望,乃至感性地书写某些放肆的情色,是中国小说传统的美学动机和目标之一。我们注意到,在"三言"问世之前的文人创作中,鲜活狂野的欲望未能在主流文学形式中得
目的 本研究旨在探讨肺、食管手术切口感染的危险因素 ,为控制切口感染提供依据。方法 前瞻性纳入90 2例肺、食管择期手术病人 ,观察切口感染及相关因素 ,并对年龄、性别、
京营是明朝国家武装力量构成中一个必不可少的部分。它于洪武年间产生,直到明朝灭亡之时,京营一直作为明朝重要武装力量存在。明代景泰—嘉靖时期,明王朝政局多变,京营制度因
<正>鲁滨逊、文若虚这两个人物分别来自18世纪英国小说家笛福的《鲁滨逊漂流记》和中国明代作家凌潆初的《初刻拍案惊奇》。两个人都是资产阶级早期的商人。相同的身份,不同