论文部分内容阅读
近年来人们在机器学习领域,特别是深度学习(Deep Learning)这个子领域上取得了很大的进展。在这个领域中人们主要通过讨论如何通过建立多层结点的人工神经网络使得深度学习这一技术方法可以更好的被用于机器学习方面的问题。又因为“深度学习”这个结构模型在处理信息方面的行为,相比于其他的人工只能方法更加类似于人脑的处理。因此,有些人们认为这个模型应该就是以后人工智能发展用来解决复杂智能问题的一个突破口。目前深度学习最有效的方法就是采用深度置信网络(Deep Brief Network)进行相关的应用和研究。因为DBN相对与其他的神经网络算法来说更加的容易学习,而且对于DBN算法本身来说,它直接克服了因为具有多层网络叠加而造成的效率底下的问题。因此,我们可以看出,DBN模型方法在深度学习领域是一个非常值得研究的核心方法。同时,近些年来在文本挖掘的研究当中,出现了一种新的概率模型,即:Topic Model,翻译过来就是主题模型。这个新出现的模型和传统模型具有一定的区别,那就是,它并不再简单的只考虑文档在词典上的空间维度,而是在考虑词典空间上的维度的同时再加入一个维度,这个维度就是主题维度,这样便实现了文档在主题空间上的概率分布。这样一个简单的改变给我们的文本分类带来了很多好处,首先,它降低了文档的维度,也就是降低了维数灾难发生的可能,然后它是从发掘文档中隐藏在文本背后的隐含语义,也就是主题。可以看到这个模型在文本分类中也是一个非常重要的模型。在本课题中,将进一步讨论DBN的学习问题。在本文中,研究内容和创新工作主要包括:总结了DBN学习算法近年来的发展和发现可以把DBN模型结合主题模型改进的一种新的文本分类算法。随着深度学习领域的兴起,我们人在在文本分类上基于深度学习和主题分类的算法将变得越来越重要。同时随着文本分类和机器学习的联系更加紧密,有理由相信,基于深度学习和主题分类的算法将会是未来研究的热点。本文首次提出了这个想法,为今后探索出一种可行的新方向。