基于深度学习的主题建模方法研究

来源 :武汉大学 | 被引量 : 24次 | 上传用户:swzzhn01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型是文本语义信息的抽取模型,也是文本语义表征的有效方法。通过主题建模,不仅可以识别出隐含在文本中的主题语义单元,还能够将文本表示在语义信息更为丰富的主题特征空间上,从而有助于文本分类聚类、突发事件检测、主题演化分析、推荐系统等任务。然而,传统的概率主题模型由于其浅层的特征结构以及概率化的生成模式依旧面临着模型可扩展性不足、主题语义连贯性不足、推断上下文一致性不足、特征表达能力不足等问题。深度学习技术的不断成熟为自然语言处理领域带来了新的发展契机,也为主题模型提供了新的构建思路。当前,词嵌入、知识嵌入、神经网络等深度学习方法在文本语义特征表达方面取得了突破性的进展,为构建深层次的具有语义连贯性的主题模型提供了可能。然而,基于深度学习的主题建模尚在起步阶段,如何将两者有机结合仍是一个亟待解决的研究课题。本文将深度学习技术运用到传统的文本主题建模过程中,旨在构建具有深层语义表征的深度主题模型。具体来说,本文工作主要分为以下三部分:首先,本文提出了基于知识库约束的词嵌入模型SG_TransE(Skip-Gram with TransE)来实现词汇的向量化表示。SG_TransE融合了 Skip-Gram模型和TransE知识翻译模型,能够使产生的词嵌入蕴含知识语义。其次,本文提出了基于深度语义强化的概率主题模型DGPU-LDA(Double Generalized Polya Urn with LDA)。该模型一方面结合本文设计的基于双向LSTM的文档语义编码框架 DS-Bi-LSTM(Document Semantic Bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档-主题和词汇-词汇双GPU语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程。最后,本文对DGPU-LDA模型进行神经网络重构,提出了 NS-LDA(Neural Semantic LDA)模型。NS-LDA同样融合了 DS-Bi-LSTM文档语义编码框架,并使用隐藏层分别将文档-主题和主题-词汇两部分信息进行编码,进而通过乘积操作得到词汇在文档中的打分并将其作为神经网络的输出。在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,本文提出的基于深度学习的主题模型DGPU-LDA以及NS-LDA在主题语义连贯性、文本分类准确率方面相对于一些比较前沿的主题模型具有一定的优势,同时也表明了本文提出的深度主题模型在文本语义特征表达方面的有效性。
其他文献
2017年9月4日,由中央组织部、全国妇联、国家行政学院共同举办的第七期厅局级干部女性领导力培训班在国家行政学院开班。全国妇联主席沈跃跃出席开班式并讲话。沈跃跃指出,党的
该文探讨了公路工程监理在施工阶段质量控制的方法和具体内容,并通过工程实例,介绍了在施工过程中,公路工程监理对路基和路面工程质量控制的监理要点、内容和方法。
<正> 目前,石英体系光导纤维的技术问题已经基本解决。在这种光导纤维中,稀土元素的作用主要是作为添加剂用于激光发射和温度测量等方面。但随着红外线光导纤维研究的进展,稀
研究了航天高技术评价指标体系建立的原则,并系统分析了指标体系的具体内容。针对指标体系的特点,采用改进的可拓层次分析法和动态加权相结合的方法对指标体系进行评价,并用
在中国明清民居建筑较为发达的山西,除了学者关注较多的晋中建筑以外,在晋东南的沁河流域,还分布有大量的古老民居。《沁河老宅院》以沁河流域民居为研究对象,以分析问题的独
<正>进入11月份,沈阳油田关工委深入开展了"九个一"活动,其中一项活动就是同读一本书——《下一代》增刊《有了共产党就有强大的中国》。这本书是为了迎接党的十八大的胜利召
<正> 氨苯砜为治疗各型麻风病的首选药物。也被用于治疗疱疹样皮炎,连续性肢端皮炎,角层下脓疱病及痤疮、变应性血管炎、复发性多软骨炎等皮肤病。本文将因氨苯砜治疗皮炎导
随着我国全域旅游和旅游扶贫工作的的推进,茶乡地区立足茶资源优势、开发茶文化旅游产品、促进地区旅游供给提质增效的迫切性日趋明显。文章以茶乡溧阳为例,通过对溧阳茶文化
<正>何谓质量4.0质量4.0,不是一种时尚或趋势,而是一种警示:商业环境正在快速变化,一个组织未来的表现是否卓越将取决于其适应变化和回应转变的效果和程度。在2017年11月达拉
互联网金融是依托互联网发展和运行的金融现象,它与传统金融的最大区别在于依托媒介不同。在传统金融中,更多强调的是资金需求双方以金融机构这个实体为中介,而当今热谈的互