基于预训练和Wasserstein自编码器的主题模型研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:cartman8148
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着日常生活中电子设备和社交媒体的广泛应用,新闻、商品评论等文本类型的数据大量增长,快速提取和分析文本信息的需求显著上升。主题分析可以帮助我们快速确定想要了解内容,自然语言处理中的主题模型能从大量的文档中提取出有意义的词语、能够有效的将多个文档表示为主题,因此研究主题模型是十分必要和有意义的。主题模型是自然语言处理任务中一种典型的无监督任务,缺乏有标注的监督数据。在单语言的情境下,其他任务上表现良好的预训练-微调范式尚未被使用,基于此本文介绍了融入了主题标签分类和预训练微调的单语言主题模型。现有跨语言主题模型研究较少,跨语言的主题对齐问题亟需解决,同时现有的跨语言主题模型在近似Dirichlet先验分布时可能会出现后验坍塌的问题。根据上述现有研究的不足,本文主要从以下方面进行研究:在单语言情境下,本文提出了一种融合了文本分类微调任务的单语言主题模型(主题文档分类主题模型,TDCTM)。该模型包括预训练微调嵌入模块、神经主题模块和主题标签分类模块。本文在20News Groups、BBC News、DBLP和M10这四个数据集上对现有的单语言主题模型实验效果进行对比研究,表明本文提出的TDCTM模型在效果上优于ETM、Prod LDA、CTM等模型。本文经过扩展实验发现Prod LDA神经主题模型在新闻数据集上主题一致性和多样性都比传统的概率主题模型LDA效果好;通过对实验的主题数量、隐藏层维度、学习率和随机失活的神经元比例进行调整,表明模型具有较高的稳健性。在跨语言的情境下,本文提出了一种新的跨语言主题对齐模型(Wasserstein-跨语言神经主题模型,W-NCTM),该模型采用了Wasserstein自编码器来解决跨语言主题模型中可能产生的后验坍塌问题。本文采用了Amazon Review和EC News两个数据集进行实证研究。利用消融实验探究本文的分布匹配模块的效果,去除分布匹配中的MMD损失,仅在目标函数中保留重构损失。之后通过扩展实验验证本模型在训练过程中需要确定的四个参数值:主题数目、隐藏层维度、学习率、随机失活比例。实验结果可以表明,本文提出的融合Wasserstein自编码器的跨语言主题对齐模型得到的中英文主题有着较高的一致性和多样性,同时能够得到对齐的中英文主题。综上所述,本文在单语言和跨语言两个情境上对主题模型进行改进,在单语言中提出的主题文档分类主题模型(TDCTM)与其他基线模型相比能在不同数据集上达到最好的效果;本文提出的Wasserstein-跨语言神经主题模型(W-NCTM)能在跨语言情境下提取出主题一致性和多样性都较高的对齐的主题。本文提出的两个模型能够在不同情境下有较好的效果,有一定的现实意义也为后续主题相关的研究提供一定的基础。
其他文献
农村经济正处于快速发展时期,“三农”问题一直以来都是关乎我国人民生活的重要事。在十九大上习总书记提出了乡村振兴战略,并提出建设新农村的新目标,为了建设新农村必须促进农村金融发展,国家需要提供强有力的资金及政策支持。十九大之后中共中央、国务院印发了《乡村振兴战略规划》,这一文件的颁布代表着我国将农村工作重心放在乡村振兴战略上。本文研究目标为得到乡村振兴战略提出前后的农村金融资源配置效率,并针对农村金
学位
股票长期以来都是万千民众喜好的理财方式,由于我国股市有效性不强且股票价格变动存在一定的运动规律,因此被认为其股票走势是可以预测的,于是各种量化方法被应用于股票预测中,为股民进行股票交易提供了参考依据。近些年来机器学习与深度学习算法的蓬勃发展给股票预测量化手段提供了新的思路,其中LSTM神经网络算法能够有效处理长短期金融时间序列数据,且算法十分关注模型的准确性;而XGBoost算法在分类、回归、预测
学位
随着智能手机的发展,网购逐渐成为了人们日常购物的主要方式,充分利用用户在平台的行为反馈信息,挖掘信息中的价值是近年来大数据领域的研究趋势。许多学者通过用户基本特征信息建立机器学习模型,探究其行为是否发生或预测再次发生的回归时间,还有研究者通过海量数据建立用户画像,运用推荐算法提高用户的购买转化率,从而提高平台的收入。而少有学者从时间变化的动态角度去探究用户行为的激励关系,通常认为历史事件的发生会对
学位
在全球经济增速放缓的大背景下,再叠加席卷世界的新冠疫情,中国就业形势十分严峻。而随着互联网浪潮的兴起,中国网民的数量急剧增长,这极大地促进了互联网招聘行业的发展,使用求职类应用软件的求职者也在与日俱增,互联网技术的最大优势在于信息传递的快速性和无限性,人们可以足不出户就了解到远在千里之外的招聘信息。求职类应用软件的招聘信息数量庞大,更多的选择性被赋予了求职者,他们可以认真浏览仔细挑选,直到找到自己
学位
随着经济全球化的发展,中国股票市场也在不断发展,深圳交易所和上海交易所的股票相关制度不断的完善,我国上市公司的数量越来越多,中国股票市场呈现为错综复杂的关系网络。股票市场的本质是一种复杂系统,股票之间相互影响、相互作用,形成了股票市场的生态和价格演化过程。而复杂网络的其在建模真实数据结构时表现出的灵活性和普适性,复杂网络就成为研究股票市场的利器。目前,运用复杂网络的技术方法探索股票网络的物理结构和
学位
近年来,比特币作为一种数字加密货币,受到了媒体、学术界以及监管机构等各方的关注。从2010年比特币第一次交易至今,其价格上涨了100万倍以上,众多学者通过定量和定性分析的方法得出比特币价格存在泡沫的结果。比特币交易市场的有序运行对金融市场的发展具有重要价值,泡沫破裂会对金融市场的发展造成较大影响,因此需要对比特币价格泡沫进行测度和预警。本文基于现有的比特币价格泡沫理论,选取了2013年1月1日至2
学位
随着数字化进程不断推进,大量企业在加速各类流程自动化的过程中逐渐引用数据库、云存储等技术平台,积累了大量客户数据。由于大数据技术逐渐成熟,一些企业开始从客户数据中挖掘有用信息,以指导企业更好地运营。目前,市场竞争日趋激烈,同行业的产品同质化现象日益严重。客户成为企业赢得市场先机的重要资源。在产品同质化背景下,客户占据绝对的主导地位,一旦企业无法满足其需求或者有更优的替代选择,就很容易导致客户的流失
学位
目前,我国经济正处于快速发展阶段,证券市场欣欣向荣,上市公司层出不穷,但相关审查机制和监管法规相对不够完善,导致上市公司财务舞弊行为频发,虽然目前采取的监管措施在一定程度上减少了财务舞弊的发生,但财务舞弊依然是近几年监管部门的心头大患。企业为了谋取自身利益从而通过某些不正当的手段进行财务舞弊不仅影响上市公司自身的发展,让公司时刻面临着停市的风险,还影响公司内外各利益相关者的权益,阻碍了我国资本市场
学位
环境细颗粒物(PM)对健康的影响已经被全球广泛研究了几十年,PM被列为全球导致人口死亡和残疾的第六大危险因素。PM2.5与PM10与各种短期和长期健康不良影响有关,可吸入颗粒物会被人体吸入并积累在人体中,沉积在呼吸道中,并进入肺泡等部位,引发多种疾病,对人体健康造成严重危害,长时间暴露于高浓度的环境细颗粒物中甚至会引起死亡,中国每年因为PM污染导致的过早死亡人数在165万至219万之间。近年来,环
学位
随着社会不断发展,人们对社交需求不断增加,类似商场、广场等公共场所的人流量也在不断增加,这对公共场所行人安全的要求变得越来越高。在公共场所发生突发事件时,由于相关管理人员没办法及时获取突发事件的预警消息,导致无法及时疏散人员,最终造成公共场所人员的生命损伤或者财产损失。针对这种需要长时间监控的情况,传统人工视频监控没办法高效地完成监控预警工作。如今监控视频技术不断更新和应用,使用智能化的视频来侦测
学位