基于深度学习和BTM模型的短文本挖掘研究

来源 :浙江理工大学 | 被引量 : 2次 | 上传用户:ebear2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网飞速发展,以短文本为载体的信息数据不断增加。有效信息的筛选和利用是短文本挖掘的主要目的,短文本自动分类能够帮助用户快速定位文本内容并有选择性地处理海量文本。本文主要研究BTM(Bi-term Topic Model)主题模型和词向量模型在短文本上的应用,通过进行模型改进提升短文本的分类效果。主要创新成果如下:(1)针对目前短文本在BTM主题模型建模过程中存在的共现双词之间语义联系较弱的问题,提出结合cw2vec词向量模型的改进BTM主题模型(cw2vec-BTM)。首先分析BTM模型中存在的问题,然后实验对比了几种常用的词向量模型,选取语义表示能力最佳的cw2vec模型来进行词向量的训练,并计算词语间语义相似度,接下来在BTM的共现双词采样过程中,判断采样词对的语义距离是否符合规定的阈值,若符合则对词对数量进行扩充,并更新扩充后的采样主题;否则按传统主题采样方式进行操作。最后通过对比实验证明,使用词向量模型改进BTM的吉布斯采样方式能有效地提高主题模型的主题凝聚度和KL散度。(2)针对目前词向量无法解决短文本中一词多义的问题,根据多义词在不同的主题下表示不同语义的特点,提出融合词向量和BTM主题模型的Multi-TWE多维主题词向量模型。首先进行BTM模型的参数推理,得到目标词以及相应的主题,根据词与主题的结合方式不同,将模型算法分为MuTWE-1算法和MuTWE-2算法。MuTWE-1算法直接将(词,主题)结合成一个“伪词”,当作一个词语输入SE-WRL模型中训练主题词向量,相同词语根据不同的语义获得不同的向量;MuTWE-2算法将词与主题分开进行词向量训练,将得到的目标词向量与主题向量进行加权连接得到主题词向量,相同词语连接不同的主题能够表示不同的语义。最后,将该算法应用于词语相似度任务中,证明模型能实现多义词的多维词义表示。(3)将Multi-TWE模型算法应用于短文本分类,提出基于Multi-TWE算法的短文本分类方法。在新闻标题语料上训练Multi-TWE算法模型,使用获得的多维主题词向量的加权平均值表示短文本向量,再将其作为分类器的特征向量进行分类器的训练。最后与支持向量机(SVM)、BTM和word2vec分类方法进行对比实验,实验结果表明本文提出的短文本分类方法在平均F1值上比前三种方法分别提升了 3.54%、11.41%和2.86%。
其他文献
随着互联网等新一代信息技术的不断发展,互联网与传统企业的跨界融合,实现了传统企业的改造升级,传统企业获得了创新的新动力,跨界创新为企业的发展指明了新的方向。国家关于
随着深度学习时代的到来,基于深度学习的计数方法在工业检测逐渐应用起来。目前的视觉方法在处理钢筋图像进行计数时面临许多困难和挑战。在建筑工地,工人们使用手动计数的方
风格转换旨在保留内容图片的原始语义不变的前提条件下,利用风格图片的纹理风格对内容图进行重新的渲染。它不仅可以满足人们对美和艺术的需求,也广泛应用于艺术画作生成、视
随着新型冠状病毒肺炎的全球性的爆发,各个国家都在积极寻找治疗新型冠状肺炎的有效医疗方法,而中医和中药材在这次治疗疫情中发挥了重要作用,中药材在全世界再次得到了广泛
微结构光学薄膜具有各种形式,如裸眼3D、菲涅尔结构阵列、微球面阵列等,广泛应用于显示屏幕设备、通讯设备、新能源制造等领域,具有庞大的市场需求。光学薄膜制造的关键是在
近几十年来,人机交互与计算机视觉一直是计算机研究的一个重要领域,计算机与人之间的直接通信是人们关注的问题。人们对改善和发展人与计算机的交互作用进行了大量的研究。促
《元话语在律师提问中的作用》一文属于法庭话语探究类学术论文,从语言学的角度研究法律语境下的法律语言。该文以英国公开调查庭审期间律师提问为语料,研究其中元话语的作用,学术性较强。语言学和法学的跨学科研究使得源文词汇种类繁多、词义复杂。语言学和法律的专业背景赋予了普通词汇专业涵义,需要译者加以辨别,翻译难度大。本文重点探讨词汇翻译。笔者结合自身翻译实践,将遇到的词汇难点分为两大类,它们分别是:语言学专
随着工业社会和信息时代的高速发展,以半导体器件为基础的电子科学高速发展。其中,Si功率半导体器件以其独有的技术优势和产能优势成为当代半导体产业的中坚力量,在航空航天、军事科工、电网输运、电能机车、自动控制、物流储能等诸多方向有着广泛的应用。然而,功率半导体器件工作过程中承担巨额开关损耗并负载较大功率,极易产生温升导致一系列的可靠性风险。温度是衡量器件可靠性的重要指标,已有阿伦尼思模型等经典理论模型
随着互联网的迅猛发展,各类型文本数据剧增,给用户带来海量信息,也带来了信息过载问题,文本信息的数量已经远远超出了人工处理的极限。自动文本摘要可以通过自动地分析给定的
步态识别是生物特征识别研究方向的一个重要的分支,它是根据人走路姿势中细微的差异来对个体进行身份识别,这在安防和门禁等领域都有广泛的应用前景。相比于其它生物识别技术