基于主题模型的文本语义增强及短文本分类方法研究

来源 :山东工商学院 | 被引量 : 1次 | 上传用户:dillon100200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习和预训练技术的不断进步,自然语言处理的研究取得了优异成绩。文本表示和短文本分类对自然语言处理领域中的自动翻译、文本摘要、情感分析等任务产生了重要的影响。由于自然语言具有复杂性、多样性等特点,使得目前文本表示存在“维数灾难”、“向量高度稀疏”和“浅层语义”等问题,从而导致文本向量不能充分表达出文本的语义信息。由于短文本具有数据量少、数据特征稀疏等特点,导致目前短文本分类的效果不理想。文本语义表示和短文本分类仍然是目前研究的重点和难点。针对上述问题,本文结合主题模型、词嵌入和文本分类等方法展开以下方面的研究:(1)提出了一种结合LDA主题模型和Word2vec模型的文本语义增强模型(Semantic to vector,Sem2vec)。Sem2vec模型在Word2vec模型的输入层前面增加主题嵌入层,首先利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量的训练中。然后得到主题权重嵌入词向量,来代替one-hot向量输入至Sem2vec模型。在目标函数的约束下,得到模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。为了验证Sem2vec模型的有效性,在搜狗、清华和20新闻组数据集上与经典模型进行实验比较。在语义相似度和文本分类两个任务上的结果表明,Sem2vec模型在语义相似度计算方面更为准确,在textcnn、Bi LSTM和Transformer文本分类算法上的分类结果,较经典模型可以提升0.58%-3.5%,同时提升了时间性能。(2)提出了一种基于BTM主题模型的有监督双词主题模型(Supervised Biterm Topic Model,SBTM),并将其应用于短文本分类任务中。该模型在BTM主题模型的基础上,引入主题-类别分布参数,由此来识别主题与类别间的语义关系,并准确地将主题与类别进行映射,完成文档的主题分类。通过主题分类,更精确地计算出单词-主题的概率,从而使短文本分类更加准确。为了验证SBTM模型的有效性,在搜狗新闻标题、清华新闻标题和亚马逊评论短文本数据集上与经典模型进行实验比较。实验结果表明,SBTM主题模型用于短文本分类时,能够建立起主题与类别的准确映射,且分类结果较经典模型可以提升1.3%-10.2%。
其他文献
生命系统复杂而神秘,生物体内的多种活性物质(如生物硫醇、活性氧、活性氮、阴阳离子等)在生理过程中发挥着极其重要的作用。但是,超过生理允许浓度的活性物质又可能对生物体造成不可逆转的损伤。因此,精准、高效的检测体内的活性物种十分重要。近年来,荧光分析法由于其检测成本低、灵敏度高、响应速度快、选择性好等优点受到广泛关注。有机小分子荧光探针作为荧光分析法中重要的分支,被广泛应用于环境检测和生命科学领域。另
学位
《重组家庭的幸福?不容易但是可能的!》是贝亚特丽斯·科珀·鲁瓦耶最新的一部心理学书籍,由法国索拉尔出版社于2019年4月4日出版。在当今社会离婚率居高不下的情况下,重组家庭的增多成为必然。在此背景下,作者运用自己的专业知识和丰富的经验,对重组家庭成员在各方面遭遇的困境和产生的矛盾进行了多角度、多方面的讨论。目前,国内关于重组家庭的心理学著作还很少。译者认为,在现阶段离婚率逐年攀升、重组家庭队伍也随
学位
苦味酸主要来源于啤酒花,在酿酒增味、食品防腐、抗病毒、消炎、抗肿瘤、抗氧化等方面具有很好的应用价值。鉴于提取法和化学合成法在制备高纯度苦味酸时具有局限性,本研究在实验室已有基础上进一步优化了微生物发酵制备苦味酸工艺。本研究从实验室已有的苦味酸发酵菌株和发酵工艺出发,先后进行了菌株优化和基于前体供给增加策略的发酵工艺优化研究,提高了两种苦味酸成分蛇麻酮和葎草酮的生物合成效率。本课题为下游合成路线提供
学位
《月亮是本小说》是法国年轻的天体物理学家法图玛塔·凯贝(Fatoumata Kébé)的一部科普小说。全书一共包含7个章节,190页,于2019年4月11日正式出版,距离人类登上月球已经过了半个世纪。在这部作品里,除了与月亮相关的天文学知识外,作者还向读者展示了许多与月亮有关的文学内容,例如希腊神话,狼人传说以及古老的中国历史故事。作者将天文学领域内的专业词汇表达转化为简练清晰的语言,这大大地照顾
学位
《收起你的控制欲——倾听真实的自我》这本书描述了人们如何通自己的饮食行为更好地了解自身内在的需要,从而达到治愈五大创伤:背叛、抛弃、侮辱、不公、排斥,做回真实的自我的目的。作者通过简单的语言,结合自己遇到的实例,让人们意识到自己心灵存在的问题,并通过具体的建议让人们能够缓解甚至解决这些问题。这篇翻译报告由两个部分组成。第一部分为原文和译文,其中法语原文和对应的译文均为前两章;第二部分是报告,首先介
学位
新型的富氧型半导体卤氧化铋BixOyBrz(X=Cl,Br,I)材料,其结构类似于卤氧化铋(Bi OX,X=Cl,Br,I),都是由铋氧层与卤素离子交替排列形成的类石墨烯结构,由于在其内部形成了内建电场,使得化合物产生的光生电子空穴能得到有效分离,从而使这类材料展现出了良好的光催化性能。在这些材料中,Bi OBr、Bi4O5Br2和Bi5O7Br等由于具有合适的能带结构,因此显示出更加独特的光学、
学位
随着科技的蓬勃发展,进入全媒体图像时代,精英艺术开始向大众艺术转变,当代艺术走向了日常审美化的发展道路,在某种意义上成为了符号运作的场域。全球化经济对娱乐和市场文化产生冲击,更注重消费者的心理诉求,人类步入后消费时代,受消费文化影响,当代艺术出现了符号图像的“快餐化”现象。本文从当代艺术发展的背景为切入点,以大众化审美趋势、时代下人类心理诉求、后消费时代语境以及大众传媒的背景为研究基石,从新艺术史
学位
目标跟踪是计算机视觉领域的基础性研究问题,被广泛应用在当今社会的众多领域中。目标跟踪即在视频序列的初始帧中给定目标特征,跟踪器在后续帧中预测该目标的位置、尺寸和轨迹等信息。近年来,基于孪生网络的跟踪算法相比其他类型的跟踪算法表现出了优异的跟踪性能,但是在面对目标快速运动、形变、尺度变化、旋转等复杂问题时,跟踪性能仍然有待提高。本文针对孪生网络系列的跟踪算法进行了深入的研究分析,特别研究了近期热门的
学位
次氯酸(HOCl)作为生理体系中重要的活性氧物种之一,能够维持细胞内的氧化还原平衡,并具有抗菌杀菌的免疫作用。但当体内HOCl浓度过表达时可能会引起一系列疾病,比如类风湿关节炎及动脉粥样硬化。采用简单、快捷、高效的方法实现生理体系中HOCl的精确检测,对相关病理生理过程的监测具有重要价值。在各种检测方法中,荧光分析法凭借灵敏度高、选择性好、响应快速、实时监测等优点一直备受广大科研工作者的青睐。吩噻
学位
在现实生活中,人们利用摄像机拍摄照片时,总是希望拍摄照片中同一场景下的所有事物都是清晰的,以此来获得最佳的成像效果。但由于摄像机的镜头受到景深的限制,可能会造成镜头无法同时聚焦同一场景下的所有目标,这导致拍摄的照片中部分区域清晰,部分区域模糊,成像观感不佳。为此,研究人员们开始着手设计算法改善这一情况,多聚焦图像融合算法是这些算法中最常见的,它能够将同一场景下不同聚焦区域的多张图像融合成一幅全区域
学位