基于词嵌入模型的短文本主题发现研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:huayuaneee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,短文本已成为互联网信息的普遍形式,尤其是随着在线社交媒体的发展,其数百万的用户每天都会生成大量的短消息。从大量的短文本中推断出主题已经成为许多文本内容分析任务的关键且具有挑战性的工作,例如文本表示,用户兴趣分析和新兴主题发现等。许多现有的方法,例如概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)和潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)等传统主题模型,依赖文档集中存在的单词共现信息来学习出文档中潜在的主题结构信息。由于短文本长度较短,单词之间的共现信息较少,导致LDA及其扩展的传统主题模型从短文本中提取的主题质量欠佳。在自然语言处理和相关领域中,已经证明了词嵌入模型可以有效地捕获单词的语义和句法特征。本文主要利用词嵌入模型从大规模外部语料集中捕获的单词上下文语义信息(即词向量)作为辅助信息,从主题建模的数据和过程两个层面着手改善运用传统主题模型对短文本进行主题发现的效果。主要研究工作和成果包括:(1)针对短文本中词共现信息匮乏的问题,本文提出了一种增强主题建模的伪文档构造算法(Re-organized Documents,RD)。该方法首先利用词向量具有的推理能力从短文本内部挖掘潜在的语义知识,丰富短文本的表达。然后,利用词向量的语义相似关系从文本集内部选取候选词进行特征扩展,构建伪文档。由于该算法利用从外部语料集学习到的词向量挖掘文档集内部的特征对短文本进行扩充,因此可以将这种方法作为通用策略来改进其他基于LDA的主题模型,而不会实质上增加模型的计算复杂性。(2)针对传统主题模型忽略单词间语义关系的问题,本文提出了一种融入词汇语义信息的主题模型算法(LDA Embedded with Word Correlation,EW-LDA)。该模型首先利用词向量挖掘单词之间的语义关系,并计算单个单词的统计特征信息,度量不同单词对主题的表达能力。然后,为了融入挖掘的词汇语义先验知识,在LDA模型的潜在主题层上构造了一个马尔可夫随机场(Markov Random Field,MRF),以在主题采样过程中规范每个单词的主题分配,鼓励具有较好主题表达能力的语义相关单词共享同一主题。最后,提供一种基于坍缩吉布斯采样(Collapsed Gibbs Sampling)的方法对所提出模型的后验分布进行推断并估计其参数,该方法可以自适应地包含单词间的关系。(3)在两个真实的短文本数据集上进行大量的实验,以此验证本文提出的RD算法和EW-LDA模型的有效性,实验结果表明本文提出的方法能有效提高短文本主题发现的效果。
其他文献
本论文以三种结构相似的硫醚多苯羧酸:5-(2-羧基-苯硫基)-间苯二甲酸(H3CPIB)、2,5-二-(4-羧基-苯硫基)-对苯二甲酸(H4PSTP)和2-(4-羧基-苯硫基)-对苯二甲酸(H3BPH)为配体,与d10金属离子1和碱土金属离子2反应,其中部分结合含N辅助配体3,通过溶剂热法合成了九种具有荧光性质的配位聚合物。通过多种仪器手段测试分析了配合物1-9的晶体结构,并探究其在检测金属离子、
随着计算机软件在社会各行各业的广泛应用,程序安全成为人们越来越关注的问题。尤其是当大量计算机软件被用于航空航天、武器、大型设备等重要领域时,对软件的安全性能和稳定性能的要求就格外的高。如何能更自动化的,准确的找出各类软件中可能存在的隐藏错误,保证程序安全,成为了一项重要的工作。而作为程序验证的关键性方法之一,模型检测是一种较为成熟稳定的技术。模型检测的关键在于对程序的建模以及对程序性质特点的形式化
疲劳驾驶是交通事故的重要诱因之一,因此如何有效地进行驾驶员的疲劳检测也成为当前热点的研究领域。本文针对驾驶员的疲劳驾驶状态提出了一种基于人脸关键点定位的检测算法,可以有效地检测出驾驶员注意力不集中、困倦疲劳的危险驾驶状态。具体工作如下:1、通过中值滤波、直方图均衡等处理手段,对摄像机采集图片进行优化,减弱由于光照和噪声对图像产生的影响。针对原有的Adaboost人脸检测算法进行优化,追加MLP回归
随着云计算、物联网和大数据技术的不断成熟,工业物联网得到了快速的兴起和发展,但是在信息技术和操作技术一体化的过程中出现了一系列的问题和挑战,为了解决这些问题,行业内将软件定义网络引入到工业物联网之中,软件定义网络的引入解决了一部分的问题,但是仍然存在许多问题需要解决,而本文中将主要研究软件定义工业物联网内数据的安全传输问题。本文的具体研究内容如下:1.提出了一种适用于软件定义工业物联网中边缘网络内
目的:运用7.0T小动物磁共振成像技术,基于种子点的功能连接分析方法,探讨电针治疗功能性消化不良(Functional Dyspepsia,FD)大鼠对其脑岛和与之相关脑区的脑功能网络连接模式的影响,深入分析电针胃俞募配穴治疗FD的中枢响应机制。方法:1.将18只7日龄SD的乳鼠随机分为对照组、FD模型组、FD针刺组,每组纳入6只,均为雄性乳鼠。其中,FD模型组和FD针刺组统一采用0.1%碘乙酰胺
急性心梗是全世界导致死亡的主要疾病之一。肌红蛋白被认为是一种急性心梗的早期标志物。它由153个氨基酸和一个血红素(铁卟啉)组成,分子量只有约17 kDa。正是由于其体积较小,在心脏肌肉组织缺血坏死后,能较快地进入循环血中。在急性心梗发生2小时左右就会达到高峰。现阶段,肌红蛋白的检测方法主要有表面等离子体共振、液相色谱法、荧光法、放射免疫法或酶联免疫吸附法。这些方法都存在着一些弊端,例如耗时较长、操
中国社会经济的快速发展,促使汽车消费快速增长。截止2019年底,我国汽车保有量已超过2.5亿辆,其中传统的燃油汽车占比超过了98%。多年的实践证明,以化石燃料为主的汽车导致资源枯竭与环境污染等问题。为减缓传统燃油汽车对石化资源的高度依赖,以清洁、环保的新能源作为核心动力的新能源汽车(New Energy Vehicles,以下简称NEV)产业,已成为各国保障能源安全、减轻环境污染的重要抓手。当前,
激光诱导光学元件损伤一直是限制高能高功率激光系统负载能力提升的重要因素之一,因此探究光学元件损伤物理机制与物理规律,改善光学元件加工工艺,延长光学元件使用寿命始终是高能高功率激光技术发展中的重要问题之一。光学元件损伤物理过程主要包含多光子电离过程、雪崩电离过程、杂质缺陷诱导过程、非线性效应等,且往往为多过程耦合。对于这个复杂过程的研究,需要在线、便捷、高效损伤检测手段。目前有四种较为成熟的检测判别
光的自旋-轨道相互作用在任何光学系统中都是普遍存在的,但是光的自旋-轨道相互作用在介电颗粒中通常很弱。本文表明,利用具有对偶对称性的介电颗粒和核-壳纳米颗粒可以实现自旋轨道耦合的增强,从而增强散射光的自旋霍尔位移。具体的研究内容分为以下几个方面:1.对偶对称球体中光自旋霍尔效应的增强自旋-轨道耦合作用在等离子体系中能够得到增强,但是在介电粒子中还是很弱。本文揭示了自旋霍尔位移与对偶对称性的关系,并
在全球导航卫星系统中,准确的位置定位从本质上讲取决于对时间的精确测定。作为现今对时间测定上最为精密的仪器,原子钟已被广泛应用于导航卫星系统,因此星载原子钟性能的优劣直接影响着全球导航卫星系统的定位精度。卫星星载原子钟时钟误差是导航卫星精密定位的主要误差源之一,建立能够对卫星钟差进行准确分析和预报的模型,对于减小卫星定位误差具有重要的意义。本文主要对卫星钟差的高精度预报方法进行研究,内容如下:(1)