基于词嵌入与生成式神经网络的主题模型研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:dzxxdzc2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习技术的发展,文本挖掘作为软件工程学科的重要子领域,正在逐步向智能化的方向过渡。然而,受传统信息处理技术及挖掘方法的限制,其智能化进程的推进目前仍较为缓慢。尤其自Web2.0时代以来,大量的信息以文本的形式发布在互联网上,如新闻网站中的新闻报道、在线百科中的百科词条、社交软件上的推文及购物软件中的商品评论等。这类文本中往往包含大量的主题、商品属性和事件等信息,然而人工地阅读并分析语料库中的文本需要巨大的人力消耗且无法适应语料规模的日益增长。因此,设计可以从海量非结构化的无标注文本中自动地挖掘出其中隐含主题、事件等的模型将有助于提高文本挖掘领域的智能化程度并进一步推动整个软件工程学科由信息化向智能化的转型。主题模型旨在从文本语料中进行无监督地知识发现,它作为语义模式的常用挖掘工具为无监督地理解文本内容提供了重要的技术基础且已被成功应用于众多软件工程领域的任务(如信息抽取、文本挖掘等)。然而,传统主题模型仍面临如下挑战:1)传统主题模型往往仅利用文本中词与词之间的共现关系建模且难以向建模过程融入外部知识;2)传统主题模型求解过程往往采用变分推理、吉布斯采样等近似求解策略,此类方法需要复杂的数学推导且不易进一步拓展;3)多数传统主题模型挖掘出的主题之间是相互独立的,并没有对主题间关系进行准确的建模,因而难以学习到主题间的关联度且不利于人们对文本语料进行宏观上的理解。为解决上述挑战,本文引入以基于神经网络的词嵌入学习方法获得的词向量为外部语义知识,以加权波利亚球罐机制和生成式神经网络为主要学习框架设计主题模型并从文本语料中挖掘高质量的主题、商品属性及事件。具体地,本文的主要工作及创新如下:(1)针对传统主题建模方法仅依靠词共现信息而导致的主题质量不高的问题,本文提出了一种基于加权波利亚球罐机制(WPU)的采样策略并将其融入隐狄利克雷分配的学习框架进而提出基于加权波利亚球罐机制的主题模型(WPU-LDA)。通过引入基于神经网络的词嵌入模型得到的词向量和基于WPU机制的采样策略,WPU-LDA模型在求解过程中动态地考虑单词与不同主题之间的语义相关性,从而将语义相关的词更好地聚集到了一个主题中提升了主题的抽取质量;(2)针对传统建模方法难以求解且不易于应用拓展的问题,本文首次在生成对抗网络的学习框架下提出了一种基于对抗训练的神经主题模型(ATM)。ATM模型利用一个生成器网络建立了由文档-主题分布到文档-词分布之间的单向映射,并利用一个判别器网络来判断其输入文档的真假。判别器网络的输出信号在对抗训练过程中可以指导生成器的学习从而使得其可以挖掘出隐含在文档中的主题信息。同时,不同于传统主题模型,ATM模型还能为词表中每个单词提供低维的语义表示向量;(3)针对传统主题建模方法求解困难及ATM模型难以为文档提供主题分布推理、不易应用于下游任务的问题,本文在双向对抗生成网络的学习框架下提出一种基于双向对抗训练的神经主题模型(BAT)。该模型在ATM模型的基础上,引入一个由文档-词分布到文档-主题分布的编码器网络从而可以为新文档文档-主题分布进而用于文本聚类等下游任务。此外,为进一步提升主题挖掘质量并建模主题之间的相关性,本文在BAT模型的基础上提出了基于双向对抗训练的高斯神经主题模型(Gaussian-BAT)。该模型在生成器网络中将每个主题建模为词向量空间内的多维高斯分布进而融入了词向量中的外部语义知识。同时,Gaussian-BAT模型利用与主题对应的高斯分布之间的关系完成了对主题关系的建模与挖掘;(4)针对传统主题建模方法挖掘的主题质量不高、模型求解困难且难以准确捕获主题间相互关系的问题,本文基于变分自编码器的学习框架提出了一种变分高斯神经主题模型(VaGTM)。该模型在解码器中将每个主题建模为词向量空间的多维高斯分布并将外部语义信息融入了解码过程。同时,利用解码器中高斯分布之间关系完成了主题相关性的建模。此外,由于一个主题的主题词对应的词向量并不完全服从一个多维高斯分布,为解决这一问题,本文在VaGTM的基础上提出了基于可逆转换的变分高斯神经主题模型(VaGTM-IP),该模型引入了一个可逆转换将词向量转换为更适合主题建模的单词表示并进一步提高了主题挖掘的质量;(5)最后,针对传统主题建模方法不易于应用拓展的问题,同时也为了验证基于对抗训练的神经主题模型在应用层面具有易扩展性。本文提出一种基于对抗训练的神经事件模型(AEM)用来从在线事件文本(推文、新闻报道)中无监督地抽取热门事件。该模型将事件定义为四元组<实体、地点、时间、关键字>且其中每个元素使用一个主题来表示。为挖掘出在线文本中的事件,AEM模型利用一个生成器网络建立了由文档-事件分布到文档-实体分布、文档-地点分布、文档-时间分布及文档-关键字分布的单向映射函数,并利用判别器网络提供的输出信号来指导生成器网络及判别器网络的学习。通过对抗训练,生成器网络可以从文档中挖掘出与各个事件相关的实体主题、地点主题、时间主题及关键字主题从而完成事件的抽取。此外,由于GPU的加速,AEM模型较传统事件抽取模型有更高的执行效率。
其他文献
背景:多器官功能障碍综合征(multiple organ dysfunction syndrome,MODS)是指机体受到休克、创伤、感染、烧伤等严重打击后,短时间内同时发生两个或两个以上器官或系统功能障碍或衰竭、不能维持自身的生理功能,从而影响机体内环境稳定的临床综合征。依受损器官数量差异,MODS患者病死率维持在30%-100%之间。MODS的特征是多个脏器同时、而非依次发生功能障碍,MODS
不锈钢结构的造型美观、耐腐蚀性好、易于维护和全生命周期成本低,是一种高性能的绿色建筑材料,在土木工程中具有良好的应用前景。卷边C形截面是不锈钢材料在冷弯薄壁结构应用中的典型截面形式之一。目前,针对卷边C形截面不锈钢构件,现有的研究主要集中在单一屈曲模态,缺乏针对相关屈曲模态研究,同时屈曲模态的界限十分模糊,这给不锈钢在实际工程中应用带来了难题和挑战。因此,本文以卷边C形截面不锈钢柱为研究对象,重点
戊型肝炎(hepatitis E,HE)是由戊型肝炎病毒(hepatitis E virus,HEV)引起的肝脏疾病,临床表现为急性肝炎,慢性肝病患者合并HEV感染可引发肝功能衰竭等严重后果,且HEV在孕妇中病死率高达20%。WHO资料表明全球每年约有2010万人被HEV感染,330万急性患者,并有大约70000人死亡。在中国HEV感染普遍存在,散发病例呈缓慢上升趋势,戊肝已成为全球和我国严重的公
纤维增强复合材料夹芯构件存在易燃、耐火性能差等问题,严重制约了其在土木工程领域的应用。本文以复合材料-木夹芯梁为研究对象,采用试验分析、理论计算和数值模拟手段,从材料到构件层次,研究了夹芯梁的力学性能、传热机理和抗火能力,主要研究工作如下:(1)进行了常温下木梁、复合材料空管梁、复合材料-木夹芯梁的四点弯曲性能对比研究。试验参数包括截面类型、多轴向纤维布,通过试验,重点考察了夹芯梁的破坏模式、刚度
在光频段,由于金属的介电常数为负值,入射电磁波与自由电子的相互作用使得金属-介质界面可以支持表面等离激元,这种特殊的表面波本质上源于表面振荡电荷与光场之间的共振效应,因此具有高度的场增强和场束缚特性。在微波、毫米波频段,超薄亚波长开槽金属条带式人工表面等离激元(SSPPs)传输结构,同样具有高度场增强和场约束特性,同时还具有轻量化、可共形、低剖面、可与传统电路相结合等独特优势。近年来,SSPPs一
扩散过程是一类重要的自然现象,在生命科学、材料科学、环境科学等领域具有广泛的应用.基于微分方程模型的扩散过程的参数重建,本质上是发展微分方程非标准初边值问题的理论和算法.由于问题的非线性性和不适定性结合在一起,该类问题的求解需要在处理非线性性的同时引入正则化方法以得到稳定的数值解.本文致力于基于扩散过程的介质成像和检测的研究,数学模型为带有时间分数阶导数的偏微分方程控制的慢扩散(超慢扩散)过程对应
道德认知与判断是伦理学研究的一个焦点。人们如何进行道德认知?影响道德判断的因素是什么?这些问题一直为伦理学家们所重视和关注。在以往的伦理学研究中,对于道德认知和判断的研究通常是由内省的、形而上的方式进行的,实验伦理学的视角则更多通过哲学思考与科学实验相结合的跨学科方式,由实然层面挖掘道德认知和判断的特征和影响因素,并由之促进规范和应然层面的论证。笔者在现有实验伦理学研究基础上首先从神经基础的同步关
我国建筑工业化发展对建筑技术提出新要求,住宅建筑工业化向绿色装配式节能建筑发展是提高建筑工业化水平的重要途径。课题组基于传统冷成型钢组合墙体提出装配式秸秆板轻钢高强泡沫混凝土剪力墙结构体系,简称为FCCSS剪力墙结构。其建筑理念为:在秸秆板与冷成型钢骨架组成的空间内灌注高强泡沫混凝土,基于秸秆板与泡沫混凝土良好的保温隔热性能达到结构保温与承重维护一体化;秸秆板变农作物废弃物为建筑材料,属绿色建材范
随着大数据、5G通信和人工智能等新技术的迅猛发展,智能交通系统正逐步从传统阶段向“智能网联”阶段过渡,以自动驾驶为核心的新一代智能交通系统成为当前研究热点。因高速公路行驶环境相对封闭和稳定,以及具有较好的软硬件设备基础,能够为自动驾驶技术的应用提供优先落地途径。作为新兴自动驾驶技术,网联自动驾驶车辆近年来得到了学术界的广泛关注,并在理论和实践应用中取得一定进展,如目前各大汽车企业采用自动化车辆控制