主题嵌入模型联合学习方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：goblinzehong

【摘要】

：

大数据时代,随着互联网技术的飞速发展,互联网上源源不断产生着大量数据,造成数据的爆炸性增长,这其中就包含大量的自然语言文本数据。文本数据是数据价值密度最大、最有利用

【作者】

：

肖倩

【出处】

：

南京大学

【发表日期】

：

2004年期

【关键词】

：

自然语言处理文本建模主题模型嵌入模型文本挖掘表示学习并行化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大数据时代,随着互联网技术的飞速发展,互联网上源源不断产生着大量数据,造成数据的爆炸性增长,这其中就包含大量的自然语言文本数据。文本数据是数据价值密度最大、最有利用价值的数据资源之一。因此对文本数据进行分析挖掘处理具有重要的理论研究意义和实际应用价值。文本分析的首要任务是挖掘文本的潜在语义。主题模型和嵌入模型是文本潜在语义学习中最主要的两类模型。由于两种模型之间存在的互补性,近几年,有很多研究者试图将两种模型结合。然而,现有的结合方式只是利用其中一种模型来改善另一种模型,不能通过联合学习同时提升两种模型的性能,且缺乏通用性。基于上述问题,本文研究主题模型和嵌入模型联合学习方法。论文的主要研究工作和贡献点包括:(1)研究提出了一种通用化的主题模型和嵌入模型联合学习方法和算法框架HieraVec。这种联合训练方法既可以利用主题模型提供的层次信息提升原始分布式表示向量的质量,又可以利用自然语言的分布式表达更好地完成相应的主题建模,从而达到同时提升两种模型的性能。在联合学习算法框架HieraVec中,由于框架参数的多样性,单一的参数优化方法很难同时学习所有参数,因此本文研究设计了一个旋转优化方法即三阶段参数训练模式,以此优化算法框架的参数。(2)基于HieraVec联合学习算法框架,一方面,将主题模型pLSA的多层语义信息结合进嵌入模型Doc2Vec,研究构建能够学习到文本多层级分布式表示向量的HieraVecPD算法。另一方面,将词嵌入模型Word2Vec与主题模型LDA联合训练,研究构建分布式向量加强的主题模型HieraVecLW算法。并通过多个层面的实验评估了 HieraVecPD和HieraVecLW算法学习到的分布式向量和主题模型的性能,实验证明HieraVec算法框架的联合学习方法能够同时改善主题模型和嵌入模型的性能,并具有很好的通用性。(3)在上述基本技术方法研究基础上,针对大规模语料的文本分析,研究实现基于Spark平台的大规模并行化主题嵌入模型联合训练算法和框架,并在此框架上实现了 P-HieraVecPD和P-HieraVecLW分布式算法。实验结果表明,本文提出的并行化主题嵌入模型联合训练方法和框架能够有效地解决大规模语料的文本潜在语义分析问题,并且P-HieraVecPD和P-HieraVecLW算法具有很好的数据扩展性和节点扩展性。

其他文献

产城融合理念下的大连钻石湾城市规划策略研究

产城融合是在城市建设过程中,对城市、产业功能以及人的活动等关系进行统筹协调,解决新型城镇化、产业结构转型、城市经济发展中产生的空间及社会问题所提出的发展理念。大连

学位

产城融合城市更新大连市钻石湾

互联网空间中的“讽刺”与公共参与

当下中国网络空间盛行着“讽刺”这种充满激情的话语行为。网民利用网络媒介的扩散性、及时性、互动性、草根性等特征,广泛地对社会现实、政治、群体或个人进行讽刺。“讽刺

学位

网络讽刺公共参与笑话恶搞与戏仿

半导体复合材料在光电化学生物分析中的应用

光电化学生物检测是近些年来新出现并迅速发展的起来的一种生物分析方法。其检测原理是基于在光照下目标分子与识别元件之间特异性的生物识别作用而导致电信号发生了变化。因

学位

光电化学生物分析半导体复合材料酶阴极光电流

混凝强化PVDF-多孔硅纳米复合膜过滤与抗污染性能研究

在水处理领域中,超滤膜由于其化学特性和结构的影响,存在通量低、易产生膜污染等问题。在众多制膜材料中,聚偏氟乙烯(PVDF)材料在化学稳定性和耐热性以及机械强度方面表现出

学位

聚偏氟乙烯膜硅材料亲水化改性混凝-膜联用

隧道二衬切割机器人控制系统设计

近些年随着各国科技的不断发展,人工智能已成为当今时代发展的潮流,随着各行各业不断的发展,机器人技术已经得到了较大的发挥,同时机器人技术也是衡量一个国家科技发展的重要

学位

机器人切割四自由度运动学建模路径规划运动控制

青岛“新十景”图形在旅游文创产品设计中的应用

空闲时间到世界各地旅游成为时下受人们追捧的一种生活方式。随着人们生活品质和文化鉴赏力不断提升,在旅游景区挑选旅游产品时,满足精神文化需求的景区产品深受人们青睐,并且旅游产品的实用性与时尚性也成为人们选择的一项必要条件。青岛作为山东省一座滨海度假旅游城市,旅游市场潜能巨大,是国务院批复确定的国家沿海重要中心城市。2018年上合峰会和青岛香山旅游峰会的成功举办,来青游客数量迅猛增长。本选题以旅游文创产

学位

青岛新十景图形旅游文创产品应用

钢框架内嵌钢板剪力墙抗火性能分析

钢板剪力墙以其较大初始刚度、大变形能力、稳定的滞回性和良好的塑性在高层建筑中得到大量应用。但钢结构抗火性能差,随着温度的升高钢材力学性能显著改变将影响结构使用的

学位

钢板剪力墙温度场变形应力抗火性能

深度协同表示分类新方法研究与应用

人脸识别是模式识别和人工智能领域具有挑战性的课题之一,广泛应用于信息安全、金融安全以及公共安全,产生了巨大的经济效益和社会效益。但是,由于原始人脸图像的数据维度较

学位

基于协同表示的人脸分类算法快速逆向重构深度卷积神经网络判别式字典学习三维形变模型

柔性吊点核心筒悬挂结构减震效果分析

随着经济技术的快速发展,高层建筑越来越普遍,其数量之大,规模之大,是过去远远不可比拟的。高层的结构形式更加多样化,而在各种灾害面前也面临更高的风险,因此对高层建筑的安

学位

核筒悬挂体结构Lagrange方程龙格-库塔方法地震反应分析

基于深度学习的脑部MRI海马体分割算法研究

海马体位于大脑丘脑和内侧颞叶之间,主要负责长时记忆的存储。海马体的体积及其功能的异常与很多精神疾病密切相关。因此海马体的准确分割,可以辅助医师对相关精神疾病进行诊

学位

海马体分割多视图集成BDC-LSTMDilated-3DUnet3D-DilAttenUNet

主题嵌入模型联合学习方法研究

与本文相关的学术论文