基于神经网络的文本向量表示与建模研究

被引量 : 0次 | 上传用户：rongcs

【摘要】

：

文本表示与建模是自然语言处理领域中的基础任务。传统的文本表示方法主要是基于词袋模型,好处在于简单高效,容易扩展,但同时也面临众多严重的问题,如维度灾难、数据稀疏表示

【作者】

：

牛力强

【发表日期】

：

2016年期

【关键词】

：

自然语言处理文本表示深度学习神经网络文本建模主题模型词向量主题文档框架潜在狄利克雷分布

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本表示与建模是自然语言处理领域中的基础任务。传统的文本表示方法主要是基于词袋模型,好处在于简单高效,容易扩展,但同时也面临众多严重的问题,如维度灾难、数据稀疏表示、缺失语义表达能力等。近年来随着大数据和深度学习技术在语音、图像、生物信息等领域取得重大的成果,研究者们也开始将深度神经网络技术应用到自然语言处理领域。特别地,随着2008年Collobert和Weston将基于深度神经网络的词向量表示应用到各类自然语言处理任务以及2013年谷歌研究员基于神经网络语言模型来学习分布式词向量表示,越来越多基于神经网络模型来学习文本向量表示的方法出现。本文集中对基于神经网络语言模型的文本向量表示和主题建模问题进行了研究。首先简单介绍传统N-Gram统计语言模型和基于神经网络的语言模型,并且回顾传统词向量表示方法以及学习分布式词向量表示模型Word2Vec。随后基于这些基础模型与方法,本文进行了多方面的扩展：1.潜在狄利克雷分布(LDA)挖掘文档中的主题结构,在自然语言处理和机器学习领域扮演重要的角色。然而,LDA中的概率分布表示仅仅描述语料中的共现统计关系,概率分布并不是特征表示的最好选择。近来,基于向量表示的方法被提出来学习词和文档的概念和表示,例如Word2Vec向量表示方法已经在众多任务中相比类LDA的方法表现更好。Doc2Vec。因此,本文提出模型可以学习和词向量表示在同一个语义空间的Topic2Vec主题向量表示,作为概率分布的替换。实验表明可以更好的建模Topic2Vec主题。2.分布式词向量表示已经在自然语言处理领域取得了重大的成果。然而,大多数模型只关注局部上下文属性并且独自地学习特定任务的表示,缺失融合多个属性联合学习的能力。因此,本文提出一个统一的框架可以联合学习词和词的属性的分布式表示。在模型中,我们考虑了三类属性：主题、词元和文档。在学习属性的分布式向量表示的同时,我们发现利用附加的属性对于提升词的表示也是有益的。实验部分从多个方面分别评价了主题向量表示、文档向量表示和提升的词向量表示,结果表明我们的模型效果更好。3.感知任务例如视觉对象识别和文本理解在人类智能中起着重要的作用,后续任务则包括推断、推理和决策制定等都要求更高层次的智能。过去几年中,感知任务的主要进展均采用了深度学习模型。而对于更高层次的推断,带有贝叶斯属性的概率图模型则更加强大和灵活。为了实现整合感知任务以及高层次推断的智能,自然地希望将深度学习和贝叶斯模型紧密联合起来。本文考虑融合基于神经网络的词向量表示和潜在狄利克雷分布(LDA)。特别地,将词向量表示应用到LDA中来提升原有主题模型的效果,分别提出词向量聚类先验LDA、上下文感知LDA和词向量加强LDA等模型。实验表明利用词向量表示的LDA表现更好。

其他文献

地方高校财务多维绩效评价体系构建研究

随着大学不断扩招，地方高校面临着更加严峻的形势，突出的就是地方高校的财务绩效评价问题。目前，地方高校普遍存在资源使用效益低下、收入与支出不对称、财务绩效评价水平落后等

期刊

地方高校绩效评价体系构建

穿越剧中的“灰姑娘”情结

以女性为主要受众群体的穿越剧多采用灰姑娘的叙事模式。以"穿越"为契机,穿越版的灰姑娘形象揭示了现代女性自我表达、自我实现的深层心理诉求。"多马王子"现象则反映了现代

期刊

穿越剧灰姑娘模式女性视角多马王子现象

农村不能实施强制养老保险储蓄性自愿保险属商业保险行为

<正> 1995年,陕西省有关部门曾草拟了一份《陕西省农村社会养老保险条例(草案)》(以下简称《条例》),准备通过地方立法在全省农村全面实施强制性社会养老保险。《条例》对以

期刊

养老保险商业保险公司投保人储蓄性

大学生志愿服务中的权益保障

<正>前言:通过对志愿者的概念来探讨,当前"大学生志愿者"的概念和服务内容,并根据现在大学生志愿者服务的现状和存在问题突出大学生在志愿服务中的权益保障机制构建。志愿者,

期刊

大学生志愿者服务志愿者组织大学生志愿服务志愿者权益青年志愿者服务权益保障大学生参与

从旅游者认知角度探析滑雪旅游保险发展对策

滑雪旅游作为旅游的一个重要组成部分,越来越受到大众的重视,在迅速发展的同时,滑雪旅游保险问题也越来越突出。通过运用文献研究、实地考察、个人访谈和问卷调查等研究方法,

期刊

旅游者认知滑雪旅游旅游保险发展对策

绞股蓝甘草复合保健饮料配方的研究

以绞股蓝和甘草干品为主要原料,采用正交试验和感官评定方法对绞股蓝甘草复合保健饮料的配方进行研究。结果表明,最佳配方为:绞股蓝浸提液15 mL.L-1,甘草浸提液70 mL.L-1,蔗

期刊

绞股蓝甘草复合饮料配方

健康青年男性脊柱区红外热像特征分析

目的通过观察正常青年男性脊柱区红外热像的特征和规律,为红外热像技术在康复医学中的应用提供依据。方法应用TIP型医用红外热像仪,采集成年男性脊柱区红外热像,记录脊柱正中

期刊

红外热像脊柱温度

透过爱德华·韦斯顿看点石成金的摄影术

笔者通过分析爱德华·韦斯顿的摄影特点,进一步研究摄影的价值和魅力。任何一种绘画形式都不能把事物还原得比摄影更出色,摄影的这种特性曾制约了摄影作为艺术的发展成长。爱

期刊

爱德华·韦斯顿发现美摄影本质点石成金

论流窜盗窃案件的新特点及侦查对策

近年来,随着流动人口的大量增加和交通条件的极大改善,流窜盗窃案件不断增多,给社会带来了极大危害,且呈现出了一些新的特点:犯罪主体日趋智能化、专业化;犯罪过程具有习惯性

期刊

流窜盗窃特点侦查对策

恶意透支型信用卡诈骗罪研究

自最高人民法院和最高人民检察院《关于妨害信用卡管理刑事案件具体应用法律若干问题的解释》出台以来,司法实务界一直致力于准确理解其规定并加以适用。理论界需要正视信用

期刊

恶意透支型信用卡诈骗罪恶意透支银行催收持卡人民刑应对机制

基于神经网络的文本向量表示与建模研究

与本文相关的学术论文