基于神经网络的自然语言处理研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：yzyzyzy

【摘要】

：

神经网络是模拟人类神经结构和功能的数学模型，它是近年来机器学习领域发展最为迅速的研究方向之一，在一系列人工智能的重要任务中（比如图像识别、语音识别等等），取得了突破性的成

【作者】

：

李长亮

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

自然语言处理词语相似度词向量情感分析句子分类神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

神经网络是模拟人类神经结构和功能的数学模型，它是近年来机器学习领域发展最为迅速的研究方向之一，在一系列人工智能的重要任务中（比如图像识别、语音识别等等），取得了突破性的成果。同时，神经网络也为自然语言处理领域的深入研究，提供了新的视角和方法。本文基于神经网络，对自然语言理解进行了相关研究，主要的研究内容如下:　　基于交叉递归神经网络的中文词语相似度计算　　为解决中文词语相似度计算问题，本文提出了一种交叉递归神经网络模型。该模型利用两个神经网络，进行基于汉字到中文词语的向量化表示，然后利用获得的词向量表示，进行中文词语相似度的计算。该方法的优势是:1）无需进行中文分词，从而避免了未登录词等无法识别的问题;2）不需要大规模语义词典，减少了人工介入。在SemEval-2012任务4（中文词语相似度计算）公开测评数据集上进行实验验证，与SemEval-2012任务4的四个提交系统、以及直接利用词向量计算相似度的方法进行了对比，实验结果显示本文提出的方法取得了最好的效果。该方法为中文词语相似度的计算，从新的视角提出了一种可行的解决方案。　　基于统计窗神经网络的词向量学习　　针对词向量学习，本文提出了一种统计窗神经网络模型。该模型能够将语料的统计信息有效的嵌入神经网络模型。该模型通过引入统计函数，来表达语料中词-词共现信息;通过引入距离窗函数，来表达语料中词-词之间距离信息。该模型在词语相似度任务上，与通用的词向量学习工具Word2Vec，在多个英文测试集(WordSim353、RG、MC)、多个维度上(20、50、100)进行实验对比。实验结果表明，基于本文模型训练的词向量在所有数据集、所有维度上都取得了超过基于Word2Vc训练的词向量表现，充分说明了本文方法的有效性。　　基于层次递归神经网络的情感分析　　针对情感分析问题，本文提出一种层次递归神经网络模型。该模型引入短-短语节点和长-短语节点的概念，将句子结构分解成不同的组成层次。基于这种层次结构，用不同的权重对递归神经网络进行有监督训练，从而完成模型的情感标签分类学习。为了增强中文的情感分析研究，本文构建了中文影评树库。结合英文公开情感分析数据集(Stanford Sentiment Treebank)进行情感标签预测的实验，与支持向量机等传统机器学习模型以及RNN、MV-RNN和RNTN等神经网络模型进行对比，实验结果显示本文提出的模型在所有数据集上都取得了最好的预测结果，充分说明了本文方法的有效性。　　基于递归神经网络的句子分类　　针对句子分类问题，本文提出将词性信息融入到递归神经网络的方法。基于该方法，递归神经网络以更灵活的语义组合方式，有效地进行由词到句子的向量表示。本文方法能够挖掘句子深层语义信息，从而完成句子分类问题。本文构建了图书、购票两个领域的数据集，在这两个数据集上进行实验。并与传统的基于语义扩展、支持向量机分类模型以及RNN等多个方法进行对比，实验结果显示本文方法在两个数据集上都取得了最好的句子分类结果，充分说明了将词性信息融入递归神经网络的可行性和有效性。

其他文献

微机控制汽车交流发电机性能测试系统及其模糊控制研究与应用

该文介绍微机控制的汽车交流发电机性能测试系统的设计方法和设计技术,主讨论了系统的结构、功能以及软硬件的设计方法.首先介绍汽车交流发电机的工作原理和性能测试方法,然

学位

汽车交流发电机性能测试微机控制模糊控制

我国农药业管理与发展的研究

该文从中国农药业目前发展和管理现状出发,通过与发达国家对比的方法,以现代经济理论为依据,系统地分析了农药业系统各要素的问题,提出了农药业改革与发展的思路.

学位

农药业农药业管理交易费用理论企业创新规模化

论高技术条件下军队战斗力的构成、发展与运用

该文应用系统的观点,把军队看作一个大系统,分别从军队战斗力的物质系统,能量系统和信息系统的角度,分析构成军队战斗力的客观因素,得出人是战斗力物质力量的主体,是战争中一

学位

物质系统能量系统信息系统高技术军队建设战斗力

基于属性建模和知识学习的大规模图像检索

随着移动互联网和云存储技术的发展，以及移动媒体应用与社交网络的出现，近年来多媒体数据（文本、图像和视频等）呈现出指数级爆炸式增长的趋势。图像数据作为多媒体数据的一种重要

学位

大规模图像检索属性建模知识学习计算机视觉技术

基于RGB-D的室外行人检测研究

行人检测是计算机视觉领域的研究热点之一，也是智能交通和无人驾驶技术的重要研究内容;同时还是众多视觉应用的基础，比如行人跟踪与行人行为识别。目前行人检测方法从传感器角

学位

行人检测计算机视觉信息采集数据库配准方法

地形图自动识别算法的研究与应用

该文讨论了地形图自动识别的算法.内容包括两部分,一是地形图中的数字符号的识别,二是图中除数字符号以外的其它图形元素的识别.这里所说的图形元素简称图元,是指地形图中的

学位

地形图自动输入矢量化图文分离数字符号识别

BP神经网络改进及模型输入参数优化方法的研究

该文针对BP网络收敛速度慢的不足,对网络采用的传递函数形式进行了分析,给出了在网络中采用混合传递函数代替采用单一传递函数,以加速BP网络收敛的方法,并对这一提法进行了理

学位

应用程序BP网络收敛速度混合传递函数模糊神经元输入参数优化

京沪高速铁路客流分配模型研究

学位

客流分配广义费用灵敏度分析

变电站综合自动化系统研究与开发

该论文根据变电站综合自动化系统的功能和要求,从变电站自动化系统的体系结构出发来讨论变电站综合自动化系统的可靠性和可维护性,提出并设计了一种单元分布式变电站综合自动

学位

变电站综合自动化分布式单元Lonworks现场控制单元体系结构

集散型多通道数据采集系统

该文根据集散系统的基本原理,以进行农作物科学实验的工程背景,设计了一套集散多通道数据采集系统.该系统采用80C196单片机构成多功能控制器,实现了对光照、湿度、温度等多路

学位

集散型控制系统数据采集系统数据通信单片机系统

基于神经网络的自然语言处理研究

与本文相关的学术论文