论文部分内容阅读
神经网络是模拟人类神经结构和功能的数学模型,它是近年来机器学习领域发展最为迅速的研究方向之一,在一系列人工智能的重要任务中(比如图像识别、语音识别等等),取得了突破性的成果。同时,神经网络也为自然语言处理领域的深入研究,提供了新的视角和方法。本文基于神经网络,对自然语言理解进行了相关研究,主要的研究内容如下: 基于交叉递归神经网络的中文词语相似度计算 为解决中文词语相似度计算问题,本文提出了一种交叉递归神经网络模型。该模型利用两个神经网络,进行基于汉字到中文词语的向量化表示,然后利用获得的词向量表示,进行中文词语相似度的计算。该方法的优势是:1)无需进行中文分词,从而避免了未登录词等无法识别的问题;2)不需要大规模语义词典,减少了人工介入。在SemEval-2012任务4(中文词语相似度计算)公开测评数据集上进行实验验证,与SemEval-2012任务4的四个提交系统、以及直接利用词向量计算相似度的方法进行了对比,实验结果显示本文提出的方法取得了最好的效果。该方法为中文词语相似度的计算,从新的视角提出了一种可行的解决方案。 基于统计窗神经网络的词向量学习 针对词向量学习,本文提出了一种统计窗神经网络模型。该模型能够将语料的统计信息有效的嵌入神经网络模型。该模型通过引入统计函数,来表达语料中词-词共现信息;通过引入距离窗函数,来表达语料中词-词之间距离信息。该模型在词语相似度任务上,与通用的词向量学习工具Word2Vec,在多个英文测试集(WordSim353、RG、MC)、多个维度上(20、50、100)进行实验对比。实验结果表明,基于本文模型训练的词向量在所有数据集、所有维度上都取得了超过基于Word2Vc训练的词向量表现,充分说明了本文方法的有效性。 基于层次递归神经网络的情感分析 针对情感分析问题,本文提出一种层次递归神经网络模型。该模型引入短-短语节点和长-短语节点的概念,将句子结构分解成不同的组成层次。基于这种层次结构,用不同的权重对递归神经网络进行有监督训练,从而完成模型的情感标签分类学习。为了增强中文的情感分析研究,本文构建了中文影评树库。结合英文公开情感分析数据集(Stanford Sentiment Treebank)进行情感标签预测的实验,与支持向量机等传统机器学习模型以及RNN、MV-RNN和RNTN等神经网络模型进行对比,实验结果显示本文提出的模型在所有数据集上都取得了最好的预测结果,充分说明了本文方法的有效性。 基于递归神经网络的句子分类 针对句子分类问题,本文提出将词性信息融入到递归神经网络的方法。基于该方法,递归神经网络以更灵活的语义组合方式,有效地进行由词到句子的向量表示。本文方法能够挖掘句子深层语义信息,从而完成句子分类问题。本文构建了图书、购票两个领域的数据集,在这两个数据集上进行实验。并与传统的基于语义扩展、支持向量机分类模型以及RNN等多个方法进行对比,实验结果显示本文方法在两个数据集上都取得了最好的句子分类结果,充分说明了将词性信息融入递归神经网络的可行性和有效性。