论文部分内容阅读
给定一个句子中的目标词,语义角色标注(Semantic Role Labeling)的任务是自动识别该目标词所支配的所有语义角色并标注角色的类型在自然语言处理中语义角色标注是浅层语义分析(Shallow Semantic Parsing)的重要环节,在机器翻译、信息检索、自动文摘等领域有着广泛的应用语义角色标注通常情况下可分为角色识别和角色分类两个子任务。本文只关注角色识别这个子任务。本文基于山西大学的汉语框架语义知识库(CFN),首先将语义角色识别问题形式化为序列标注问题,以汉语的词为基本标注单位,使用神经网络模型来学习,实验中全部采用组块3×2折交叉验证的方法。文献[1]基于深度神经网络模型,研究了汉语框架语义角色的识别。本文在此基础上深入研究了:1)对文献[1]中神经网络模型的过拟合现象,采用加入Dropout惩罚机制与不加入Dropout的神经网络模型的实验结果做了对比。结果表明,加入Dropout的神经网络模型要比文献[1]中模型角色识别的准确率上升了约10%,召回率上升了约1%,F值上升了约6%。表明加入Dropout时可以更好的缓解神经网络模型的过拟合现象,显著提高了模型的性能。2)在神经网络模型的初始输入分别选择词分布表征为Word2vec,NLM,RnnLM来进行实验,结果比初始输入为随机向量时都略有提高,且采用NLM的词分布表征的F值提升约1%。除此之外,本文还研究了词、词性、位置、目标词特征在神经网络模型中表示向量的维数对实验结果的影响,得到这些特征维数分别为100,30,30,40时模型最优;研究了学习率的不同对神经网络模型性能的影响,实验结果是学习率为0.001时神经网络模型最优。本文的主要创新之处是首次在CFN语义角色识别的神经网络模型中引入Dropout的惩罚机制,并结合使用了词的分布表征并进行试验对比。通过实验证明了在神经网络模型中采用Dropout的惩罚机制以及使用词的分布表征对汉语框架语义角色识别作用显著。