论文部分内容阅读
网络用语作为一种新兴的相对自成体系的特殊语言,其口语化、不受约束、幽默快捷的特点受到了广大网民的青睐。然而,网络用语在推广和使用过程中会出现概念阐述混乱、与日常用语的关系不明确等问题。在以往的语义分析研究中,知识图谱可以简洁、高效、快速地描述词语或语句之间的关系,并且得到了广泛的应用。尽管如此,目前的知识图谱构建过程中还是存在许多问题,例如常用的命名实体识别算法对网络用语实体识别准确率低,以及关系抽取算法抽取的结果不符合事实等。首先,本文使用Bi LSTM+CRF模型对网络用语实体进行识别,该模型可以解决Softmax层位置标记生成的序列标签不符合语法规范的问题。为了验证模型可靠性,本文使用网络用语语料库进行命名实体识别,实验结果表明使用Bi LSTM+CRF模型可以有效的提高网络用语实体的识别准确率。其次,本文提出了结合句法依存树和本体约束层的远程监督关系抽取模型,对关系抽取的结果不符合事实等问题进行解决。该模型在分段卷积神经网络的基础上,首先引入关系属性的依存子树得到句子中每个单词位置权重,然后在输出层引入领域本体知识对抽取结果进行约束,并通过Freebase+NYT数据集进行实验对比,从而验证模型的有效性,保证了网络用语实体以及关系属性识别抽取的准确率,使得本文构建得的知识图谱更加符合事实。第三,本文应用知识图谱构建了网络用语知识表示系统。通过该系统可以得到网络用语的含义、流行出处、性质等特征,以及各个网络用语与日常用语之间详细的关系可视化展示,不仅可以对网络用语的概念含义进行详细的解释,还可以使人们得到网络用语更直观的语义理解。最终通过实验数据,验证了应用知识图谱对网络用语进行语义分析的高效性和准确性以及应用价值。