论文部分内容阅读
随着藏文网页和藏文数字图书馆等网络信息内容的日渐丰富,越来越多的藏族同胞也喜欢在网上表达一些自己对事物(事件)的观点和想法,这些观点等信息中往往包含着用户所要表达的一些情感信息,分析这些情感信息不仅有利于藏语自然然语言处理中的数据分析问题,还可以应用于舆情监控、营销策略和藏语问答系统的个性化定制。目前,中英文的文本情感分类研究相对成熟,但对于起步较晚的藏语自然语言处理来说,情感分类研究相对较滞后。该文针对藏文文本情感分析,首先对藏文文本的预处理方面进行了研究,如:藏语句子的自动识别、分词和音节切分等。其次,利用深度学习的方法对藏语句子级做了情感分类。最后,利用句子情感分类结果和词典(包括情感词,程度副词)技术对藏文段落进行情感分类。本文主要的工作内容及贡献为如下:(1)针对现阶段藏文情感分类的需求,构建了规模达1.5万条藏语情感句子语料库,包括不同类型藏文文体中的会话、观点、结论类正面、负面和中性句子。并利用藏语分词和音节切分等技术预处理后人工校对,构建了分词版和音节切分版两种句子级标准情感标注语料库。(2)藏文情感语料预处理技术的研究。为有效处理藏文情感句子的训练和测试,本文在已有的藏文分词系统之外,首先提出了一种基于混合策略的藏文句子边界自动识别方法,解决了藏文句子自动切分技术;其次依据格助词的接续规则,和上下文等特征,提出了一种基于混合模式的音节切分方法。经实验,句子和音节的自动切分准确率分别达到99%和99%。(3)构建了标准的样本语料和解决了预处理技术后,本文提出了一种基于词向量和双向LSTM的藏语句子情感分类方法,通过分析和过滤藏文句子的停用词表,研究不同类型藏语句子中存在的情感特征和分布,采用词向量和双向LSTM模型技术,训练出适合藏语句子情感分类模型并实现了句子级藏语情感自动分类系统。经实验,其不同类型情感句子的准确率达到89%、90%和89%。.(4)实现了一个藏文文本情感分类系统。在藏语句子情感分类的基础上,本文研究了藏文情感文本的分类问题。通过句子级情感分类技术和词典(包括情感词和程度副词)权重技术的双层模式,对藏文段落级文本进行了情感分类,并实现了藏文情感本文分类系统。