藏文文本情感分类技术研究

来源 :青海师范大学 | 被引量 : 1次 | 上传用户:wangdaojin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着藏文网页和藏文数字图书馆等网络信息内容的日渐丰富,越来越多的藏族同胞也喜欢在网上表达一些自己对事物(事件)的观点和想法,这些观点等信息中往往包含着用户所要表达的一些情感信息,分析这些情感信息不仅有利于藏语自然然语言处理中的数据分析问题,还可以应用于舆情监控、营销策略和藏语问答系统的个性化定制。目前,中英文的文本情感分类研究相对成熟,但对于起步较晚的藏语自然语言处理来说,情感分类研究相对较滞后。该文针对藏文文本情感分析,首先对藏文文本的预处理方面进行了研究,如:藏语句子的自动识别、分词和音节切分等。其次,利用深度学习的方法对藏语句子级做了情感分类。最后,利用句子情感分类结果和词典(包括情感词,程度副词)技术对藏文段落进行情感分类。本文主要的工作内容及贡献为如下:(1)针对现阶段藏文情感分类的需求,构建了规模达1.5万条藏语情感句子语料库,包括不同类型藏文文体中的会话、观点、结论类正面、负面和中性句子。并利用藏语分词和音节切分等技术预处理后人工校对,构建了分词版和音节切分版两种句子级标准情感标注语料库。(2)藏文情感语料预处理技术的研究。为有效处理藏文情感句子的训练和测试,本文在已有的藏文分词系统之外,首先提出了一种基于混合策略的藏文句子边界自动识别方法,解决了藏文句子自动切分技术;其次依据格助词的接续规则,和上下文等特征,提出了一种基于混合模式的音节切分方法。经实验,句子和音节的自动切分准确率分别达到99%和99%。(3)构建了标准的样本语料和解决了预处理技术后,本文提出了一种基于词向量和双向LSTM的藏语句子情感分类方法,通过分析和过滤藏文句子的停用词表,研究不同类型藏语句子中存在的情感特征和分布,采用词向量和双向LSTM模型技术,训练出适合藏语句子情感分类模型并实现了句子级藏语情感自动分类系统。经实验,其不同类型情感句子的准确率达到89%、90%和89%。.(4)实现了一个藏文文本情感分类系统。在藏语句子情感分类的基础上,本文研究了藏文情感文本的分类问题。通过句子级情感分类技术和词典(包括情感词和程度副词)权重技术的双层模式,对藏文段落级文本进行了情感分类,并实现了藏文情感本文分类系统。
其他文献
阐述了我国有色矿山企业在发展过程中不仅存在资源危机,而且矿山企业税费负担重,本文针对矿山企业普遍征收的资源税的税收制度存在的主要问题,借鉴国外对矿产资源征收税费的
本文根据患者既往史、症状、体征及相关辅助检查,确诊为青少年垂体功能减退并发隐源性肝硬化.该病的发病机制可能为生长激素缺乏从而能影响肝脏信号转导通路,使肝脏物质代谢
在我国的学校教育教学体系中,中职教育是不可或缺的一个环节。中职教育,主要是为社会提供专业性的人才,因此在中职学校的课程设置中,对于学生的专业要求比较严格,同时设置的
目的:探讨光动力联合重组人白介素-2(interleukin-2,IL-2)对中晚期食管癌临床预后的影响.方法:将30例中晚期食管癌患者随机分为2组,其中15例仅行单纯光动力治疗(photodynamic ther
2015年3月20日,历经三代进化之后,广汽丰田发布全新汉兰达。它不仅重新定义了大中型SUV的市场基准,更用卓越的技术再一次实现了自我超越。如果把这款"豪华大7座SUV"比作是一个"
本文利用阶梯阻抗谐振器(SIRs)设计具有双频响应的带通滤波器。调节阶梯阻抗谐振器的阻抗比(K)和物理长度,实现了频率为2.45/3.15GHz上的双频带通滤波器,仿真结果表明其回波
<正>据统计,在住院病人中。营养不良发生率为30-50%,老年住院病人可达50%,营养不良对机体的影响和疾病的康复众所周知。因此对住院病人的营养支持越来越被医务工作者所关注,文
会议
在我刚(gāng)刚懂(dǒng)事的时候,我就对老虎(hǔ)有种特殊(shū)的感(gǎn)情。非常喜欢,但是又有些害怕。每次在电视画面上看到老虎,我都有种冲(chōng)动,心想要是能摸(mō)一摸老虎该是多么好的一种感觉呀!   直到有一天我见到真的老虎,并亲手摸一把后,才深深领悟(wù)了那句话———老虎屁(pì)股(gǔ)摸不得。   那是去年暑(shǔ)假,我和爸爸