基于知识语义特征的篇章级文本情感分类方法研究

来源 :北京工业大学 | 被引量 : 11次 | 上传用户:zz9506018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务技术的迅猛发展,互联网上出现了海量带有情感色彩的主观文本。如何有效地对这些文本进行处理,显得越来越重要,在这样的背景下,情感分析技术应运而生。文本情感分类作为情感分析的一个重要子任务,得到了研究者的广泛关注。目前来看,现有的情感分类研究主要都集中在英文文本上,针对中文文本的研究相对较少。近年来,随着贸易的国际化和经济的全球化,大量网络上的信息存在语言多样化的现象,这使得国家,社会甚至个人必须处理不同语言的文档。在这种情形下,面向多种语言的情感分类研究已经成为了一个当前重要的研究课题。但是目前针对篇章级情感分类的研究方法中,无论研究对象是单语言还是多种语言,都没能充分考虑情感分类中特有的情感知识语义特征,导致了情感分类的准确率普遍低于普通文本分类。针对上述问题,本文分别面向中文和跨语言在情感分类上进行了比较深入的研究,挖掘情感知识中特有的语义特征,并与机器学习的方法进行有效的融合,主要工作包括:(1)针对中文篇章级情感分类准确率低于普通文本分类的问题,提出了一种基于知识语义权重特征的朴素贝叶斯情感分类算法。首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重。然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法。在标准中文数据集上的实验结果表明,本文提出的算法在准确率,召回率和F1测度上都优于已有的一些算法。(2)针对已有的篇章级跨语言情感分类算法无法有效克服语言转换所造成的误差,以及算法常常仅考虑情感知识的分布信息,而忽略了情感知识的语义信息,影响了跨语言情感分类的准确率的问题,本文提出了一种基于句法分析和属性概率权重的跨语言情感分类算法。首先,通过句法分析得到表征词语之间关系的依赖对,再将依赖对翻译到目标语言。然后,基于词典极性的分布信息与文档情感分类的相关性,将类别属性的语义权重特征融合到朴素贝叶斯分类方法中,实现了新的分类方法。用英文带标签的分类数据集作为训练语料,标准中文数据集作为测试语料做了大量的实验,实验结果表明了本文提出算法的有效性。
其他文献
静脉穿刺是医疗护理中常规的技术操作,也是每位临床护士必须掌握的一项基本功.无论是输血、输液还是抽血化验都离不开,尤其是在危重病人抢救的关键时刻,穿刺成功与否至关重要
期刊
宫颈糜烂是慢性宫颈炎中一种最常见的病理改变之一,临床上以局部治疗为主,主要方法有物理治疗、药物治疗及手术治疗,而手术治疗常为临床治疗的最终手段.然而,采用电熨、冷冻
期刊
暑假来临,本应当是孩子们抛下功课、尽情玩耍的时刻。提起暑假“补课”,人们往往第一时间想起的,是即将参加中考高考,学业繁忙的初中、高中学生们。可如今,一些刚刚幼儿园毕业,即将
教育是知识创新的基地,也是培养高素质创造性人才的摇篮。作文是学生认识水平和语言文字表达能力的综合体现。小学作文教学也应着眼于培养具有创新意识的未来人才的培养。在作
文章对安徽某地中心小学2至4年级学生进行心理健康调查。结果表明:在总焦虑倾向上,留守女生的检出率高于留守男生,高学年留守儿童的检出率高于低学年儿童。因此,我们必须高度重视
目的调查上海市浦东新区入册MCI老人痴呆相关知识知晓情况及慢性病的关注度对知晓率的影响。方法采用自行设计的老年痴呆防治相关知识知晓率的调查表,包括性别、年龄和学历等
以市场为主体以就业为导向已经成为中职教育办学的方针,本文通过对一个班级会计专业毕业生就业情况的分析调查,引发对中职人才综合素质培养的探索。
通过对再生障碍性贫血中医病因病机认识和临床疗效不断提高的历史回顾,从致病因素,攻籍文献,临床疗效和实验指标等方面进行分析,进一步论证了再生障碍性贫血的发病机理当为肾精亏
东风吹来满眼春,鹤城大地桃红柳绿、樱花烂漫……刚经历过疫情"大考",近日,一场别开生面的党建工作报告会在鹤壁市人大常委会机关会议室举行。与往常不同,这次报告会的主角是
315.org是一家服务于中国大陆及全球中小企业与商务人士的互联网应用服务提供商,从事互联网多年。