基于朴素贝叶斯的中文段落情感分析

被引量 : 14次 | 上传用户:seanyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WEB2.0快速普及发展,微博、评论网站、贴吧等网络社区愈发发达,人们通过这些渠道表述个人对事物、事件、商品等的观点,进而出现了大量含有个人情感、态度或观点的文本,对这些文本进行情感分析具有较大的商业和社会价值。情感分析是一种新生信息挖掘技术,主要处理文本中的情感、态度或观点。在情感分析过程中,将带有个人情感、态度或观点的一篇评论文分类为褒义、贬义或者中性,亦可称作文本情感极性分类,是情感分析中尤其重要的一项任务。褒义表示评论的作者倾向于喜爱评论对象,贬义表示评论的作者倾向于不喜爱评论对象,中性表示评论的作者对评论对象既有喜爱的倾向也有不喜爱的倾向,没有明确的情感倾向。本文重点分析中文段落级文本的情感倾向。本文首先对待分类中文段落文本进行分词、分句,然后采用机器学习的方法对其句子进行主客观分类,进而从中提取出带有情感色彩的主观句,剔除不含有情感色彩的客观句。针对目前在主客观分类方面对包含丰富情感信息的主观线索,尤其是对关联词的研究较为缺乏。本文提出以主观线索为特征的主观性文本识别,以主观线索特征为主观性文本识别依据,采用朴素贝叶斯分类器对中文段落中的主客观句进行分类,提取其中的主观句。实验结果表明,采用该方法比朴素贝叶斯+主观线索(不含关联词)方法准确率平均提高8%,比传统朴素贝叶斯方法准确率平均提高14%。最后在词语情感分析的基础上对提取出的主观句进行情感倾向分析,针对段落中各个主观句对段落情感的贡献不同,本文提出基于句子权重的文本情感倾向性分析,在段落中所有单句和复句的情感倾向都已经确定的基础之上,采用科学的合成算法将段落中所有单句和复句的情感倾向进行合成,得到整个段落的情感倾向。实验表明该方法对于段落级的文本情感分类效果很好。
其他文献
本文主要从火龙果育种、病虫害防治、采后贮藏、营养物质及功能性物质的研究入手,综合介绍火龙果这几方面的研究进展,并就火龙果研究存在的问题提出相应对策。
目的:研究宫颈脱落细胞诊断中P16、Ki67结合细胞学检查的应用效果。方法:选取我院2015年4月-2018年4月50例非典型鳞状上皮细胞(ASCUS)、50例上皮内低度病变(LSIL)、50例上皮
当前,随着我国与国际社会的接轨,社会对英语专业翻译人才的需求量变得越来越大。而高校作为培养英语专业翻译人才的基地,受到了社会的日益关注和重视。由于我国高校的英语教
仓储管理在企业管理体系中占据十分重要地位,有效的仓储管理,在降低企业的库存成本、提高仓储服务质量等方面有着不可替代的作用。某公司属于国有仓储企业,原有的仓储管理模
传统IP的路由机制以IP地址为驱动,IP承担身份和位置的双重属性,即所谓的语意过载,使其已无法有效适应网络在扩展性、移动性、安全性等方面的需求,设计新的路由机制势在必行。
生活是文学艺术取之不尽,用之不竭的唯一源泉;而文学既是作家对社会生活反应的载体,也是作家审美意识的体现。在凉山这块古老的土地上,孕育了彝族丰富的民俗文化,为李乔创作长
本文以蒙古重要历史文献《成吉思汗传》的内容与结构为主要研究对象,并与其它相关文献中的相关内容做比较,从而分析和论述了它们之间传承以及创新的关系,在此基础上剖析了《
学术界和产业界关于主导产业选择的理论和实证研究层出不穷,研究思路、方法、指标选择等主要沿袭比较优势理论、产业关联理论、经济增长理论和筱原三代平准则的相关内容,而上
目的探讨细胞蜡块制片技术在胸腔积液病理诊断中的应用价值。方法选取我院538例胸膜腔积液患者,分别采用传统涂片制片及细胞蜡块制片检测。结果传统涂片检测出阳性标本264例,
气井由于地层水、工艺措施等影响,瞬时产气量可能很不稳定,现场依靠双波纹差压计用常规的计算方法难以准确计量产气量,导致输差大大超过允许范围.这种输差将对气井动态分析研