中文评论文本情感分析研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:jiwei5520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的日益普及和广泛应用,越来越多的网民开始在Internet上发表自己的观点,意见和评论。网络上的这些评论文本包含了大众群体对热点事件的态度,或者消费者对所购买的商品或者服务的情感态度等。这些信息对国家政府,商业组织以及个体消费者都有重要的价值。然而,网络上的数据规模极其庞大,并且其中很多的语句都是杂乱无章、语言不规范、无结构化的等。如何在海量的评价文本中分析出情感信息成为研究热点之一。评价搭配的抽取和倾向性分析是文本情感分析研究的重要基础任务。在线商品评论是指消费者在网络上用文字的形式表达对自己购买的商品或服务的体验和观点。这些信息对于商家和消费者都具有重要的商业价值,然而网上的很多的评价语句是散乱且海量的,用人工的方法进行情感分析几乎是不可能的,本文以在线评价语句为研究对象,对其使用自然语言处理技术进行情感分析,进而获得评价搭配和评价对象的倾向性。本文的主要研究内容和创新点如下:(1)针对评价搭配的抽取问题,本文提出了一种改进的基于核心句的评价搭配抽取方法。目前常用的评价搭配的抽取方法主要有两类:一类是基于语言特征利用机器学习模型的方法抽取评价搭配;另一类是使用基于规则或模板的方法识别评价搭配。上述两类方法中,句法分析都在评价搭配识别方面起着重要的作用,然而由于中文评价语句的不规范性,会导致句法分析结果不准确,最终影响评价搭配的抽取效果。针对这个问题,本文用提取评价语句核心句的方法有效的提高了中文评价语句的规范性,提高了句法分析的准确率。同时在处理复杂的语句时,本文着重分析了评价对象之间以及评价词之间的并列关系,提高了评价搭配抽取的召回率。实验结果表明,本文提出的方法取得了不错的抽取效果,验证了本文提出的方法是有效的,具有较好的应用价值。(2)针对评价对象的倾向性分析的问题,本文采用基于情感词语义加权的方法进行倾向性分析。评价对象的倾向性分析属于属性级倾向性分析,基本上都以词典为基础,在倾向性分析中,尤其是网络评价语句中会经常出现网络词汇,然而由于使用词典很难识别网络词汇。针对这个问题,本文使用了常用情感词置换网络词汇的方法有效的解决了网络词汇难以识别的问题。另外,针对中文评价文本中经常出现的包含隐含的评价信息的语句的问题,本文制定了潜在评价信息抽取规则,该方法有效的解决了评价语句中潜在评价信息难以识别的问题。实验结果显示本文提出的方法在覆盖率和准确率上都有所提升,验证了本文提出方法的有效性。
其他文献
随着社会的快速发展,科学技术的不断进步,人们所能接触到的信息也成几何级的增长,这些信息的不断积累就形成了我们熟知的“海量数据”。那么如何在海量数据中准确而快速地检
模型驱动架构(MDA)是国际标准化组织(OMG)提出的一种软件开发方法。MDA通过定义四种模型,将系统的业务逻辑、功能描述、系统在特定平台上的实现以及具体的代码实现分离开来,
永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)凭借结构简单、安全稳定性强、结构简单、功率密度高等诸多优越的性能,在国民经济、工业生产以及国防航天航空等众多领
随着网络技术的迅猛发展和广泛应用,网上求职和招聘逐渐成为主流的求职招聘途径。然而,求职者面对海量的职场信息,他们可能花大量的时间也难以找到合适的职位信息。个性化推荐技
运动模糊图像复原是图像处理领域中的一个重要课题,对图像的进一步应用具有很大的作用。运动模糊图像复原在各个领域中应用广泛,比如交通监控系统。随着经济的快速发展,机动车的
对于耳聋患者听觉的问题,近年来关于人耳的研究证实:位于耳蜗中的毛细胞对于语音信号的感知起到至关重要的作用。基于毛细胞声-电转换的原理,利用电子学多通道带通滤波技术将外
计算机技术应用的普及使得人们的生活变得方便而快捷,随之产生的大量数据信息也与此同时充斥在人们的日常生活中。普通计算机处理这些大量的数据信息也变得相当吃力,而人们对于
适用于Ad Hoc网络的MAC层多信道功率控制协议,采用最大功率在控制信道交互控制信息,最小功率在数据信道传输数据信息。不同通信节点对之间距离差异较大,容易产生不对称链接,
无线传感器网络用于监测特定区域内的信息,是由若干价格便宜的无线传感器节点组成的,用于采集网络覆盖区域内感兴趣的信息。信息经过加工处理后,节点间将数据通过单跳或多跳
在当代快速发展的信息社会中,地理信息系统(GIS)逐渐显现出它的重要性,大规模三维地形数据的快速高效地处理以及实时动态可视化已经成为GIS领域研究的重点和难点。为了满足人