句子和篇章文本倾向分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hanosn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本倾向分析目的是确定文本所表达的态度或观点,近几年来已经成为信息检索和自然语言处理领域的一个热点问题。文本倾向分析分为两个方面:情感(emotion)和情感倾向(sentiment/opinion)。这两方面都是人物主观意愿的反映,情感表达人物自身的情绪起伏,如快乐、悲伤等;情感倾向则表达人物对外界事物的态度或者喜爱的程度,如赞成、反对等。文本倾向分析应用十分广泛,在舆情分析、有害信息过滤、影视评价、产品调查等方面都有广阔的应用前景,但是目前公开的情感分析语料还比较少,给研究带来很大的困难。目前情感分析还是比较初步,要使情感分析达到可应用的程度,还有很长的路要走。本文重点对句子情感分析和篇章级情感倾向分析进行了研究。首先,本文将研究焦点对准喜、怒、哀、惧四类情感分析问题,重点解决中文句子的情感分析问题。句子情感分析首先根据情感词典和倾向词典提取词特征,并采用规则提取词序列特征,然后采用最大熵模型对句子进行情感分类。在COAE2009评测中句子情感分析取得较好结果。其次,情感分类是目前篇章情感分析的主要方法,但该方法难以融入结构特征。针对此问题,采用级联模型对篇章情感倾向进行分析,将篇章情感倾向分析分为两层:小句级和篇章级。首先分解篇章到小句,再由小句级的分析过度到对篇章级进行分析。使用最大熵模型处理小句级情感分类,小句级的输出作为上层篇章级的输入,并结合句型特征和句子位置等信息作为特征,采用支持向量机模型进行篇章级情感分类。同时对于级联模型中双层标注问题,基于交叉验证的思想提出了单层标注级联模型,减少了标注工作以及多层标注错误。实验结果表明,该方法的准确率较传统情感分类方法提高2.53%。最后,本文针对句子情感分析和篇章情感倾向分析的实验进行了分析,分析了句子情感分类能够取得好成绩的几个原因,同时对于本文所提出基于单层标注级联模型的情感分析进行了分析,指出了该模型在篇章情感分析中的优势。
其他文献
组合优化是优化领域中的一个重要分支,最小生成树问题(MST)是一类经典的组合优化问题,并且在现实生活中具有广泛的应用,例如,通信网络、电路设计、管道铺设等方面,因此对这类
智能电网是建立在集成的、高速双向通信网络的基础上,通过先进的传感和测量技术、设备技术、控制方法以及决策支持系统的应用,实现电网的可靠、安全、经济、高效、环境友好和
随着科学技术特别是无线网络技术的飞速发展,人们的通信方式也发生着日新月异的变化。当代,移动网络通信已经渗入到人们工作生活中的每一个角落,人们已经无法脱离移动网络而
随着计算机的普及以及互联网的迅猛发展,大量信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们从海量信息源中迅速找到真
动态目标跟踪技术是计算机视觉研究领域中最重要的研究课题之一,在视觉导航、军事制导、交通监测、医疗诊断等方面都有着广泛的应用。粒子滤波技术是目标跟踪领域的核心算法,
在分布式系统中,所有的资源都是服务,服务具有低耦合性、易用性、复用性和可组合的特点。传统的服务发现通常是以服务的功能性描述信息作为关键值进行服务发现,往往忽略了服
关联规则挖掘作为数据挖掘的一个重要研究领域,通过各事务项集之间的相关联系,给用户提供感兴趣的规则,在商业、科学和其它应用方面得到了广泛应用。但是,传统的关联规则挖掘
在移动计算环境中,数据一致性是移动数据库在实际应用中必须解决的主要问题之一,而同步复制技术是维持数据一致性的关键技术。然而,现有的同步复制方案存在一定的局限性:日志
软硬件划分是软硬件协同设计中的关键技术。软硬件划分是指在系统设计时,确定各个功能模块是采取软件还是硬件的实现方式。软件实现的特点是灵活、成本低;而硬件实现的特点是
人类进入二十一世纪以来,随着科学技术的发展,网络信息技术也得到了飞速发展。与此同时,网络中各种各样的安全隐患也层出不穷。尤其是近几年来,由于拒绝服务攻击易于实施,破