多特征情感词典在文本情感分析问题中的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:jstxwt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国互联网行业的迅速发展,如何从日益增长的海量数据中提取有效的信息成为当前的一个热门研究课题。文本情感分析作为自然语言处理的一个重要应用方向,可以进行分析、处理、判断文本的情感倾向,被广泛应用于舆情监控、信用评价、网络营销、产品与服务优化等领域。情感词典是文本情感分析的基础和重要工具,完善且精确的情感词典可以有效地提高文本情感分析的效果。现有的通用情感词典大多为情感词和情感极性值的组合,其情感倾向一般被设定为固定值。这种情感词典主观性较强,没有考虑情感词在不同语境下可能会表现出的不同情感倾向,具有一定的片面性。语句的长短、词语的频率和位置、词语之间的关联等包含了大量的文本特征信息,这些信息是词语情感强度变化的关键。本文将词语的文本特征信息加入到情感词典的构建过程中,以期找到不同文本语境下词语的特征信息与情感倾向的关系,从而使情感词典更好地适用于各个领域。本文总结了常见的三十余种文本特征并根据特征类别、所属级别等进行分类,在各个类别中寻找对词语的情感值有影响的特征。本文在对词语的文本特征和情感倾向的关系做出大量研究后,提出了基于特征的情感词典构建方法。算法的基本思想:选择文本特征,统计语料库中词语每次出现时的特征值和情感值,构建词语的特征值-情感值列表。利用聚类的方法分析不同特征值范围下词语情感值的取值情况,找到特征值和情感值之间的关系。经过准入条件的判断将有效的情感值及对应特征值范围存入情感词典。词语的不同特征包含和反映了其文本信息的不同方面,单个特征并不能完全表现词语在语境下的情感信息,其实际效果存在局限性。为解决单一特征包含文本情感信息有限的问题,在构建特征情感词典的基础上,本文又提出了基于多特征的情感词典构建方法。该算法的主要思想是,根据单特征情感词典的比较结果,结合各类别的特征中表现最好的特征,从而达到综合各类特征优点的目的,提高多特征词典的效果。经过分组对比实验,本文比较了基于各个特征构建的单特征情感词典,在其中选取实际效果较好的特征进行结合,构建多特征情感词典。实验结果显示,多特征情感词典的分类效果要优于无特征的通用情感词典和单特征情感词典。这证明本文提出的基于特征的新型情感词典构建方法是有效的。
其他文献
如何在小学语文教学课堂上提问,是教学研究的重要课题之一,是教学改革的重要研究对象。本文通过分析小学语文课堂提问存在的一些问题,围绕"如何把握小学语文课堂提问的平衡与
目的 分析芪倍汤用于肛裂患者的临床疗效。方法 研究对象筛选我院60例肛裂患者。依随机方法划分为对照组(常规治疗方法)和研究组各30例(芪倍汤治疗方法)。对两组最终的治疗效
活性开环移位聚合(ROMP)具有链段结构及尺寸可控等优点,是制备可控功能化聚合物的最优方法之一。特别是随着结构明确、稳定高效的催化剂的开发,使一些带有复杂官能团的聚合物
2011年10月27日,重庆市科学技术委员会与中船重工集团公司重庆海装风电设备有限公司联合组织的"国际知名研发机构重庆行动"分项活动"国家海上风力发电工程技术研究中心学术委员
数据仓库和联机分析处理(OLAP)技术是信息技术领域的新兴技术,而如何应用到医院的信息化建设中是医院信息系统(HIS)面临的问题.建立基于HIS的数据仓库并使用OLAP技术,可以将
本文从财务管理人员的工作压力增加、财务信息准确性难以保证以及财务信息安全性遭到威胁三个方面入手,对大数据环境下企业财务管理现存问题展开分析。在此基础上,针对大数据
<正>随着商业银行内部审计职能的不断发展和演变,商业银行内部审计已逐步由合规性监督审计为主,向强化内部控制、内部管理,发挥监督、建设、评价和服务职能转变,内部审计在商
在综合性院校西方音乐史课程的教学中,对音乐作品的本体研究具有非常重要的实证意义,它可以使学生从对音乐风格特征的学习和研究中,进一步深刻理解和把握西方音乐文化发展的
随着西部开发的深入,西部各省的经济与社会发展取得了前所未有的成就。但西部民族文化的开发与保护的矛盾问题却令人担忧,诸如传统元素的消失、文化生态环境恶化及文化资源流
未缴纳工伤保险的工伤待遇案件的法律适用存在法律漏洞,其不同于已缴纳工伤保险的工伤待遇案件。现行法规定,已缴纳工伤保险的工伤待遇案件的工伤待遇与人身损害赔偿请求权适