基于语言知识和集成学习的情感文本分类方法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:xiawei0018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术不断深入发展,用户越来越多地从被动接受网站发布的信息转变为主动获取、发布、共事和传播信息。因此,如今的互联网上存在着大量带有主观的观点和情感的文本,我们称之为情感文本。对这些情感文本的分析、挖掘和管理,具有非常重要的意义。同时,情感文本分析的研究内容非常广泛,它涉及到自然语言处理、模式识别、机器学习、信息检索、数据挖掘等多项基础研究。因此,开展这项研究具有重要的学术意义和应用价值。   情感文本分类是情感文本分析的一项重要研究内容。它是对文本中的主观信息(如观点、情感等)进行分类的一项研究课题。主流的情感文本分类方法继承了传统的主题文本分类方法:利用向量空间模型进行文本表示,再使用统计机器学习算法进行分类。但是这种传统的方法存在诸多缺陷。本文针对这些缺陷,围绕如何将语言知识与集成学习相结合,寻找对情感文本分类更加有效的特征,并充分利用这些特征建立鲁棒的高性能情感分类系统等问题,进行了深入研究和探索。论文的主要贡献和创新归纳如下:   (1)提出了一种基于词性信息集成的情感文本分类方法。根据调研分析我们发现,不同的词性对于情感分析具有不同的作用,因此,在基于词性信息集成的情感文本分类方法中,我们首先按照词性信息将一元语法特征分成几个特征子集,接着使用不同的分类算法构建基分类器,然后利用集成学习方法去组合这些分类器,以达到取长补短的目的,从而提高分类性能。论文在五个语料上对三类集成算法和三种集成策略进行了大量实验,结果表明,基于词性信息集成的情感文本分类方法能够显著提高分类的效果。   (2)提出了一种基于词对关系集成的情感文本分类方法。在前一项研究工作的基础上,本文进一步引入了二元语法特征和依存词对特征分别用于捕捉文本的词序信息和依存关系,并建立了基于词对关系集成的情感文本分类方法。大量的对比实验表明,基于词对关系集成的情感文本分类方法能够进一步提高系统分类的性能。在此基础上,论文对集成算法在情感文本分类中的有效性、各种集成算法性能的优劣以及集成算法的效率进行了深入分析和讨论。   (3)针对传统词对关系特征存在的特征空间维数高、数据稀疏、单独使用性能较低这三个问题,论文分别提出了泛化词对特征的抽取方法、快速特征选择方法和相应的集成方法。其中,泛化词对特征抽取方法与传统的词对特征相比,在缩减了原始特征空间的基础上显著提高了特征分类的性能;快速特征选择方法在极大降低特征空间维数的同时,有效地保持甚至提高了分类性能,而且还大大提高了传统的信息增益法的计算效率。实验表明,这些方法进一步提高了情感文本分类的性能。   (4)将集成学习方法延伸到跨领域情感分类任务中,提出了基于集成学习的跨领域情感文本分类方法。其基本思路是:首先依据词性信息划分特征子集,不同类型的特征子集具备不同的跨领域性能,然后利用集成学习实现特征权重的二次分配,从而达到领域迁移学习的目的。实验结果表明,集成方法能够合理地分配各部分特征的权重,显著提高跨领域情感文本分类系统的性能。论文进一步总结,基于线性加权规则的集成方法相比于特定领域情感文本分类任务,对跨领域任务具有更大的优势。   综上所述,本论文针对在情感文本分类中如何寻找和合理利用深层次的语言特征等问题进行了深入的研究,建立了基于语言知识和集成学习相结合的情感文本分类方法,有效地提高了分类系统的性能,继而进一步地针对特征空间维数高、数据稀疏、泛化能力低等问题,提出了一系列优化方案,并且,提出了一种基于集成学习的跨领域情感文本分类方法。
其他文献
该论文分析了多媒体网络教学与管理系统以及Linux操作系统的特点和现状,并对Linux下的软件开发环境进行研究分析,对采用Linux下的一种数据库管理系统MySQL、Linux下的网络编
随着云计算技术的进一步发展,云计算技术的应用越来越普及,很多企业和组织考虑将其现已拥有的IT基础设施转移到云计算环境中,以求降低IT基础设施建设的投入和维护管理的成本。为
随着互联网技术的发展和普及,潜藏在使用率最高的互联网应用-搜索引擎背后的无限商机正吸引着无数的电商和企业业主,搜索引擎营销应用而生。竞价排名是通过向搜索引擎购买关键
随着国家信息化水平的不断提高,特别是互联网技术的飞速发展,数据库系统的应用越来越广泛。然而数据库系统的数据集中存储与广泛共享的特性,使得数据库系统的安全性问题变得
移动通信技术的不断发展和智能手机的日益普及,开发面向手机的各种增值业务成为当今关注的热点。从我国电信业务发展现状分析,语音业务作为最重要的基础电信业务一直是人们实
随着计算机软件的不断发展,尤其是数据库软件和Web用字符串在软件程序中扮演的角色日益重要。与此同时,针对字符串的程序分析-字符串分析,也取得了长足的发展,并在软件验证等
目前,无论是电信运营商、政府、教育行业还是企事业单位,由于缺乏有效的保护手段,会经常受到各种不良信息的侵害,承受了巨大的损失。针对以上问题,本文提出一种基于ATCA和多核处理
随着计算机硬件的快速更新换代,尤其是可编程图形处理单元GPU的诞生,软件产业发生着翻天覆地的变化。这种变化尤其体现在目前的计算机图形学领域。其巨大的影响力不但深入到
突发事件都具有随机性、突然性和危害性的特征。在互联网环境下,突发事件网络信息通过新闻、评论、发贴、回复等形式反映出来,具有传播快捷、信息多元、方式互动等显著特点,这使
本文为了提高在线事务处理系统对数据库高可用性和高可扩展性的迫切需求,在现有关系型数据库的基础上通过将数据库分片技术与数据库复制技术相结合的方式来提高整个系统的扩