情感文本分类方法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:hnjylwn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情感文本分类涉及文本内容理解、模式分类方法等若干自然语言理解和模式识别的问题。开展该技术的研究,不仅可以推动自然语言理解相关技术的研究,而且可以丰富模式识别和人工智能理论研究的内容,具有重要的学术价值和理论意义。   目前,人们越来越习惯于在网络上表达自己的观点和情感。于是,在网上出现了大量的带有情感信息的文本,这些情感文本以商品评论、论坛评论和博客等多种形式存在。面对网上这些越来越多表达情感信息的文本,传统的基于主题的文本分类系统已经不能满足人们的需求,迫切需要对这些情感文本进行研究和分析。因此,开展情感文本分类方法研究同样具有重要的应用价值。   本论文的主要贡献归纳如下:   (1)在对文本分类中常用的6种特征提取方法进行理论分析的基础上,提出了两个特征评价基准,分别是文档频率基准和类文档比率基准,在此基础上提出了一种叫做带权重的文档频率和比率方法的新特征提取方法,并对这些特征提取方法在情感文本分类任务中的应用方法进行了深入研究。通过大量的实验证明,本文提出的新方法能够在不同领域内都能取得很好的分类效果,从而克服了已有方法在领域方面的依赖性问题。   (2)实现了多分类器组合方法中两种基本融合规则(乘法规则和加法规则)的理论推导。这一推导将它们融合到Bayes理论框架下,并分别给出两种规则成立所需要的独立性条件。在此基础上,本文实现了面向情感文本分类的组合分类器系统,用以融合不同的特征子集。实验结果表明,这两种融合规则有效地提高了情感文本的分类效果。   (3)提出了多领域的情感文本分类问题,并针对这一问题给出两种不同的求解方法。情感分类是一个领域相关的问题。在设计实用的情感文本分类系统时,一般需要搜集多个领域的训练语料以保证系统能够在多个领域都能提供良好的分类效果。针对这一问题,提出了在特征层和分类器层两个层面分别进行特征项集合和分类结果的融合,以达到同时利用来自多领域的训练语料构建分类器的目的。实验结果表明,相对于利用单领域语料分别训练,这两种融合方法都能充分利用所有领域的语料,大大地提高了整体分类的效果。   (4)针对情感文本分类方法的领域适应问题,提出了解决多领域适应问题的组合分类器方法。论文重点分析了多个源领域参与适应学习的方法,提出了一种在半监督情况下的多领域适应方法,叫做驱动集成的Sdf-training方法。实验结果表明,该方法对于多领域适应的分类效果优于单领域适应的分类效果。
其他文献
液体商品广泛出现在人们的日常生活中,从医用的药剂到饮料等,它们的质量直接关系到饮用者的生理健康。随着社会经济的发展与人民生活质量的改善,人们在面对饮料或酒类等液体商品
随着平板电脑、书写板、数码笔等笔输入设备的广泛应用,用户能够在更大的界面上输入文本、绘制图形、表格等操作,同时笔迹被这些设备捕获并保存成联机文档。与传统的笔和纸相比
学位
随着无线传感器网络与网络化控制系统的发展与相互结合,无线传感器执行器网络应运而生,它融合了泛在感知、自组织通信、分布式计算、自动化控制等于一体,是近年来新兴的信息
近几十年来,时滞系统的稳定性研究引起了人们广泛关注。时滞系统的理论和实际重要性也得到了大家的普遍认可。可是,由于时滞系统的复杂性,时滞系统的稳定性问题还远远未被研究透
分数阶网络控制系统是分数阶系统理论与网络控制系统的结合,是近几年才兴起的一个崭新的研究方向。网络控制系统是控制理论,计算机技术和通信技术相结合的产物,是自动化技术
液压伺服系统是控制领域中的一个重要组成部分,它是在液压传动和自动控制技术基础上发展起来的一门新的科学技术。近年来,电液伺服系统已经被广泛地应用于航空、冶金等重要领
钢铁行业是我国的支柱产业,带钢热连轧是其中经济效益好、占重要地位的生产方式之一。带钢热连轧生产过程是一个机械、电气和液压系统综合作用的过程,过程体系庞大、机理复杂、
随着计算机技术、控制技术、网络技术和通信技术的不断发展,对于网络控制系统(Networked Control Systems)的研究已经成为现代控制理论研究的重要领域之一。在网络控制系统带
近年来,随着大量特定的应用,在许多应用领域出现了海量、高速和动态的数据,如商业交易分析、传感器网络、入侵检测、金融信息监控、工业过程控制、在线拍卖以及事务日志等。在这
资源问题已经成为我国乃至世界可持续发展战略的根本问题。湿法冶金能够处理复杂矿、低品位矿等,并且对环境污染较少,因此,许多湿法冶金新工艺不断出现并得到广泛应用。浓密