基于统计方法的中文文本情感倾向分类研究

被引量 : 26次 | 上传用户:asd137889706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,以网络为传播媒介的文本信息越来越受到企事业单位和个人的关注。网络信息可为政府管理部门了解民众意向、制定政策和改善服务提供重要依据;通过某个事件的相关报道与评论,不仅可以了解事件本身,还可以了解人们对事件的立场、观点和看法;很多企业通过在自己的网站上开辟产品评论专栏,进行市场调查与分析,了解用户对产品的意见和建议,对产品在线跟踪,以改进产品性能和售后服务;消费者也可以利用网上关于各种产品的评论来指导消费行为。然而,网上每天都有大量的新评论出现,对于这些评论,仅靠人工进行跟踪和分析显然是行不通的,人们开始关注并研究评论文本的主观性情感倾向分析。本文针对网上的评论文本进行了文本情感倾向分类研究,主要内容如下:(1)将文本主题分类的关键技术应用于文本情感倾向分类。本文采用了信息增益、互信息和x~2统计三种特征选择方法以及布尔和频率两种概率估算方法,对文本情感倾向分类进行了实验研究,选择支持向量机技术构造分类器。测试结果表明,这些技术用于文本情感倾向分类是可行的,但分类效果不及文本主题分类。其原因是,文本情感倾向分类问题比文本主题分类问题在特征选择上更复杂,仅仅基于类别区分能力选择特征是不够的。(2)提出了基于同义词情感倾向强度的词汇情感倾向强度度量方法。词汇的同义词与词汇本身具有相同或相近的情感倾向,一个词的同义词与基准词的同现信息一定程度上强化了该词汇的情感倾向。为了定量刻画这种语言现象,本文提出了基于同义词同现信息的词汇情感倾向强度度量方法。实验表明,该方法优于基于词汇的情感倾向强度度量方法。(3)提出基于类别频次差的受限基准词选择方法。词汇的情感倾向分类效果很大程度上依赖于基准词的选择。本文提出了基于类别频次差的受限于语料库的基准词选择方法。实验结果表明该方法优于通用基准词选择方法。(4)提出了基于最大熵模型的组合项情感倾向判别方法。组合项是一类重要的文本情感倾向分类特征,本文提出了基于最大熵模型的词汇组合项情感倾向分类方法。(5)研究了混合候选特征对文本情感倾向分类的影响。采用不同的混合候选特征,对同一语料情感倾向分类进行比较研究,结果表明,候选特征的构成成分越多,分类结果越好。
其他文献
随着经济的快速发展和电子信息技术的不断推进稳定、可靠、优质的财务会计软件已在现代企业中得到了广泛的应用,我国企业大多也都实施了会计核算的电算化,会计电算化的实施大
长征是中国革命的历史宝库,长征是中华民族走向复兴之路的强大精神动力源。长征也是影视长征题材创作的认知来源。新中国成立后,作为主流文化重要一脉的军事题材影视创作,陆续拍
报纸
随着信息社会市场竞争的加剧,产品定制化已经成为模具制造企业发展的必然趋势。模具制造企业的每一个订单都要与客户进行详细的业务和技术方面的沟通,报价在获取生产订单的过
介绍了8051单片机在直流伺服电机控制中的应用以及实现方法。该系统的速度反馈元件采用测速发电机,角度测量元件采用光电编码器。电机驱动元件采用大功率晶体管PWM功率放大器
学术界针对现代城市规划理论发展的逻辑基础的探讨一直没有停止过,笔者希望通过一种新的"范式"视界来丰富它。在深入解读"范式"这一术语特征的同时,基于对大量文献的研究,认
<正>黄瓜霜霉病是黄瓜生产中的重大病害之一,不单发病迅速、危害严重,还发生普遍;在发病时期,一周左右时间就能使成片的植株发病,形成严重减产30~50%的局面。霜霉病不但严重
高品质的棉花产品需要高质量的棉花,但由于新疆的机采棉处于刚刚起步阶段,部分技术还不成熟,机采棉的质量与美国以及澳大利亚等国家的棉花质量相比还有一定的差距,这给我国的
<正> 剖析我国传统农村社会的运行机制及其历史变迁,不难发现,在封建政治和地主经济操纵和影响农村社会的同时,还存在着一种更为突出和独特的权力生成和有效运行的现象,即以
近年来,地方政府性债务规模的快速增长、种类的繁杂多样、债务风险的管理控制、债务审计水平的提升越来越备受关注。基于此,本文以对Z市的债务审计为出发点,首先对地方政府性债务的定义、种类,债务风险的来源、控制,债务审计的重要性、评价指标、审计模式的完善等方面的国内外研究成果进行了梳理,借助文献研究法、案例分析法和实地调研等三种方法对Z市政府性债务审计情况进行了深入地分析。从Z市2014年债务审计报告着手
强大的战斗精神是克敌制胜的法宝,习主席在领导强军兴军实践中,高度重视部队战斗精神培育。新形势下,深入推进军事斗争准备必须强化部队战斗精神培育。