中文文本褒贬倾向性分类研究

被引量 : 4次 | 上传用户:yangpingliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今,由于互联网技术飞速的前进,在互联网中人们表达自己观点这一现象越来越普遍,这一现象,引发了互联网中信息资源的爆炸性增长,促使人们想要获取缤纷复杂的信息来源几乎全来自于互联网,为此,网民们非常酷爱把互联网当作形影不离的工具。例如互联网上的微博、论坛等产生了巨多的含有观点,评论性的中文文本信息,这些中文文本信息呈现了人们丰富的感情色彩和表达人们对某事物的情感的倾向性,如褒、贬等。但面对这些海量的中文文本评论信息,人们迫切需要将这些中文文本进行自动的褒贬分类,那么,如何利用先进技术高效地快速将其进行褒贬倾向性分类,挖掘互联网信息,满足用户的需要等,值得深入的研究。因此,近些年来有关中文文本褒贬倾向性方面的分类问题的研究在数据挖掘领域受很大的关注。本文通过研究了很多关于中文文本褒贬倾向性分类的中文文本褒贬特征提取方法,重点研究了以下几种中文文本褒贬特征提取算法,包括常用的互信息、简单的文档频率、效果不错的信息增益等算法,之后利用其中的优点,研究了一种在褒贬特征提取时,对分类效果不错的特征提取算法(MIDF);并对褒贬义词典对分类结果的影响进行了研究。本文主要工作包括:把文本中的词语进行分割成一个一个短的词语,也叫做分词,之后去掉一些对分类结果无意义的词,也叫做去除停用词,并使用两类信息差值的特征提取算法(MIDF)进行中文文本褒贬特征提取,TFIDF权值计算方法进行的特征权值计算,并结合SVM对待分类文本进行最后的类别上的判断,结果有两类,一类是褒义的类别,另一类就是贬义的类别。在实验过程中,对比了特征数量的大小对褒贬分类结果的影响、布尔权值、TF权值和TFIDF权值三种不同计算方法对情感分类结果的影响以及SVM分类器对于不同类型文本数据的分类效果。
其他文献
刘醒龙以现实主义写作立足文坛,从“现实主义冲击波”写作到追求“真正的现实主义”,他不断在自己的现实主义文学实践中注入新质,其对现实主义的理解也在不断深化。刘醒龙在1
《韩诗外传》是汉代今文三家诗流传下来的唯一一部较为完整的传诗之作,前人对该著作的文学研究视野随着时间的推进在逐渐拓宽。本文立足于前人研究的基础上,试图进一步丰富对《
为精确开展敏捷卫星效能评估,合理制定机动能力及其测量部件指标,首先针对敏捷卫星利用平台大角度姿态机动,以单线阵CCD相机实现立体成像的特点,分析了单线阵与三线阵立体定
冯雪峰与鲁迅的关系问题一直是中国文学史上研究的重要课题,他们大多通过文本细读、文本精解的方法从冯雪峰研究鲁迅作品、思想、方法论、历史地位、创作传统等方面进行论述。
本文以《古本小说集成》为中心,对明代这一小说发展繁荣时期的创作者,进行整体性的研究。通过对小说创作者的时代、地域、学养、职业、家世背景、宗教信仰、交游及创作动机和过
明嘉靖至崇祯朝指的是明代嘉靖皇帝即位至崇祯皇帝自缢于煤山的一段历史时期,共历时一百二十二年。这里以明嘉靖至崇祯朝作为研究对象是基于此历史时期在明词发展史上特殊的地
目的:探讨DSA引导下无水乙醇硬化治疗头颈部静脉畸形的效果。方法:对2006年3月-2008年4月间应用DSA引导下无水乙醇硬化治疗的53例头颈部静脉畸形患者进行回顾分析,采用影像学
无水乙醇栓塞治疗动静脉畸形已初步取得了令人满意的临床效果,并展现出良好的应用前景,从而为彻底治愈动静脉畸形提供了一条崭新的途径。但是,无水乙醇栓塞治疗动静脉畸形是
SCI论文是目前评价教育界和学术界成就的主要考核指标之一,发表SCI论文是广大临床与基础研究人员追求的目标之一。本文主要介绍SCI论文撰写和发表的体会,针对论文的语言基础
作为在新诗道路上跋涉的同路人,废名与朱英诞在新诗理论与新诗创作上都有较大的相似性,更有各自突出的艺术个性。本文试从诗歌语言、诗歌意象以及诗歌审美趣味三个层面对废名