用户评论情感分类系统设计与实现

被引量 : 0次 | 上传用户:zhoubin_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着微博、社交网络、电子商务、生活信息服务等网络应用的出现,用户访问网络的行为从过去的单纯“接收”信息,变成了参与“创造”信息,即现在的用户更乐于上传自己对于人物、商家、产品的评论。每天互联网都产生着大量的评论信息,互联网中的用户评论数量迅速膨胀。基于此,如果用户想从这些海量的用户评论中挖掘出以前用户对这些人物、商家、产品的评价就更为困难,想要通过人工方式去分析这些评论情感倾向已经成为不可能,这时海量的评论却成为了用户上网的负担。由于大多数的评论信息都是用自然语言来描述的,因此可以使用自然语言处理技术帮助用户去总结和分析这些评论信息,得出评论的情感倾向。对用户评论进行情感分析已经成为现在的一个研究热点,也将成为未来互联网的重要组成部分。本文首先介绍了网络爬虫的工作原理,接着分析了现有爬虫的爬取策略,然后对本系统中将使用的相关技术(如网络爬虫Heritrix,网页解析引擎HtmlParser,分词系统ICTCLAS4J,脚本解析引擎Rhino)的主要功能和工作原理进行了详细阐述。最后介绍了情感分类的定义以及情感分类的步骤,另外还对几个具有代表性的中文情感分类系统进行了介绍。本文提出了文本情感分类系统的原型,给出了其关键技术的解决方案。首先阐述了Heritrix的整体架构,根据项目实际需求,定制了针对特定网站的抽取器;使用哈希算法代替了原有的URL分配策略,达到了多线程爬取的目的。接着分析了HtmlParser解析网页正文、Rhino解析Javascript的过程,提出了适合本系统的网页解析方案。最后本文对情感分类算法进行深入的研究,在前人的基础上,总结出了使用情感词构造短语模型,来表达文本的情感特征,然后利用这些短语模型实现文本的情感分类。本文情感分类算法中包括了情感词获取、短语模型的构造、短语模型情感倾向值计算以及文本情感倾向值判断。最后,详细阐述了关键技术的实现过程,并给出了相关代码,完成了一个用户评论采集-评论信息处理-情感分类为一体的评论情感分类平台。本系统分为网页采集、网页解析、情感分类三个主要模块。网页采集模块为后面两个模块提供了原始数据。网页解析模块从采集到的网页中抽取系统感兴趣的内容,作为情感分类模块的原始文本。情感分类模块通过对原始文本进行分词、标注、有效短语抽取以及计算文本情感倾向值等步骤实现。本文通过对大众点评网的评论数据进行了系统测试实验,实验结果表明该系统具有较高的查准率和查全率。
其他文献
20世纪30年代中期,鲁迅将前苏联作家班台莱耶夫的儿童中篇小说《表》译介到中国。本论文从此入手,查阅大量报刊资料,追踪该小说在现当代中国的传播足迹,发现《表》经鲁迅译介
在中国现代文学中有很多值得关注的人物形象,优伶形象就是其中之一。这一形象在中国古典文学中反复出现,到了现代文学中,则按照两个方向发展,一种是被通俗作家当作书写对象,
《唐詩三百首》是清代孫洙编選的一部十分優秀的唐詩選本,問世以來,不斷有學者為其作注,注本多達十餘種,其中質量最好、流傳最廣的,當屬道光年間陳婉俊所著的《唐詩三百首補注》。
<正>临床资料男性,66岁,入院前饮少量白酒后出现心前区压榨性疼痛,向左肩背放射,伴全身大汗、胸闷、头昏、乏力,心电图示:窦性心律,Ⅱ、Ⅲ、aVF ST段弓背抬高0.2-0.3mv,Ⅰ、a
情绪具有两面性,既有积极的一面,也有消极的一面。随着"情绪智力"概念的提出,研究者日益认识到情绪管理的重要性,情绪管理已成为学术界广泛关注的的热门话题。情绪管理是一种
开展扫黑除恶专项斗争以来,广东省针对侦查打击工作中的发现难、取证难、查处难三大难题,创新思路方法,推动线索排查从“人工摸排”向“数据摸排”转变,以专业手段应对新型涉黑涉
报纸
[目的]研究丹参注射液经阴道内灌注对炎性大鼠输卵管炎的病理变化及对输卵管组织局部的CHSP60、TNF-α、IFN-λ表达水平的影响,并结合临床研究,初步探讨丹参注射液对输卵管阻
文章考察了《朝野佥载》和《太平广记》所载张文仲治应病故事,发现张文仲治应病故事偏重于人物和故事的记载,稍晚出现的唐代苏澄治应病故事则在故事叙述上更为细化。宋代“杨
本文首先讨论了提高教师心理健康水平对建设高质量教师队伍及提高学生心理健康的重要性 ,它也是落实素质教育的重要举措。文章还阐述了教师心理健康的标准 ,最后提出了提高教
目的:探讨射频消融术(RFCA)治疗阵发性室上性心动过速(PSVT)的失败原因。方法:回顾性分析1026例采用RFCA治疗PSVT患者的治疗结果,其中房室结折返性心动过速(AVNRT)463例,左侧旁