中文产品评论观点抽取方法研究

来源 :湖南工业大学 | 被引量 : 0次 | 上传用户:tju515
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务和web 2.0应用的发展,越来越多的消费者在购买和使用产品之后,喜欢在电子商务网站、论坛、博客发表对产品的观点态度,这些评论包含了用户对产品的特征,功能,性能等的看法,消费者在购买产品之前总会咨询别人对产品的意见从而做出明智的购买决定,厂家也可以根据用户的评论来改进产品,人工的去浏览这些海量产品评论是费时和低效的,并且还有滞后性和片面性。近来,如何对大量的非结构化的网络产品评论自动的进行观点抽取成为了一个研究热点。本文针对情感观点抽取资源的构建、产品属性特征的抽取、属性特征词与情感词的搭配识别及极性判定进行了深入研究,本文的主要研究工作如下:(1)利用开源工具Larbin和Xpath,针对购物网站的手机频道进行定向爬虫,并根据网页格式利用Xpath进行元数据抽取,最终构建手机评论语料库。(2)在构建情感观点抽取资源方面,提出了基于百度百科的基础情感词典构建方法、基于连词词典和依存句法关系相结合的领域情感词典方法、网络情感词典、情感修饰词典的构建方法。(3)在产品属性特征抽取方面,提出了基于规则和统计的识别算法和基于CRF的属性特征改进识别算法来抽取产品属性特征,前者的准确率达到0.56,覆盖率达到0.73,而后者的准确率更高,为0.78,但覆盖度仅0.46,为了与其他研究者进行比较,将Hu和Liu的方法应用到本实验环境,实验表明本文的两种方法好于Hu和Liu的方法。(4)在属性特征与情感词搭配识别及极性判定方面,提出了基于SVM搭配识别算法,并与最近邻匹配算法、基于依存句法搭配识别算法做了对比实验, SVM搭配识别算法的准确率达到0.83,覆盖率达到0.62,F值为0.71,远远高于其他两种方法,取得了最好的性能。
其他文献
最小加权顶点覆盖(MWVC)问题是图论中一个著名的组合优化问题,它有着广泛的实际应用,例如网络流、电路设计、运输和电信等。MWVC问题中的每一个顶点都有一个正权值,它的目标是在
XML文档具有两个显著的特点,其一:自描述性,存在大量的语义标签描述标签内的文本。这使得XML被广泛的用作描述服务或者数据对象、作为数据交换格式、标注非结构化文档(web页面,纯
随着互联网的发展,网络上出现了越来越多的主观性文本,这些文本包含的观点不仅对潜在用户的行为产生了影响,同时也影响了相关的决策。对主观信息的分析与提取,已是自然语言处理等
普适计算环境的特点是以人为本,旨在为用户提供高效精确的、无处不在的个性化服务。为了达到这一目标,就需要对海量的、离散的原子事件进行自动智能分析,提取用户感兴趣的、可以
随着无线传感网络技术的发展,其应用范围日趋广泛。而协议作为无线传感网络通信的基础,其重要性显而易见,但由于无线传感网络运行环境的复杂性,协议的正确性很难得到保证。通常的
现今互联网已经成为了信息的海洋,每天有上亿张新页面发布到互联网中,虽然其中大型的门户网站汇集了大量的信息,但是国内数以万计的中小型网站的信息量总和确实远远高于门户网站
因特网的繁荣给世界带来了重大的改变。但随着越来越多的Web服务程序和网站的开发,Web的漏洞如同雨后春笋般地出现。在最近几年,网络上出现了一种新的攻击类型:客户端攻击。客户
对软件系统源码进行缺陷静态检测所面临的最大的现实困难之一是缺乏相应的缺陷检测规则。尽管对软件代码进行人工地分析和理解能够获得反映程序安全本质的深层次的缺陷检测规
近年来,数据分析市场的需求正快速发生变化。越来越多的企业和组织需要对大量数据进行分析,这些数据包括爬取的网页、搜索日志和点击流等。与此同时,需要存储和处理的数据正在急
随着社会的发展、科技的进步,单纯的由软件服务提供商提供软件,客户自己提供IT基础设施和人力对软件进行维护已经远远不能满足客户的需要。尤其是对于中小型企业来说,自己维