基于特征强化的中文产品评论挖掘研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:delicioussmoke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的蓬勃发展和网络购物用户的增加,作为消费者反馈信息的在线产品评论也呈现快速增长之势。实现产品评论的自动挖掘对商家和潜在的消费者有着重要意义。由于产品评论挖掘中的任务大多可被转化为分类问题,因此利用现有的监督学习方法解决产品评论挖掘中的问题逐渐成为一种趋势。   然而,由于评论文本篇幅较短、描述信号弱的特点,使得现有监督学习方法在评论挖掘中的应用受到很大的限制。为了解决这个问题,本文以中文产品评论为主要研究对象,采用特征强化的方法,从评论整体的情感分类和细粒度的观点挖掘两个层面进行分析研究。论文的主要工作如下:   (1)在评论整体的情感分类方面,针对评论文本特征信息弱的特点,提出一种基于关联特征的情感分类方法。该方法首先利用关联规则挖掘算法挖掘关联共现特征集,然后利用获取的关联共现特征增强评论文本的特征信息。最后结合IG 特征选择法和SVM分类算法完成情感分类。实验证明,与基于传统布尔权重的评论情感分类方法相比较,基于关联特征的产品评论情感分类方法的宏平均F1值和微平均F1值都得到了很大的提高。   (2)在细粒度的观点挖掘方面,针对词对信息弱而导致传统的分类器F1值不高的问题,本文提出一种基于多特征多分类器的方法识别主观评价关系。   一方面,为了强化词对的上下文特征,该方法除了抽取特征观点词对的上下文词特征与位置特征,还引入了词对上下文的句式特征共同构建词对的特征空间;另一方面,为了减弱词对特征信息弱对分类器精度的影响,该方法使用加权投票机制构建集成分类器来识别词对之间的主观评价关系。实验结果表明,句式特征的引入可以大大提高分类器的召回率;基于加权投票机制的集成分类器模型在均衡子分类器准确率和召回率的同时,也提高了识别器的F1值。   (3)基于上述两种方法,本文构建了一个中文产品评论挖掘原型系统,实现对评论网页或评论文本的挖掘与结果展示。
其他文献
现阶段,图像处理所解决的问题基本都是一些“病态”问题,即对相同目标采样每次得到的结果不同。这种随机性是由信道中存在的随机噪声对信号的影响产生的。如:大气信道、海流信
安全是物联网发展的基础,信任建模和管理是提高安全的手段之一,信任是以域为单位进行管理和评价的,但实际网络中,经常会发生本域找不到合适资源时,进行跨域调度。此时,信任模
智能交通系统中,交通视频中车辆的检测和跟踪一直是倍受重视的一个热点和难点问题,对其进行研究不仅是进一步车辆行为判断的需要,同时也能为智能交通系统提供许多必要的参数信息
树木是自然场景中不可或缺的重要组成元素,它的几何形状和拓扑结构的复杂性,决定了对它建模特别是形状逼真建模方法研究的挑战性。其中树杆作为树木拓扑形状的直接体现者,是树木
随着Web应用的日益广泛和Web开发技术的不断发展,开发者需要一种能够简化开发过程,降低开发难度,提高开发效率的框架。目前在Web开发中人们使用最多的框架大多数都是基于J2EE
在数据挖掘、模式识别、机器学习等研究过程中,特征选择能够选择出代表整个数据集信息的子集。与处理完整的数据集相比,使用特征选择方法可以节省处理时间、提升效率。由于粗
随着以太网技术的不断发展,以太网技术的应用领域正从局域网逐渐走向城域网。由于以太网技术以分组交换为基础,在承载电路业务时,存在一些先天的缺陷,例如:延时、抖动、分组
针对目前车流量检测及预测所存在的一些问题,本文对于常用的多种运动目标的检测方法进行了研究,选择了实时性强,速度较快实用性高的背景差分法作为运动目标的检测方法。对于
自从语义网的概念提出以来,越来越多的开放链接数据和用户生成内容被发布于互联网中,这使得Web数据呈现出结构松散化、内容碎片化、语义复杂化等特征,已不能满足人们对信息快
语义网(SemanticWeb)作为第三代Web已经不同于当前已有的Web技术,智能语义程序介入网络资源流程,能够进行有针对性的发送和获取信息;实现数据语义连接,为人类提供全新的网络服务模