产品评论挖掘的观点抽取和分类技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:lingfangzhi12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和电子商务的发展和普及,Web在很大程度上改变了用户反馈观点的途径。用户购买和使用产品之后会在Web上发表对产品的评论,这些评论中包含用户对产品性能或功能等方面肯定或者否定的态度。生产厂商和用户可以通过分析产品评论获得大量有用信息。但是,Web上评论信息是海量的,属于无结构化数据,生产厂商和用户要想从产品评论中获取信息只有通过人工阅读的方式,而这是一个消耗时间且容易产生错误的过程。因此,产品评论挖掘的研究应运而生,其中用户观点抽取和极性分类是关键的技术,具有十分重要的研究价值。本文针对产品特征词语的抽取和用户观点抽取和极性分类的技术进行了深入研究,主要包括以下几个方面:首先,介绍了产品评论挖掘的研究背景及意义和国内外研究现状,阐述产品评论挖掘中的关键技术。同时,提出了进行评论数据的预处理的一套方案。其次,研究分析了基于统计和基于模式抽取和匹配的产品特征词抽取算法,并将二者结合起来分别用于高频和低频特征词的抽取。抽取包含名词的词语序列作为候选特征词,并制定三个规则进行裁剪获得高频特征词。随后,利用模式抽取和匹配的方法寻找低频特征词。实验结果表明,基于统计和基于模式抽取和匹配的产品特征词抽取算法比基于关联规则挖掘频繁项集和使用支持度裁剪的方法取得了更好的效果。抽取出的特征词语划分为通用特征和专属特征,并构建产品特征库。然后,提出一种基于句子依存关系产生特征和观点关联对的算法。从评论句子中提取出词语的词性和词语间的依存关系,组成依存关系词性对,并通过特定的依存关系词性对来产生特征和观点关联对,以此找出用户观点和产品特征的对应关系。接着,研究提出了特征和观点关联对的极性强度计算方法,根据计算结果进行用户观点的极性分类。使用基于HowNet等资源的中文极性词典判断特征和观点关联对的极性和计算极性强度,并进一步说明对产品型号、产品特征和评论文本进行极性分类的方法。实验结果表明,基于特征和观点关联对和极性词典的极性分类方法对中文产品评论的用户观点极性分类取得了较好的结果。最后,对本文的研究工作进行总结,提出了今后进一步的研究方向。
其他文献
随着Web2.0应用的深入发展,互联网已经进入了一个全民创造信息的时代,但同时也是一个信息泛滥的时代。文本、视讯等技术的日新月异极大扩展了我们创造内容的能力;论坛、微博等用
3D视频技术已成为当前视频领域的热点,3D视频在给人们带来沉浸式体验的同时,也带来了巨大的数据量,对网络传输带宽和数据存储性能提出了新的挑战,这就要求视频编码算法不断改
随着计算机应用日益普及和深化,现代软件的规模越来越庞大,软件质量的保证也越来越迫切。软件测试则是软件质量保证中的关键手段。因此,构造并建立一个软件自动测试框架,是一
随着计算机技术的发展,现有的教学内容、教学手段和教学方法产生了前所未有的变化。计算机辅助教学正在成为研究热点之一。通用试题库系统的研制推进了河北农业大学数字化教
在以移动计算为重点的嵌入式系统应用领域,电源管理是非常重要的一个环节,它直接影响着整个系统软硬件的设计与实现。对于使用电池供电的便携式嵌入式设备来说,有效的电源管理功能可以降低整个系统的功率消耗,大大提高系统的待机时间,延长硬器件的使用寿命,增强产品在市场上的竞争力。本文首先指出电源管理对于以移动计算为重点的嵌入式系统具有的重要作用,然后概述了本文所采用的Mini2440开发板的构成和嵌入式Lin
膜计算是自然计算的一个新分支。它是从活细胞的结构和机能中抽象出来的一种计算模型,具有非常良好的分布式、并行性以及非确定性等优点,已经吸引了当前国内外生物科学家、信息
径向基函数(Radial Basis Function, RBF)神经网络以其深厚的生理学基础、简单的网络结构、快速的学习能力、优良的逼近性能,在函数近似、模式识别、信号处理、系统辨识等领
与传统车辆相比,电容混合动力汽车由于增加了辅助动力装置及其控制系统,整车结构变得更为复杂,车辆发生故障时对故障的判断和处理变得异常困难。针对这种情况,需要为项目车辆
视频监控系统是一种结合了计算机技术、图像压缩技术、多媒体技术、网络技术等多项技术的计算机系统,它已广泛地被应用在医院、学校等多个场所,监控系统发展至今共经历了模拟
随着科技的发展、社会的进步,生物特征识别成为了身份验证的关键技术。生物特征识别技术所研究的领域包括人脸识别,指纹识别,虹膜识别,视网膜识别,语音识别,体形识别,签字识