面向产品评论的垃圾评论识别方法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:raysparkle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着因特网的快速发展,人们发表观点以及相互交流的方式也发生了改变。在产品评论领域,人们越来越喜欢在购物网站上发表自己对产品所持有的观点。这些由用户发表的观点中包含着丰富的有用的信息。同时,在这些观点中也充斥着一些无用的、不真实的垃圾信息。这些垃圾信息的存在影响了产品评论挖掘的质量。本文面向中文产品评论领域,对垃圾评论识别进行了研究,主要工作如下:首先,通过对中文产品评论领域的垃圾评论进行分析,将垃圾评论分成无用评论和不真实评论两大类别,并根据其特点的不同,提出了不同的识别方法。针对无用评论的识别,将其看成是二元分类问题。使用产品特征词、对非产品信息评价语句、问句以及超链接4个重要的分类特征,同时又结合信息增益方法自动抽取出一部分特征来共同表示评论文本。最后由这些特征构成的特征值将评论文本向量化,再采用基于Logistic回归的分类方法将评论文本分为正常评论和无用评论两大类来完成对无用评论的识别。针对不真实评论的识别,考虑了词与词之间的次序问题,并采用2-gram模型来表示评论文本。在构建语言模型的同时,为了避免出现概率值为零的情况,采用Katz平滑方法对模型进行平滑,最后计算每对语言模型的KL散度,如果其值小于某一给定的阈值,则认为是不真实的评论。实验结果表明,本文提出的方法能够有效地识别产品评论中存在的无用评论和不真实评论。
其他文献
军事信息的安全保密是部队工作中的重要问题,采用以加密算法为核心的密码技术对信息加密是最常用、最有效的安全保护手段。在我们二炮部队,需要用先进的加密技术保护的信息和数
油田开发动态分析,在整个油田开发生产过程中,具有重要的地位。搞好这项工作是保证科学高效地开发油田,保持油田高产稳产,提高油田最终采收率的基础。由于油田开发动态分析工作本
转录因子结合位点是与转录因子结合的DNA片断,负责启动基因的转录过程和控制基因的转录效率。由于转录调控是基因表达调控的关键环节,因此转录因子结合位点的预测和识别对于生
将高动态范围的图像信息存储于360度全视角的全景图像成像技术中,即全景高动态范围图像成像技术,该技术的应用非常广泛,如基于图像渲染、摄影特效、游戏模拟等等。本文提出了
随着IP网络技术的发展和各类新型数据业务的出现,因特网在全球范围内得到迅速发展,同时,也对传送网提出了更高的要求。密集波分复用(DWDM:DenseWavelength Division Multiplexing)
现今社会,Internet发展迅速,作为新型的商务模式——电子商务吸引了越来越多的注意力,它是信息化社会的产物,与传统的商务模式相比,电子商务具有更加快速和便捷的优点,电子商务的发
随着信息技术的发展,数据挖掘的应用领域越来越广泛,传统的数据挖掘都是从静态数据库中发现知识,但是应用领域的数据大都是动态的,数据库中的数据都是随时间而变化的,采用聚类方法
在数字世界与物理世界高速融合的今天,EPC物联网走进了人们的生活。EPC,即电子产品码,它实质上是产品信息沟通的纽带,通过RFID射频识别技术实现了对产品信息的自动识别。无线
人类能够与用户图形界面(GUI)进行交互依赖于清晰的视觉。然而,屈光不正(例如近视、远视、散光等)能使人眼视网膜所感知的图像质量退化,图像质量的退化使我们在与计算机进行
无线传感器网络作为无线通信网络的一个新领域,是一种无中心节点的全分布系统。通过随机投放布设的方式,传感器节点密集部署于监控区域,并通过无线电通信形成一个自组织网络。无