论文部分内容阅读
随着大数据时代的来临,互联网上的数据呈爆炸式增长,各大电子商务网站上有关某件流行产品的评论数量动辄数十万条,如果仅通过人工阅读的方式来获取这些评论信息,是一件十分耗时耗力的事情。为了解决这一难题,意见挖掘技术应运而生,并且成为网页信息处理领域里越来越热门的研究课题。意见挖掘是一种综合文本理解和数据挖掘的技术,主要包括以下步骤:Web信息的抽取;有用评论与无用评论的分离;评论内容的情感分析;评论内容的汇总。本文围绕意见挖掘的主要步骤,展开了如下研究:第一、利用网络爬虫技术解析京东商城上有关手机的网页,抽取大量产品评论内容,存储到数据库中。由于原始的产品评论内容包含了部分无用信息,对后续分析会产生副作用,所以本文采用支持向量机算法进行分离,只选择其中包含了对产品本身带有情感倾向的评论,实验中采用的特征有情感词、产品特征词、产品故障词、情感词与产品特征词共现等特征,通过给特征项分配不同的权重,实现了有用评论筛选的准确率达到89.21%,为后续工作奠定了基础。第二、详细阐述了评论内容的情感分析模块,其目标是识别并标记产品评论中带有情感倾向的语块,判断其感情倾向类别。针对传统的以情感词为中心、以定长的滑动窗口识别情感块而使口语化的、含蓄的情感块无法被识别的问题,本文主要研究了基于条件随机场理论的情感块标注技术。由于条件随机场模型的特征选择及特征维数都会严重影响到序列标识的结果,本文通过大量实验选取了词序列、词性、情感词、程度修饰词、产品特征词以及产品故障词作为特征,使得对情感块识别的召回率达到75.32%,同时实验结果表明无论是识别正面、负面情感块,还是识别一词、二词及多词情感块,基于条件随机场模型的情感块识别结果均明显优于传统方法。第三、汇总产品评论内容并可视化展现结果。本模块在前面步骤的基础上设计并实现了基于意见挖掘的产品评论系统。通过挖掘评论中的产品特征词-情感块对,汇总用户对产品的评价,实现对不同产品间的评论对比、同一产品的细节评论的查询,最终将查询结果以可视化的方式展现给用户。