基于意见挖掘的产品评论系统研究与实现

被引量 : 2次 | 上传用户:shi_shui_wen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,互联网上的数据呈爆炸式增长,各大电子商务网站上有关某件流行产品的评论数量动辄数十万条,如果仅通过人工阅读的方式来获取这些评论信息,是一件十分耗时耗力的事情。为了解决这一难题,意见挖掘技术应运而生,并且成为网页信息处理领域里越来越热门的研究课题。意见挖掘是一种综合文本理解和数据挖掘的技术,主要包括以下步骤:Web信息的抽取;有用评论与无用评论的分离;评论内容的情感分析;评论内容的汇总。本文围绕意见挖掘的主要步骤,展开了如下研究:第一、利用网络爬虫技术解析京东商城上有关手机的网页,抽取大量产品评论内容,存储到数据库中。由于原始的产品评论内容包含了部分无用信息,对后续分析会产生副作用,所以本文采用支持向量机算法进行分离,只选择其中包含了对产品本身带有情感倾向的评论,实验中采用的特征有情感词、产品特征词、产品故障词、情感词与产品特征词共现等特征,通过给特征项分配不同的权重,实现了有用评论筛选的准确率达到89.21%,为后续工作奠定了基础。第二、详细阐述了评论内容的情感分析模块,其目标是识别并标记产品评论中带有情感倾向的语块,判断其感情倾向类别。针对传统的以情感词为中心、以定长的滑动窗口识别情感块而使口语化的、含蓄的情感块无法被识别的问题,本文主要研究了基于条件随机场理论的情感块标注技术。由于条件随机场模型的特征选择及特征维数都会严重影响到序列标识的结果,本文通过大量实验选取了词序列、词性、情感词、程度修饰词、产品特征词以及产品故障词作为特征,使得对情感块识别的召回率达到75.32%,同时实验结果表明无论是识别正面、负面情感块,还是识别一词、二词及多词情感块,基于条件随机场模型的情感块识别结果均明显优于传统方法。第三、汇总产品评论内容并可视化展现结果。本模块在前面步骤的基础上设计并实现了基于意见挖掘的产品评论系统。通过挖掘评论中的产品特征词-情感块对,汇总用户对产品的评价,实现对不同产品间的评论对比、同一产品的细节评论的查询,最终将查询结果以可视化的方式展现给用户。
其他文献
2006年财政部颁布的新会计准则对计量属性做了较大的调整,再次引入了公允价值这一独立计量属性。公允价值能够提高会计信息的可靠性和有用性,更加真实地反映企业的资产价值,
我国事业单位财务管理控制要做到完善事业单位财务监督机制,加强经费审批及固定资产的管理,加强事业单位会计基础工作。文章在分析事业单位财务管理特征的基础上,提出了财务
<正> 1 液氯增压输送采用的几种方法1.1 液氯容器气体(氮或空气)增压输送液氯容器内,输入有压力的干燥氮(或空气),液氯在压力作用下源源不断地增压输出。
通过阻燃剂的筛选实验、正交实验和配方实验研制了阻燃聚甲醛(POM),并研究了阻燃POM的成型加工工艺。结果表明,最适于POM的阻燃剂为三聚氰胺、聚磷酸铵(APP)和季戊四醇双磷酸
将克隆至pcDNA3.1载体的含pIL-15基因真核表达质粒大量提取,联合猪瘟疫苗免疫小猪,并通过ELISA和猪脾脏淋巴细胞MTT试验测定pIL-15的免疫佐剂效果。ELISA结果表明,pcDNA-IL-1
<正>随着社会的进步和经济的快速发展,已经有少量药品的包装开始能够传达企业形象。即便如此,目前我国的医药品包装在很大程度上仍然较少考虑到人性化因素,缺少简单实用、易
利率市场化是我国金融改革的重点。依据各国经验,利率市场化必将给商业银行带来各方面的风险,加剧银行业市场的竞争,由此商业银行的竞争行为也会发生变化,各银行也会采用更加
<正>2014~2015年,中国经济每个月的表现都在挑战人们的想象力,谁也说不清。面对现在这个情况,一旦出现意想不到的事,怎么防止经济出问题?第一,要坚决稳住整个金融系统的放贷
江苏省地处江淮平原,属于由温带向亚热带过渡气候,蔬菜设施栽培类型丰富。苏北地区以钢架大棚、日光温室为主,兼有少量竹架大棚,近年来双层大棚多层覆盖栽培在苏北地区有一定发展
狄更斯是最早被译介到中国的外国作家之一。在狄更斯研究中,“狄氏在中国的传播和接受”是一个重要的课题,作品的出版情况最能直接体现这一作家在异国的接受度,从出版这一视