基于图书评论的数据挖掘技术研究

来源 :北方工业大学 | 被引量 : 2次 | 上传用户:thirdeyes
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络信息越来越庞杂,迫切需要使用数据挖掘技术对网络文本进行提取分析,以便得到有用信息。图书评论中包含用户对图书产品属性及购买过程的评价意见,如何从图书评论中高效地提取到有价值的信息成为本文的研究重点。本文以亚马逊和京东两大网站的图书评论为数据来源,研究图书特征提取及情感分析中使用的数据挖掘技术,得到图书评论挖掘结果,从而帮助消费者及生产商作出科学的决策。本文首先通过分析网页的标签规则,抽取网站上的图书评论信息,构建原始评论数据集;利用分词及词性标注技术对该数据集做处理,构建停用词表,对停用词进行过滤,从而形成原始语料库。然后,通过冗余词表处理评论语句。使用Apriori算法,FP-Growth算法以及TF-IDF算法从评论中提取图书特征进行性能比对。以此为基础,改进FP-Growth算法并挖掘图书特征。接着,构建情感词典,对评论进行观点句识别,研究优化SVM特征选择,进行图书评论粗粒度情感挖掘。基于"双向判定法"和情感词典进行评论细粒度情感挖掘,得到具体图书特征的情感极性。最后,使用可视化技术展示图书评论的挖掘结果,并计算用户需求与图书的匹配度,帮助消费者作出购买决策。本文的主要研究成果:第一,通过构建冗余词表进行冗余词的匹配替换,降低了提取频繁项集的冗余度。第二,通过改进FP-Growth算法,将评论长度权重加入算法的支持度计算中,并对提取到的特征进行置信度排序,提高了算法的查全率和准确率。第三,通过优化SVM特征选择,将评论星级作为向量特征加入模型构建过程,提高了情感分析准确度。第四,利用"双向判定法"构建情感关系,实现了图书评论的细粒度情感分析。
其他文献
2015年12月,我国财政部发布了《企业会计准则第14号——收入(修订)(征求意见稿)》,同时也起草了说明,在深入对比分析我国收入准则征求意见稿与国际财务报告准则第15号(IFRS 1
求真务实是马克思主义思想路线的内在要求,是马克思主义经典作家的一贯思想。党的三代领导人和以胡锦涛同志为总书记的新一代中央领导集体坚持求真务实,实现了党的思想路线的
<正>都说鲨鱼是地球上最具攻击性最凶残的动物,其实不然。庞大的鲸鲨,就"崇信"与世无争乃至"温良恭俭让"的处世哲学。它们十分憨厚温顺,又被称为大憨鲨、豆腐鲨。之所以被称
红色文化是中国特有的优秀文化,蕴含着中华民族自强不息、百折不挠的精神。因此,红色文化一直被视作先进文化、和谐文化,是和谐社会的有力载体。随着市场经济的发展,人们对资
以江苏省2003-2013年近十年来产业用水与经济发展状况为背景,在分析产业用水与经济发展机理的基础上,结合江苏产业用水概况构建产业用水与经济发展的脱钩模型,同时基于恒等式
文章分析了当前邮政企业文化建设的现状及存在的问题,探讨了创新型邮政企业文化建设的措施,指出创新型邮政企业文化建设是邮政企业发展的必由之路。
<正>数学归纳法是解决有关数列问题的一种重要的方法.只有理解数学归纳法中的递推思想,理解数学归纳法的原理与实质,掌握两个步骤,才能灵活地运用数学归纳法解决有关数列问题
本文研究了以大豆分离蛋白作为原料研制可生物降解材料的工艺条件及各影响因素的作用机理。分别研究了在大豆分离蛋白可生物降解材料的热压成型的过程中,成型时间、成型温度
总结国内配网信息交互发展历程,归纳出3种典型的配网综合信息交互模式:完全一体化模式、基于CORBA中间件模式、面向服务架构的企业信息总线模式。IEC 61968系列标准为智能配
目的:了解韶关市区近6年集体儿童健康状况的变化趋势。方法:采用时间序列比较法对韶关市区1999~2004年集体儿童健康年报资料进行分析比较。结果:6年间集体儿童营养不良患病率