基于集成学习的短文本聚类

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wyattwong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络购物越来越受广大群众的青睐,成为人们日常购物的主流方式。与此同时,网购平台上产生了海量关于商品的评论文本数据。而商品评论中包含着大量潜在的商品信息和顾客满意度信息,企业可以从中挖掘出实际用户所关注的产品的主要特征,发现不同类型用户的重要特征,然后根据不同用户提供不同优惠政策,改进产品的设计,提高核心竞争力,以及追求更高的利润。因此如何有效对评论文本进行信息挖掘对于企业来说至关重要。由于评论文本没有已知的标签,且篇幅较短,使用传统的文本挖掘方法,即对短文本采用单一的聚类分析方法,得到的聚类结果往往不尽人意。在数据挖掘的分类问题中,集成学习可以通过多个单一分类器的组合来提升分类器的性能。因此,本文将以联想公司的一款笔记本电脑的评论文本为例,将集成学习的思想应用到聚类分析中,来增强短文本聚类的效果。本文首先使用Python软件从天猫商城上爬取联想电脑官方旗舰店的一款笔记本电脑的用户评价文本,共3840条,然后对评论文本进行无效值删除、中文分词、停用词过滤以及文本数值化表示,这一系列的数据预处理过程。鉴于短文本的高维性会带来维度灾难问题,本文后续对数据进行了特征提取,以及利用对比分析法选取合适的特征降维算法对评论文本进行特征降维处理。然后基于集成学习的思想,对由K均值聚类、合成聚类和BIRCH这三种聚类算法得到的3个聚类器进行集成,构建最终的聚类分析模型,最终将1765名发表有效评论的联想笔记本用户划分为两类,第0类用户更注重笔记本电脑的外观参数,为外观型用户;而第1类用户更加注重笔记本电脑的性能与配置,为性能型用户;这两类用户均重视商品的服务质量。接着对两类用户的评论文本及用户数比重进行可视化展示,挖掘与分析出更多关于两类用户的特征。最后结合文本聚类结果,从联想企业的产品营销策略与产品更新设计这两个角度提出了相应的建议与策略。
其他文献
【正】琼府[2010]5号各市、县、自治县人民政府,省政府直属各单位:《海南省人民政府关于海南省2010年进一步鼓励和支持中小企业发展的政策措施》已经五届省政府
新疆托乎木台金矿大地构造处于西伯利亚古板块阿尔泰陆缘活动带冲乎尔晚古生代岛弧盆地中,阿尔泰山南缘多金属成矿带的西段,属阿舍勒地层小区。本文从矿区地质特征人手,分析该矿
随着近年来新课程改革的不断推进,对于教学质量的要求已经不单单停留在提升学生分数的单一层面上,社会各界和教育部门越来越重视学生综合素质的发展,在这一教学环境下,体育教
2013年,美国观众仅在7月份就观看了480亿条在线视频,其中优图网(YouTube)位居第一,视频观看量达到了近177亿条。在英国,优图网仅在2013年4月就吸引了2500万独立访问用户.比2012年同
岩土工程勘察工作的进行必须要充分而全面的符合规范中的要求,但在实际勘察工作环境下因为接触对象分布太广、变化太大,因此在较大程度上表现出差异性,这就要求岩土工程勘察工作进行过程当中需要在认识区别和差异的基础之上再来进行总结提高。本文中主要结合多年工作实践经验,对岩土工程勘察的重点进行说明和分析,希望能够对相关方面工作人员有所裨益。
【正】交海发[2010]366号各省、自治区、直辖市、新疆生产建设兵团交通运输厅(局、委),天津市、上海市交通运输和港口管理局,各直属海事局:近期,国内外连续发生水上溢油和化
【正】财会[2010]4号各省、自治区、直辖市纪委、监察厅(局)、财政厅(局)、农业厅(局)、民政厅(局):为认真贯彻中央纪委、中组部、民政部等12部委《关于开展村务公开和民主管
矿床位于吐鲁番市西北一带,南东距吐鲁番市约80 km,西距乌鲁木齐市约168 km,临近矿床有孔雀山铜矿、大河沿磁铁矿等。大地构造隶属天山兴蒙造山区(Ⅰ级)-准噶尔-吐哈地块(Ⅱ级)-
【正】琼府[2011]83号各市、县、自治县人民政府,省政府直属各单位:现将《国务院关于清理整顿各类交易场所切实防范金融风险的决定》(国发[2011]38号)转发给你们,请认真贯彻
最近,卫视传媒论坛上热议一款体积小巧的安卓系统IPTV棒,配置强大且功能多多,价格也很大众化,其实这款类似USB接收棒的东西,它是一个独立的实体,并不依赖于电脑才能工作,相反