基于观点挖掘的中文商品属性词抽取和聚类研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:windFWF1992
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,大量电商平台、社会媒体迅速进入到人们的生活和工作中,大量繁杂多样、内容丰富的观点信息涌现在用户眼前,对这些观点信息进行深度地挖掘、有效地分析,帮助用户进行决策,已经成为产业界的迫切需求。商品评论挖掘是观点挖掘应用的延伸,对消费者快速做出正确的购买决策,商家及时更改宣传方案和销售决策等都具有重要的研究意义。但是,当前中文商品评论挖掘还未达到英文商品评论挖掘的成熟度,本文针对中文商品属性抽取准确度不高、聚类结果不准确等问题展开研究。首先,利用爬虫程序在购物网站上爬取中文商品评价数据,进行数据预处理。提出一种基于商品属性候选词和情感词位置关系的AELSA商品属性词筛选算法,通过对6万多条中文手机评论进行实验分析,找出抽取结果最优时商品属性词和情感词的距离取值,将AELSA商品属性词筛选算法的抽取结果与OPEN框架抽取结果的各项性能指标作对比和分析,验证AELSA商品属性词筛选算法的有效性。其次,针对不同长度的商品属性词语和词组提出两种聚类方法:SMC方法和WMSA方法。针对词语的属性词提出一种基于How Net语义词典和特定属性之间的must-link、cannot-link约束关系的SMC聚类方法;针对较长的属性词组提出一种基于位置权重的简单截断相似度计算的WMSA聚类方法。并将两个聚类算法结合起来对商品属性数据进行层级聚类,形成了SMC_WMSA聚类算法。利用手机属性数据对SMC_WMSA聚类算法进行验证,采用聚类的纯度指标分析实验结果,验证SMC_WMSA聚类算法的有效性。最后,利用HowNet词典和台湾大学的情感极性词典NTUSD相结合的基于词典的方式对每个属性类簇进行情感强度的计算,生成带有属性类簇对应情感强度值的商品实体—属性—情感树的结构图,并以手机数据为例生成商品实体—属性—情感树结构图进行展示,让用户可以直观看到每个商品属性类簇的具体情感词和情感强度值。
其他文献
制造业是国民经济的主体,是立国之本、兴国之器、强国之基。智能制造是落实我国制造强国战略的重要举措,也是中国制造2025的主攻方向。在智能制造的推进过程中,生产制造执行系统越来越多的受到企业的青睐,但生产制造执行系统的建设却是一个复杂的过程,其与企业的市场营销模式、产品定位、生产组织模式、工厂设备等各项因素息息相关,与其它系统信息交互紧密、关系错综复杂,因此如何建立一套高效且适用的生产制造执行系统,
随着道路交通的持续发展,机动车保有量也在日益增长,与此同时,机动车辆的违法行为发生频率也呈现出上升趋势,交通违法行为逐渐成为影响公共交通安全的主要因素。违法行为造成了道路交通秩序的混乱,为了解决此类问题,本文结合目标检测相关算法,以大量存在违法行为的卡口图片为基础进行分析,整个违法行为的识别由污损遮挡号牌识别和驾驶过程中妨碍安全驾驶识别两部分组成。首先,针对违法行为中的污损遮挡号牌问题,使用YOL
悬挂系统对应急救援车辆的行驶平顺性具有重要影响,但目前主动悬挂系统的研究主要在寻求更有效的控制策略上,忽略了作动器摩擦力对悬挂系统的影响,导致悬挂控制理论与实际应用存在偏差。本文结合国家重点研发计划“高机动应急救援车辆(含消防车辆)专用底盘及悬挂关键技术研究”(编号:2016YFC0802902),以提高三轴应急救援车辆行驶平顺性为目的,针对主动悬挂作动器摩擦力补偿控制技术进行深入研究,以实现对作
Android系统的开源特性使其快速发展的同时,也给Android应用带来了巨大的安全隐患。研究Android应用安全加固方法的目的,在于从破解时间、破解难度两个方面增加应用破解所要付出的代价。本文围绕如何在不明显影响Android应用性能的前提下,实现加固后的Android应用同时具有抵御静态攻击、动态攻击以及重打包攻击的能力这一问题,展开了如下研究工作。首先,在分析主流攻击方式的基本原理及其相
随着信息技术的飞速发展,网络上的信息出现爆炸式增长,如何有效地利用数据中的信息完成对用户的推荐成为网络生态中的研究重点。而在商家评论网站中的评价数据中,隐含着商家属性和用户情感,现有的商家个性化推荐主要依据近邻用户的评分信息产生推荐,无法细粒度的探究用户偏好,忽略了商家及用户在属性层的情感评分。对此,本文提出一种基于多属性矩阵构建的商家推荐方法。首先,针对现有研究商家及用户在属性层面的属性细粒度情
推荐系统的研究一直是数据挖掘中的热点,在解决信息过载方面起到了重要作用。其中协同过滤是相对成熟的推荐技术,但目前协同过滤算法仍存在数据稀疏性、冷启动以及隐式信息挖掘不充分等问题。本文通过对项目隐式信息的挖掘以及融合多因素来改善协同过滤过程进而影响推荐准确度,缓解数据稀疏性。首先,本文对常用的推荐算法进行描述,详细介绍了协同过滤中矩阵分解方法的原理及优缺点,分析了针对项目隐式反馈和协同过滤算法过程的
随着地理定位技术和基于位置服务的发展,产生了大量的轨迹数据,带有活动信息的轨迹更是引起了广泛的关注。基于范围的活动轨迹搜索,给定一个查询区域和一组关键字,从轨迹数据集中检索出通过该区域并且满足关键字的轨迹。由于返回的轨迹旅行代价过高,或者是该轨迹不够流行,这使得找到的轨迹不能使用户满意。因此,为了满足用户的需求,本文考虑了关键字的流行度以及轨迹可拼接,提出一种新的查询,在满足给定区域以及关键字文本
篮球项目中,运动员弹跳能力是专项身体素质中的重要一环,是比赛中争抢篮板、防守中封盖对手以及跳投的专项素质保障。但目前大多数基层教练员,将篮球项目中的弹跳训练等同于田径训练,没有与项目特征结合。虽然在此训练下,会使球员弹跳能力得以提高,但训练针对性不强,导致训练效率受到一定影响。因此,本文通过对中学篮球运动员的专项弹跳能力训练实验教学进行研究,探索青少年篮球基础训练阶段专项弹跳能力的发展路径。
期刊
业务流程的执行产生了大量事件日志,为业务流程挖掘提供了重要依据。流程预测是业务流程挖掘中的一个热点问题,目标是对当前正在执行的流程实例进行分析,推断出其未来可能的执行状态。业务流程预测包括活动预测,时间预测以及违规预测等,预测方法主要分为基于模型的预测和基于深度学习的预测两大类。基于深度学习的预测近年来大多是在LSTM神经网络模型的基础上进行改进,对于数据的编码方式以及活动序列的训练还存在不足,没
从广西各地患禽巴氏杆菌病急性死亡的鸡、鸭肝脏分离出56株禽巴氏杆菌强毒株,经培养特性和生化特性试验鉴定,从中选出15株典型禽巴氏杆菌菌株。Carter荚膜抗原分型鉴定,15株菌均为荚膜A型,间接血凝滴度为1∶160~1∶640。通过毒力和免疫原性测定,从中选择毒力较强、免疫原性较好的B25、B26、B273菌株进行人工致弱,其中B26菌株在0.1%裂解全血马丁汤中,通过物理诱变方法致弱,即在传代过