基于改进剪枝算法的中文网络产品评论特征提取及聚类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:clgg1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,电子商务网站中收集到的消费者对网络商品的评论越来越多。对网络商品评论信息进行深度挖掘可以帮助消费者做出可靠决策,也可以为企业产品的质量改进提供有价值的反馈信息。然而由于产品评论的数量庞大,信息内容呈现无结构化的特点,造成很难挖掘出评论中消费者及企业所关心的信息。如何使得用户对海量网络商品的评论信息进行科学化决策和精细化管理已经成为评论挖掘领域的热门话题。针对中文网络产品评论信息,基于国内外相关研究及结合目前常用的自然语言处理技术、评论挖掘、数据挖掘等相关技术,对中文网络产品特征提取、过滤及聚类方法进行相关研究,以下为本文研究的主要内容:1.本文通过对传统关联规则算法的研究,首先使用关联规则分类方法改进的Apriori算法对中文产品候选特征进行提取,并结合单字词规则及邻近剪枝规则对提取的候选特征进行初步修剪。2.根据中文频繁项名词和非特征项的名词规则及基于网络搜索引擎的PMI算法对修剪后的产品特征集进行过滤。3.通过对基于HowNet的语义相似度方法进行研究分析,并结合产品评论信息中产品特征与观点词共现的特点,本文对二者方法进行加权求和,提出一种新的计算特征之间的语义相似度算法。并对提取出的产品特征进行归类,在传统K-means聚类算法的基础上,提出一种新的聚类算法对产品特征进行聚类分析。最后对聚类结果的应用进行了讲述。为了验证本文对评论挖掘的研究方法是否有效,对中文网络产品的特征提取、语义相似度计算、聚类效果三个方面,本文进行了实验验证,以从互联网下载的手机评论语料作为实验对象,数据实验结果验证了该方法具有较高的准确率和综合值。
其他文献
铝电解电容器的大量应用使电子铝箔产品处于供不应求状况。实践证明,以“市场换技术”的模式在提高内资电子铝箔企业的技术进步和产业成长的策略成效不大。国人必须转变思路,
现代服务业的迅速崛起已经成为当前世界经济发展最重要的特征之一,服务贸易在一国开展国际经贸合作中的地位也日益凸显,中俄两国作为世界经济大国,两国的服务贸易发展不仅对
4年间制售冰毒2吨多,还从事海洛因、摇头丸、氯胺酮、麻黄素等各色毒品和制毒原料的制造和买卖,被称为“十全毒贩”的广州男子刘法伟等14名被告近日在广州市中院接受一审宣判
<正>教师质量对职业教育质量的影响不言而喻,而结构科学、设置合理的教师培养培训体系是保障教师质量的前提条件,对师资队伍的建设发挥着重要作用。由于中职教师既需掌握专业
三农问题是国家经济发展中所关注的一大问题,该问题的良好解决对于我国经济的发展至关重要。本文对我国农业龙头企业之一,即三全食品股份有限公司(简称"三全食品公司")的年报
芒果TV网络综艺节目《明星大侦探》的创意源自韩国JTBC台的《犯罪现场》,其节目策划的特点是:主题设置的创新性、剧情设置的巧妙性、环节设置的互动性、节目思想上的正能量传
随着网络的发展和关系营销研究的逐渐深入,单纯的线下互动行为已经不能满足当下白热化的竞争,虚拟社区应运而生。作者在前人研究的基础上,对虚拟品牌社群互动的内涵、维度及
互联网金融发展的核心在于征信。然而大数据时代背景下的互联网征信在信息采集、信息共享和监管等方面存在着诸多问题,使得互联网金融消费者的隐私权保护面临着极大的风险。
随着互联网的发展,网络娱乐新闻逐渐成为国内外学者研究的重点,同时近两年来亲子节目的热播又使网络娱乐新闻的内容发生重大改变,即关于童星的娱乐新闻越来越多,而这些新闻中
本文主张高校少数民族预科汉语教学应包括口语教学,以交际为目的,注意汉语书面语和口语教学的有机结合,其中口语教学应是口头交际过程和言语实践过程的结合,教学内容应注重实