聚类算法研究及在评论挖掘中的应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:po54321s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术及信息技术的不断进步,电子商务的应用程度越来越高,Web2.0技术的进步在很大程度上对人们的物质生活和价值观念等都产生了非常大的影响,特别是在电子商务和大数据、海量数据的大背景下,网络购物、网络消费、网络交换等新技术新方法使更多的人感受到了电子商务带来的便利性和快捷性,对人们的生产生活产生了不可估量的巨大影响,然而也正是由于随着大数据和海量数据的到来,纷繁复杂的产品无所不有,更让人应接不暇,客户或消费者如何选择满意且更具有性价比的产品,成为人们越来越关注的焦点,因而通过对产品评论挖掘的研究从中获得更具价值的信息,变得越来越重要。在电子商务越来越普及的条件下,对于不同的产品或同一种产品,客户或购物者或消费者选择时对于产品的评价信息越来越重视。评论挖掘技术属于数据挖掘研究的重要方面,伴随着机器学习、信息检索、统计自然语言处理、数据挖掘等技术的发展,评论挖掘也成了目前研究的重点之一,并有许多研究成果己被广泛应用于社会实践中。本文主要是针对电子商务下酒店评论提出的一种广泛应用于众多产品评论挖掘的方法。众所周知,产品评论的信息主要是反应客户或消费者对产品在某种程度上的满意度,从而对商家的产品有更准确的定位,更方便人们对产品的认知。因此,产品评论挖掘主要是从客户的角度考虑,提取出简短而更具说服性的评论信息,使客户选择产品时,能对产品的质量、服务、整体的效果等多方面有更充分的了解,作为选择产品时的参考依据。通过对产品评论挖掘关键技术的研究,本文提出的评论挖掘方法主要涉及到以下几个部分,首先,需要从互联网中获取大量的有价值评论并对其加工处理;其次,对处理后的评论进行关键字或短语抽取,抽取的内容尽量保证原有的语义;再次,通过聚类或分类算法对评论中的不同属性进行相关内容的划分;最后,根据构建情感词库、否定词词库及情感计算方法对相应的属性或整体进行情感满意度计算。本论文利用的评论数据来源于酒店预订部分的评论,通过对评论数据的详细分析以及对其他评论数据挖掘的研究,本文提出的方法通过实验进行了验证,经实验结果表明,该方法不仅合理有效、具有良好的可行性,而且也有较好的应用前景。
其他文献
无线自组织(Ad hoc)网络是一种无需基础设施且具有自组织能力的分布式临时自治网络系统。无线Ad hoc网络的易部署、终端可移动、灵活便捷以及可扩展等特性使之具有广阔的应用
本文首先分析配电自动化系统和配变终端国内外研究现状,针对国内现有配变终端存在问题,在对配变终端及相关国家标准充分调研基础上,确定配变终端基本功能及技术指标,借鉴当前国内
更快速地渲染出更具有真实感的人脸,对于虚拟现实,影视娱乐,医学仿真,信息安全等领域都有着重要的意义。因此,实时真实感人脸的渲染技术在应用领域中拥有广阔的前景,其也一直
随着网络社交平台的崛起,海量主观性信息迅速涌现。鉴于这些主观数据往往具有巨大的潜在价值,情感分类、观点挖掘等领域逐渐引起了广泛的关注。然而传统的情感分类具有领域特
微博用户网络是一个涉及普通用户、名人等多类用户要素以及其间关注、推文、转发、评论等多种行为关系的复杂网络,以往对微博用户网络的研究通常仅对一种关系进行讨论,忽略了
随着人们对高速高质量数据传输,以及高容量、大带宽需求的日益增加,每个超级通道以每秒太比特的速率传输成为发展趋势,因此,基于波分复用(WDM)的光网络成为研究热点。在基于波分
光通信网中的传送网和接入网这两个领域目前正朝着高速大容量方向发展,在有限带宽的情况下如何提高通信容量越来越受到关注。偏振复用可以用来提高单根光纤的通信容量,而单载波
为了充分利用彩色成像丰富的纹理细节,及热红外成像在夜视和不良天气条件下的稳定性,应用数据融合的理论和方法,综合热红外与可见光传感器的互补信息,进行图像目标检测。该方法能
生物医学文本中隐含着不断更新的生物医学知识,从这些知识中可以发现基因同疾病之间的关系、基因同蛋白质之间的关系。因此,准确的进行基因名识别是抽取出这些关系的重要前提
随着数据挖掘技术的快速发展,聚类分析技术的应用越来越受到人们的广泛关注。聚类分析是无监督学习的过程,根据数据对象的相似性聚集成簇,从而发现数据集中数据的分布规律和发展