论文部分内容阅读
数据挖掘(Data Mining,简称DM)主要是将众多的、冗杂的、存储在数据库中的数据转化成对人们有使用意义的信息的一系列过程。这些潜藏在数据中的信息大多是不可预测的。DM的聚类算法、分类算法、关联规则等算法在各个领域得到广泛应用,例如本文所提到的在电子商务、教育系统、医学领域中的应用。近些年,将DM技术应用到电子商务领域是倍受大家关注的一个研究方向。这也是本文选取数据挖掘在淘宝客户评价方面的研究与应用为题的原因。课题中主要运用到数据挖掘技术中的关联规则挖掘找出淘宝客户评价中描述产品属性的特征词。本文首先分析淘宝网信誉评价体系特点,了解其评价指标以及每个指标具有的实时性和评分标准,以及店铺综合评分的评判指标和评分计算方法。随后从淘宝网用户具体评价入手,利用ICTCLAS汉语分词系统对SQL Server数据库中的用户评价进行逐句分词处理。随即,运用关联规则挖掘算法找出客户评价中描述产品特性的词汇,并提取出与该产品特性词汇相关联的观点词以及观点词的极性。最后,统计出客户对产品以及与产品相关的服务的满意度,为管理者和经营者提供真实可靠的宝贵信息。客户在评价中提到的描述产品特性的高频词汇可视为客户比较在乎的产品属性,对于经销商来说极具有参考价值。同时这也描述产品特性的词汇也是潜在客户比较关注的方面,可以提高客户购买效率也防止电子商务平台的营销欺骗。在本文的最后一章,我们依据以上几章的理论基础和实际考察。选取Visual Studio(简称VS)作为开发环境,C#语言作为开发语言,在winForm中建造UI界面,对于用户来说具有较强的可用性,系统操作简单,且方便易懂。在系统实现的整个过程中,全方位考虑系统的可用性,整个系统分为五个模块:旗舰店信誉提取、客户评价提取、评价文本分析、分析结果展示和旗舰店信用对比。文本分析模块将分类算法与关联规则算法相结合,找出最优分词和词性标注算法,提高系统的准确率。分析结果展示又分为两个模块,来提高软件的可靠性。在本文最后,文本做出总结并对数据挖掘技术和电子商务的发展做出展望。