论文部分内容阅读
电子商务的迅速发展为企业带来了机遇,随着应用的深入,产生了大量的交易活动数据,如何从这海量的信息中获取潜在的能支持企业商业决策的知识,已成为当前电子商务经营管理者首要解决的问题。数据挖掘技术的出现为该问题的解决提供了强大的技术支持。其中,粗糙集较之其他数据挖掘技术,具有不需任何先验知识而以用户提供的大量数据作为唯一的信息源直接进行知识获取的独特优势,近年成为知识获取领域中的研究热点。本文基于前人研究成果及经验,深入研究粗糙集在电子商务交易知识获取中的应用。首先,对电子商务交易知识获取中的数据准备进行研究,包括数据的归纳分类及来源分析、数据预处理一般过程及Web数据预处理,并重点探讨了基于粗糙集的空缺数据预处理及数据离散化预处理方法。然后,对基于粗糙集的分类知识和关联知识获取模型构建进行研究。在分类知识获取建模中,研究以求属性核为起点的前向属性约简算法,针对目前求核属性算法在处理某些冲突信息系统时得不到核属性的缺陷,引入局部熵概念,提出改进的基于差别矩阵的求核算法。针对普遍的基于整个决策表的启发式属性约简算法计算量大的问题,提出改进的基于粗糙熵的属性约简算法。对于规则的评价,引入主观相对权重概念,结合客观的确定性因子(即规则置信度),提出同时考虑主观和客观因素的全面的规则综合权重衡量方法。在关联知识获取建模中,引入粗糙集等价类概念,按交易项是否出现对交易事务数据库进行划分,在生成频繁项集时不用扫描事务数据库而只需对交易项的等价类进行集合运算即可,减少时间开销。同时考虑到实际商业应用需求,引入商品利润约束重新定义最小支持度,以避免出现频度低但利润高的商品项被过滤掉,由此生成的关联规则更具商业价值。最后,以KDD Cup 2000提供的Gazelle.com公司的电子商务交易数据为例,研究这两个知识获取模型在实际电子商务交易知识获取中的应用。