论文部分内容阅读
目前,众多的实际应用已证明,数据挖掘在电子商务等方面具有着极高的商业价值和重要研究意义,并且已经被广泛的应用到各个领域。而针对数据挖掘的算法也层出不穷,尤其是关联规则挖掘算法。在挖掘关联规则时,比较常用的经典挖掘算法是Apriori算法。对于Apriori算法,其关键步骤是根据最小支持度获取频繁项集,且在目前大多数算法中,最小支持度的确定一般是根据用户的挖掘经验而被人为进行设定。该做法无疑会给挖掘的结果带来比较大的偏差。有时,该误差甚至是致命性的。因此,如何使最小支持度因被人为设定而产生的误差及其影响最小呢?于是,针对在电子商务应用的过程中所产生的有关问题,本文展开了较为详细的研讨,并通过充分利用各数据挖掘技术等方法加以解决,其具体工作目的、研究思路及结果分为如下几方面:(1)算法设计模式方面。为有效提高算法设计的可扩展性和可维护性,避免算法设计混乱,减少算法设计上的误差因素影响,通过探讨了装饰模式与策略模式及适配器模式的结合,文中提出了三个方案,并对其可行性及性能进行了详细分析与比较。最后,本文选用了效率相对较高的方案三应用到所开发的系统中,并分析实验结果。(2)软件复杂度及AOP (Aspect Oriented Program)方面。为有力控制系统复杂度水平过高,使系统中模块间保持高内聚、低耦合,避免算法的冗余度过高,减轻其他误差因素对算法的影响,本项工作据课题的特点及其需求情况,研讨了软件复杂度的几项重要指标,并希望用AOP达到该部分预期目标。通过使用经济学中的层次分析法,本部分定量分析了AOP对软件复杂度水平降低的重要作用。实验证明,AOP己使系统达到了预期效果。(3)挖掘关联规则算法方面。在挖掘关联规则时,最小支持度的重新确定问题已有通过采用牛顿插值算法进行逆向自学习解决,但因牛顿插值算法在确定点值时需多次对整个事务数据库进行扫描,其所产生的扫描数据量是巨大的。所以,该算法直接影响了整个关联规则挖掘算法的时间复杂度。因此,本部分的主要工作是利用分块算法解决支持度逆向自学习时的高时间复杂度问题,并就点值误差所引起的凸点问题通过借用哈希表冲突处理方法的思想进行解决,使实验结果属于误差可控范围,减小挖掘算法的时间复杂度。实验证明,该改善方案是可行的,有效的。(4)系统开发。为了证明上述各项研讨成果能达到预期水平,本文开发了一个电子商务实验系统。通过实验过程及实验结果数据的对比、分析与绘图,与目前现有方法相比,上述各项改善工作是切实可行的,富有成效的。文尾之处对本论文开展的各项工作加以归纳、总结,对其中的优点希望继续进行优化、完善,而对其中的缺点提出了相应的解决建议或构想,这为下一步的研讨工作提供了很好的方向与动力。