论文部分内容阅读
面对“信息爆炸”的现实,人们所遭遇的窘境是难于从海量数据中迅速地获取有用的信息。数据挖掘技术的产生和发展为人们摆脱这种窘境提供了强有力的工具。数据挖掘本质上说是让数据说明自身的价值,即按照既定的业务目标,对大量的数据进行探索、揭示隐藏在其中的规律并将之模型化的先进、有效的方法。在整个数据挖掘的研究中,算法的研究占有特别重要的地位。这是因为,数据挖掘面对大数据集(又称海量数据),则算法的效率将对其应用起关键作用;同时我们面对的计算机系统在其性能上不能满足对大数据集进行快速处理的要求。所以,对现有的数据挖掘算法进行研究和改进意义重大。考虑到实际的事物数据库中通常包含项目信息和维(地点)信息。有关多层高维频繁序列的知识数据挖掘显得十分必要和具有实用价值。本文对数据挖掘中的序列挖掘算法作了较深入的研究。由于类Apriori算法需要观多次扫描数据库的缺点,降低了算法的效率而且产生的候选集偏多,从而限制了其在商业中的应用;FP-tree算法是对类Apriori算法的一次革命,该算法只需要扫描两次数据库,但由于采用的是统一的支持度,也使该算法丧失一些优势。典型的数据挖掘算法采用的是统一的支持度阀值,这样会造成两种不良的后果:其一,丢失有用的频繁序; 其二,对频繁序列产生有瓶颈效应。本文提出了一种扩展的FP-growth算法来解决多层高维频繁序列的挖掘问题,我们称之为E-FP。为了提高E-FP算法的效率,我们在挖掘过程中采用了可变支持度阀值。我们提出的E-FP算法不仅可以在层内部产生频繁序列而且可以产生跨层的频繁序列,同时我们还考虑了维的信息。实验证明我们的E-FP算法比以往的算法更适合于多层高维频繁序列的挖掘。聚类分析由于其应用较为广泛,已经成为数据挖掘、数理统计等学科的一个活跃的研究领域。聚类技术可以应用于模式识别、数据分析、图像处理、网页挖掘、电子商务等。以往的聚类分析都没有考虑现实世界存在的物体障碍问题从而影响聚类结果。本文对有障碍物体聚类问题进行了初步的探讨,并且提出了一种称之为改进的变色龙(ADP-Chameleon)的算法来解决有障碍物体聚类问题。