多层高维频繁序列挖掘算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yjxff520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对“信息爆炸”的现实,人们所遭遇的窘境是难于从海量数据中迅速地获取有用的信息。数据挖掘技术的产生和发展为人们摆脱这种窘境提供了强有力的工具。数据挖掘本质上说是让数据说明自身的价值,即按照既定的业务目标,对大量的数据进行探索、揭示隐藏在其中的规律并将之模型化的先进、有效的方法。在整个数据挖掘的研究中,算法的研究占有特别重要的地位。这是因为,数据挖掘面对大数据集(又称海量数据),则算法的效率将对其应用起关键作用;同时我们面对的计算机系统在其性能上不能满足对大数据集进行快速处理的要求。所以,对现有的数据挖掘算法进行研究和改进意义重大。考虑到实际的事物数据库中通常包含项目信息和维(地点)信息。有关多层高维频繁序列的知识数据挖掘显得十分必要和具有实用价值。本文对数据挖掘中的序列挖掘算法作了较深入的研究。由于类Apriori算法需要观多次扫描数据库的缺点,降低了算法的效率而且产生的候选集偏多,从而限制了其在商业中的应用;FP-tree算法是对类Apriori算法的一次革命,该算法只需要扫描两次数据库,但由于采用的是统一的支持度,也使该算法丧失一些优势。典型的数据挖掘算法采用的是统一的支持度阀值,这样会造成两种不良的后果:其一,丢失有用的频繁序; 其二,对频繁序列产生有瓶颈效应。本文提出了一种扩展的FP-growth算法来解决多层高维频繁序列的挖掘问题,我们称之为E-FP。为了提高E-FP算法的效率,我们在挖掘过程中采用了可变支持度阀值。我们提出的E-FP算法不仅可以在层内部产生频繁序列而且可以产生跨层的频繁序列,同时我们还考虑了维的信息。实验证明我们的E-FP算法比以往的算法更适合于多层高维频繁序列的挖掘。聚类分析由于其应用较为广泛,已经成为数据挖掘、数理统计等学科的一个活跃的研究领域。聚类技术可以应用于模式识别、数据分析、图像处理、网页挖掘、电子商务等。以往的聚类分析都没有考虑现实世界存在的物体障碍问题从而影响聚类结果。本文对有障碍物体聚类问题进行了初步的探讨,并且提出了一种称之为改进的变色龙(ADP-Chameleon)的算法来解决有障碍物体聚类问题。
其他文献
本文的研究目标是实现从传统IP网向MPLS/VPN网络的迁移。MPLS/VPN网络技术具有广泛的应用前景,本文从一个实际的项目应用出发,针对建设MPLS/VPN网络过程中引发的各种问题,进行了
随着三维模型数据采集工具的不断发展,我们所能采集的模型数据也日益精细,伴随而来的就是模型数据量和复杂程度的急剧增加.如何使用有效的算法来表示三维模型,从而降低三维数
本文以雷达、声纳、软件无线电等电子装备的发展需求为背景,介绍了一种以6片AD公司ADSP21160处理器的单板处理模块构成的并行处理计算机系统。本系统充分利用了ADSP21160支持
复杂背景下的文本定位与提取研究对于今天这样一个信息时代有着重要的意义,它丰富了图像处理理论,在实际应用中诸如Internet环境下对于图像和视频的检索、现代交通管理中对车牌
本论文研究的是强噪声背景下信号流检测。通讯系统中的干扰是不可避免的,尤其是短波通讯,信号更容易受到噪声的干扰。在通讯、广播系统中噪声严重的影响着声音的质量,增加了工作
随着电信业开放局面的逐步形成,电信运营商的经营模式已经从传统的“面向网络”的经营模式逐步转变到“面向客户”的经营模式,如何更好地利用网络资源、提供质量更好的服务、
计算机网络的复杂和异构化,要求网络管理技术提供更加智能、动态和高效的网络控制能力。本文首先分析了网管技术和移动Agent技术的研究现状,总结了当前网络管理系统在性能、
基于Web的远程教育是一种利用网络进行教学的新型网络应用,但是目前大多数基于Web的远程教学系统缺乏智能性和自适应性。而在众多新技术中,Agent技术尤其适合改善远程教学的不
煤矿安全监控系统在防止煤矿发生各类事故中发挥着重要的作用,这个重要作用的发挥是建立在各种传感器均能正常工作的基础上。由于矿井的掘进工作面大多数采用放炮方式掘进,所以
当前石油天然气行业在生产经营过程中对信息技术的应用,处于各地区、各部门独立分散的状况。为节流增效,集成整条供应链的各环节业务,成为油气公司当务之急。有效的解决办法