数据挖掘算法与应用研究

来源 :北京科技大学 | 被引量 : 0次 | 上传用户：ysksy

【摘要】

：

数据挖掘是高级数据分析工具，其任务包括频繁项集挖掘、关联规则挖掘、聚类、分类、特异数据挖掘、时间序列挖掘等。随着网络与计算机的发展，数据的形式更多样化，数量日益增大，这

【作者】

：

李英杰

【机构】

：

北京科技大学

【出处】

：

北京科技大学

【发表日期】

：

2009年期

【关键词】

：

数据挖掘特异数据视频特征关联规则规则分类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是高级数据分析工具，其任务包括频繁项集挖掘、关联规则挖掘、聚类、分类、特异数据挖掘、时间序列挖掘等。随着网络与计算机的发展，数据的形式更多样化，数量日益增大，这对数据挖掘算法的研究和数据挖掘与领域知识技术的融合都提出了新的挑战。　　在分析数据挖掘相关概念和相关技术研究现状基础上，阐述了围绕数据挖掘算法和其在计算机视觉领域应用的研究工作。　　本文主要创新点有：　　 1)提出一种基于聚类的特异数据挖掘算法。特异数据被定义为只被少数对象拥有，并且与其它数据显著不同的数据。特异数据挖掘算法分为基于密度的局部特异数据挖掘和基于距离的全局特异数据挖掘两类。提出的特异数据挖掘算法基于Zhong Ning等人提出的一种基于距离的全局特异数据挖掘的构架。在此算法中，为获得数据集中某一数据的特异因子，需计算其与所有其它数据的距离和。在聚类的基础上，先计算各聚类的特异因子，以区分其中数据成为特异数据的可能性。在计算特异因子时，对可能成为特异数据的聚类中数据，每个数据参与特异因子运算；对不可能成为特异数据的聚类，只在类的层次参与特异因子运算，将运算复杂度从O(N2)降低到O(n2)，其中，N是数据集的势，n是单独参加运算的数据个数与整体参加运算的大类的类个数之和。由于数据集中的大多数数据不可能是特异的，n一般远小于N，从而大大提高了运算效率。实验分析表明，此算法在减少了计算量的同时，挖掘效果还优于相关算法。　　 2)提出了一种新的基于规则分类算法。现有的基于规则的分类算法全部利用了“A→C”规则的特征，忽略了“C→A”规则特征。其中，“A”表示全部或部分条件属性的一些取值组成的集合，“C”表示某个类标号。在逻辑上，“A→C”表示A对C的支持，而“C→A”表示A对C的必要，在分类中如果能利用“C→A”的特征会提高分类精度。编制了两实验方法，方法1只考虑“A→C”的影响，方法2考虑“A→C”和“C→A”的影响，两方法时间复杂度均为线性的。分别在UCI机器学习库的四个分类集上进行了实验测试。结果表明：如果能采集到合适的“C→A”规则特征，并让其在分类中起作用，可以有效提高分类精度。特别地，考虑到不平衡数据集中起决定作用的是支持度小的稀有属性。训练时只采集稀有属性的规则，在网络访问数据集上测试，方法2分类精度很高，ROC曲线优势显著，并且分类器规则集小，训练与测试时间扩展性好。　　 3)提出一种行为识别的视频特征。观察人运动的2D视频，不同的运动行为在一定程度上表现为人身体内、外轮廓的伸缩变化。以每一帧人运动前景的内、外轮廓凸凹形状来表征当前帧的姿态，以姿态的变化来表征运动。为了验证此特征对行为识别的有效性，采用线性判别式方法、支持向量机方法、k最近邻方法、线性参数分类方法等，进行了分类交叉检验、特征值分析，进行了不同粗细划分的特征数据识别精度对比，进行了不同视频分段的识别精度对比，进行了判别式分析与特异分析。结果表明，当视频分段长度达到一定值，区间划分达到一定精细程度时，利用特征数据能有效识别不同的行为，特征数据线性可分性较好，类内与类间距离特性符合分类数据特征，并且特征向量的各分量在分类中均有效。提出的特征直观、易于获取、对镜头远近有鲁棒性，避免了识别与跟踪人身体各部分的困难，优势较明显。

其他文献

带钢热连轧卷取温度控制系统与模型的研究

北京科技大学高效轧制国家工程研究中心负责德盛特钢1150mm带钢热连轧项目自动化控制系统的设计和研发。该系统已于2009年4月20日全线贯通，到目前为止，一直稳定运行。　　本

学位

带钢热连轧卷取温度温度控制系统层流冷却数学模型鱼群神经网络

高阶耦合神经振子群的随机动力学模拟

本文首先运用相变原理，改进了神经振子群的一般模型。改进后的模型突出了高阶耦合在模型中的作用。研究了外刺激和噪声共同作用下，高阶耦合神经振子群的活动。通过考察高阶耦合

学位

神经振子群可变高阶耦合随机动力学模拟化簇状态非同期化神经编码原理

协同量子粒子群优化算法研究及其在生产调度中的应用

随着当代经济高速发展，对企业的要求也逐渐提高，于是，企业管理被提到了一个崭新的高度，而生产管理可谓是企业管理中最重要的一环，同时，生产调度又是生产管理的核心内容和关键问题，于

学位

生产调度协同进化粒子群算法生产管理数学模型

旋转机械故障诊断技术研究

旋转机械是电力、石油化工、冶金、机械、航空以及一些军事业部门的关键设备。在现代生产系统中各设备之间的联系越来越紧密,由某个设备引发的故障可能引起连锁反应,导致整个设备甚至整个生产过程无法正常工作,造成巨大的经济损失。因此采集旋转机械信号,并通过各种分析方法及早地发现故障,以减小损失显得尤为重要。本文提出了一种新的故障检测方法,即等角度转速测试法。采用编码器采集机械的旋转信息,利用频率为50M的高精

学位

旋转机械故障检测FPGASOPC技术倒频谱

人耳识别中的光照问题研究

人耳识别作为一种新的生物识别技术，由于人耳其特殊的生理位置和特征，在近些年来的研究中越来越受到关注。随着国内外各种研究学者的努力，有向实际应用发展的趋势。但是，在人耳识

学位

图像识别人耳检测光照模型图像处理

热连轧液压AGC控制策略研究

本文以北京科技大学高效轧制国家工程研究中心项目——福建德盛镍业有限公司1150mm热连轧厂精轧区8机架的AGC系统为研究背景，根据该厂的实际特点以及轧制数据，选择了适合该厂的

学位

热连轧厚度自动控制神经网络控制AGC控制非线性自适应

热轧带钢卷取张力控制研究

卷取是轧钢的重要工艺过程，在生产中得到广泛重视。热连轧带钢地下卷取机的控制，是整个热连轧系统的最后一个关键环节，其速度和张力的控制精度将直接影响热轧板卷的产品质量，为了

学位

热轧带钢卷取工艺张力控制迭代学习PID控制系统

间歇式聚合反应釜过程控制研究与应用

聚合反应釜是聚合反应工程中的重要装置，其运行质量将直接影响到聚合产品的质量和整个生产过程的安全与稳定。采用间歇方式生产的特点是控制过程不具有连续性。保证聚合釜在工

学位

间歇式聚合反应釜过程控制模糊控制温度控制

基于演化硬件技术的电路自动化设计研究

演化硬件在自修复与容错系统、图像边缘检测、VLSI自动化设计和提高VLSI可靠性上得到广泛的应用，在军事、航空、航天领域具有重要意义，近年来，现场可编程门阵列(Field Programma

学位

演化硬件技术演化计算基因表达式现场可编程门阵列电路自动化设计SLCDM模型

水泥生产分解炉温度过程仿真对象软件的研发

在新型干法水泥生产中,分解炉是预分解系统的核心设备,它承担着燃料燃烧、气固两相换热和碳酸盐分解任务。分解炉的稳定控制对于稳定回转窑的运行、稳定熟料质量具有重要的作

学位

分解炉过程分解炉温度仿真对象支持向量机模型稀疏性

数据挖掘算法与应用研究

与本文相关的学术论文