论文部分内容阅读
数据挖掘是高级数据分析工具,其任务包括频繁项集挖掘、关联规则挖掘、聚类、分类、特异数据挖掘、时间序列挖掘等。随着网络与计算机的发展,数据的形式更多样化,数量日益增大,这对数据挖掘算法的研究和数据挖掘与领域知识技术的融合都提出了新的挑战。
在分析数据挖掘相关概念和相关技术研究现状基础上,阐述了围绕数据挖掘算法和其在计算机视觉领域应用的研究工作。
本文主要创新点有:
1)提出一种基于聚类的特异数据挖掘算法。特异数据被定义为只被少数对象拥有,并且与其它数据显著不同的数据。特异数据挖掘算法分为基于密度的局部特异数据挖掘和基于距离的全局特异数据挖掘两类。提出的特异数据挖掘算法基于Zhong Ning等人提出的一种基于距离的全局特异数据挖掘的构架。在此算法中,为获得数据集中某一数据的特异因子,需计算其与所有其它数据的距离和。在聚类的基础上,先计算各聚类的特异因子,以区分其中数据成为特异数据的可能性。在计算特异因子时,对可能成为特异数据的聚类中数据,每个数据参与特异因子运算;对不可能成为特异数据的聚类,只在类的层次参与特异因子运算,将运算复杂度从O(N2)降低到O(n2),其中,N是数据集的势,n是单独参加运算的数据个数与整体参加运算的大类的类个数之和。由于数据集中的大多数数据不可能是特异的,n一般远小于N,从而大大提高了运算效率。实验分析表明,此算法在减少了计算量的同时,挖掘效果还优于相关算法。
2)提出了一种新的基于规则分类算法。现有的基于规则的分类算法全部利用了“A→C”规则的特征,忽略了“C→A”规则特征。其中,“A”表示全部或部分条件属性的一些取值组成的集合,“C”表示某个类标号。在逻辑上,“A→C”表示A对C的支持,而“C→A”表示A对C的必要,在分类中如果能利用“C→A”的特征会提高分类精度。编制了两实验方法,方法1只考虑“A→C”的影响,方法2考虑“A→C”和“C→A”的影响,两方法时间复杂度均为线性的。分别在UCI机器学习库的四个分类集上进行了实验测试。结果表明:如果能采集到合适的“C→A”规则特征,并让其在分类中起作用,可以有效提高分类精度。特别地,考虑到不平衡数据集中起决定作用的是支持度小的稀有属性。训练时只采集稀有属性的规则,在网络访问数据集上测试,方法2分类精度很高,ROC曲线优势显著,并且分类器规则集小,训练与测试时间扩展性好。
3)提出一种行为识别的视频特征。观察人运动的2D视频,不同的运动行为在一定程度上表现为人身体内、外轮廓的伸缩变化。以每一帧人运动前景的内、外轮廓凸凹形状来表征当前帧的姿态,以姿态的变化来表征运动。为了验证此特征对行为识别的有效性,采用线性判别式方法、支持向量机方法、k最近邻方法、线性参数分类方法等,进行了分类交叉检验、特征值分析,进行了不同粗细划分的特征数据识别精度对比,进行了不同视频分段的识别精度对比,进行了判别式分析与特异分析。结果表明,当视频分段长度达到一定值,区间划分达到一定精细程度时,利用特征数据能有效识别不同的行为,特征数据线性可分性较好,类内与类间距离特性符合分类数据特征,并且特征向量的各分量在分类中均有效。提出的特征直观、易于获取、对镜头远近有鲁棒性,避免了识别与跟踪人身体各部分的困难,优势较明显。