论文部分内容阅读
粒计算是人工智能领域中的一种新理念和新方法,在数据挖掘中凸显出了极大的优势,主要用于解决海量数据的挖掘和复杂问题的求解。由于经典粗糙集理论受限于等价关系,很难得到满足,难以应用和进一步推广。其中,去掉传递性限制的相容关系对论域的分类一般不能形成论域上的划分而是论域上的覆盖,而这种扩展一般是基于不完备信息系统提出的。本文通过把邻域定义为粒,将知识抽象成论域上的导出划分,由于此导出划分满足等价关系,避免了对问题的具体描述的限制。建立相容粒计算模型,研究如何进行知识粒化、如何进行基于粒的计算以及分类和聚类等粒计算范畴的问题,主要研究工作如下:(1)从集合论的角度,提出了相容粒计算模型和基于邻域系统的上下近似的概念定义,讨论并证明了新定义下粗糙集的相关性质及分类近似的度量。提出了相容知识库和相容信息表的一一对应关系,将Pawlak的完全定理扩展为通用完全定理,并给予了证明。研究了不完备信息系统的粒计算问题,给出了相容信息表的属性约简方法,提出了邻域依赖约束和中心依赖约束的决策系统的规则归纳算法,通过实例说明了算法更具一般性。(2)提出了一种基于粒化的符号表示方法,将信息粒化引入时间序列分析。通过对时间序列分段,计算每段粒化的相似度,为每一段构建信息粒,将谱聚类运用到各段之间相似度矩阵的构造中,实现段的聚类,获得粒的标签。通过在UCR时间序列数据挖掘库中的四个数据集上进行实验,结果表明提出的粒化方法能非常好的运用到隐马尔科夫模型对时间序列建模中,且将提出的半监督方法与监督的方法及自主训练学习方法进行了比较,说明该半监督方法能在较少标记数据的情况下构造更为准确的分类器。(3)提出了基于粗糙K均值聚类的改进线性标签传递算法。通过分析数据的大致分布情况,依据数据是否位于同一簇的上近似或下近似中,得到除数据之间距离以外的更多的信息,在构造图的时候,可以利用这些信息来选择其邻居,用于标签的传递。在UCI数据集上的实验结果显示出其分类的准确率得到了一定的提高。