论文部分内容阅读
现实生活中复杂的任务往往存在固有的层次结构。研究如何用计算机模拟人脑对知识的层次处理模型是人工智能发展的重要内在逻辑。其关键问题在于研究信息粒的表示和生成策略,粒度的拓扑结构和不同粒层间信息粒之间的联系。以密度峰值聚类(DPC)算法为研究的突破点是基于其具有的三个重要特征:一是其方法新颖,简洁明快,符合人脑对知识归纳整理的直观性特点,即不需要复杂的处理机制;二是通过算法中的决策图天然的蕴含着粒度中心,容易在信息粒的生成机制上,通过层次聚类方法把具有相似特征的知识归为一类;三是数值化的知识在空间分布形式上具有不确性,而DPC在策略上属于密度聚类,其归纳结果取决于知识关联程度,不受分布形式的影响。鉴于此,研究基于DPC的多粒度知识表示和演化模型对于建立大数据复杂任务的双向认知机制具有重要意义。本文以DPC为基点,研究一种多粒度的知识发现模型,在算法和机制层面做了如下工作:1.在由粗到细,由顶向下的多粒度分解机制上,提出了一种基于DPC的多粒度树形结构(GT),结合人的先验知识,利用决策图将数据集分成由粗到细独立的子集形成不同大小的信息粒,建立了粒层之间的集合归属关系,通过排列组合,可以根据问题的需要选取合适的粒度求解结果。算法最终将DPC从原始的平面聚类投射到多粒度空间上,形成了一种知识的多粒度认知模型。2.进行了DPC的鲁棒性研究,主要包括决策图的局限性研究,归纳了决策图失效的情景。并在此基础上,提出了一种粒度合并策略。在自适应融合参数上,提出了基于数据驱动的自适应合并阈值并给出其理论依据,该方法能在粒度融合中根据迭代层次自动地更新合并阈值,一改传统上阈值需要人为干预的情况。3.研究依据步长迭代的多粒度模型和寻优,探索了基于研究点2的多粒度模型“三重”生成机制,并根据聚类结果出现的频度选取最适合数据集的粒度层次对聚类结果进行优化。