论文部分内容阅读
信息革命是一把双刃剑,它促成了信息爆炸与知识稀缺并存的现状。面对信息与知识之间的鸿沟,数据挖掘与知识发现技术应运而生并蓬勃发展,成为沟通信息与知识的桥梁。然而,数据挖掘与知识发现的研究还远非通途:(1)缺乏理论指导“数据挖掘做什么、如何做”是本领域面对的核心问题;(2)包括支持向量机在内的众多数据挖掘算法,面对实际应用中精确性不足与解释性差的问题,进退维谷,难以取舍。
本文的研究面向上述问题,致力于构建支持向量集成核知识发现模型(SVEK-KDM)。该模型从支持向量集成核知识发现系统、支持向量集成核算法、复杂系统知识发现应用研究“三位一体”的角度进行数据挖掘研究。
支持向量集成核知识发现系统是以数据为输入、以知识为输出,具有自相似系统结构与多重闭环反馈调控功能的广义控制系统。(1)从系统复杂性的角度,支持向量集成核知识发现系统将复杂系统的知识发现问题归结为具有自相似结构的多重子系统的集成;(2)从知识流程的角度,支持向量集成核知识发现系统是以“数据-知识”转化为主线的多阶段循环往复、凝练升华的动态过程;(3)从综合集成的角度,支持向量集成核知识发现系统是人机协调的知识管理过程,强调先验知识与专家智慧的集成。
支持向量集成核算法针对支持向量机在可解释能力与新知识发现能力方面的缺陷,以多核学习方法为基础,旨在将支持向量机从“黑箱”式算法转化为透明、高效的数据挖掘工具。支持向量集成核算法适用范围较广、扩展性良好,本文致力于解决的具体问题包括:知识集成、特征选择(包括数据融合)、规则提取等。
特征选择问题是模式分类、规则提取以及结构知识发现等数据挖掘环节的基础。支持向量集成核特征选择算法通过特征系数的引入,将特征选择问题转化为对应于最佳特征子空间的稀疏特征系数的学习(估计)问题。(1)该算法将特征选择过程与模式发现(本文以分类为例)过程融为一体,解决了常用的特征选择算法与模式发现环节分离导致性能差的问题;(2)该算法采用面向稀疏特征系数学习的两阶段交互优化策略,克服了常用的特征子集选择方法在计算上的NP难题特性,改善了计算效率;(3)本文将特征选择问题广义化,推广到多数据源融合等问题的解决。
决策规则提取是提高数据挖掘系统的可理解性与实用性的关键环节。本文以支持向量机的分离超平面和支持向量为突破口,提出以支持向量为生长点的规则提取与排序算法,该算法计算复杂度较低,提取出的规则集采用自然语言形式,简洁易懂、精度良好。
本文将支持向量集成知识发现模型应用于信用评价、医疗诊断、基因芯片分析等领域。(1)支持向量集成知识发现模型能够快速发现信用评价相关属性指标、改善信用评价的效果;(2)在构建医疗诊断辅助决策支持系统过程中,支持向量集成知识发现模型能够同时给出辅助诊断结果、致病的因素以及以语言规则形式描述的各致病因素与疾病的关联,有助于医学辅助决策与疾病科学研究;(3)在基因芯片数据挖掘的应用中,支持向量集成知识发现模型能够克服高维、小样本数据带来的“维数灾难”问题以及高噪声数据带来的低鲁棒性问题,同时实现包括影响疾病的发展的多个关键基因集、基因集之间的相互关联、多异质数据源的集成挖掘、发现未知的疾病子型等在内的多功能。与生物实验方法相比,能够节省大量的时间、经费,且一些知识发现功能处于实验方法的盲区,有助于诊断、药物筛选以及疾病机理的研究。