论文部分内容阅读
中国医学(Traditional Chinese Medicine,TCM)源远流长,对中华民族的繁荣昌盛作了重要贡献。中药(Traditional Chinese Prescription,TCP)是祖国医学的重要组成部份,仅历史文献就记录有十余万首方剂。利用现代信息技术,特别是数据挖掘技术,对中药方剂配伍进行发掘是中医药现代化的重要方法。数据挖掘技术是解决机器学习、模式识别、数据库技术等各种领域中的大型实际应用问题而提出的科学方法的集合,主要是为了从大型数据库中高效地发现隐含在其中的知识或规律,并为人类专家的决策提供支持。 本论文围绕国家项目,着重研究了中药方剂数据挖掘的方法,并用这些方法对中药方剂配伍进行了初分析,主要包含以下工作: 频繁项集挖掘是数据挖掘中一个重要领域。一些频繁项集挖掘方法是基于Apriori方法,采取产生候选集-测试策略且需不断扫描数据库,时间消耗较大。FP-growth是一种不产生候选集的重要的频繁项集挖掘方法。本文在FP-growth基础上提出一个速度更快,更易实现的改进算法FP-growth。新算法采用修改过的FP-tree和头表结构,只产生FP-tree一次,并只在每次递归时产生头表结构。新算法能获得与原算法相同的频繁项集挖掘结果,但仿真实验表明,FP-growth在速度上比FP-growth至少快一倍。 提出基于图的关联规则挖掘算法GRG(Graph based method for association Rules Generation)。频繁闭项集是频繁项集的子集,但包含与频繁项集相同的信息。GRG算法构造关联图代表频繁项之间的频繁关系,并递归地从关联图中产生频繁闭项集。GRG构造频繁项集的格关系图并在它的关系上生成关联规则。GRG算法只扫描数据库两次,不产生候选集,并在速度和伸缩性上有良好性能。 提出基于FP-growth的并行频繁项集挖掘算法PFP-growth(Parallel FP-growth)。PFP-growth算法将挖掘任务均匀地分布在并行处理机上,在挖掘过程中采用一定划分策略以获得处理机间的任务平衡,并采用适当的数据结构减少并行处理机间数据通信量。在国家高性能计算机上的仿真实验证明本算法是一种有效的并行算法。 提出基于SQL粗糙集基本计算方法,包括求等价类,求正域等。重要性评价是药物筛选的一个重要方法。提出粗糙集的重要性评价相对、绝对重要性概念,给出并证明了绝对重要性条件。讨论了基于粗造集和基于频数统计的重要性评价差别。利用基于粗糙集的重要性评价方法对慢性乙肝中药药物类别进行了分析。第11页西南交通大学博士研究生学位论文 介绍了粗糙集数据约简概念,包括相对约简和绝对约简,并将它们统一为差别列表上的集合操作,其中差别列表是从差别矩阵引伸而来的。在此基础上提出基于蚁群系统的启发式数据约简算法。 最后论文介绍了中药方剂研究工作,包括对中药方剂历史和方法特点,中药方剂数据预处理,中药方剂数据库的建立,以及中药方剂分析系统设计。