论文部分内容阅读
医学知识自动获取与发现对医学研究分析具有重要现实意义,是解决“数据丰富,知识贫乏”问题,提高医学工作者知识水平的关键性技术。本文提出了融基于知识编辑器的知识获取系统和基于数据挖掘技术的知识发现系统于一体的医学知识获取与发现系统构架。以糖尿病及并发症为研究实例,构建了一套完整的解决方案。方案包含了知识编辑和知识挖掘技术的各个功能模块;在完成医学数据的冗余性消除、规范化储存以及数据无缝融合与共享等任务后,实现知识归纳、提取及冗余性知识消除与可视化表达等功能。利用“知识编辑”把医学知识整理成系统模型,并把它作为数据挖掘的原始参考。“知识挖掘”和“知识编辑”两种技术相互印证,互为补充构成本论文的目标。本课题工作重点在定性数据的关系挖掘、定量数据的聚类分析以及知识的可视化模型化表达等方面。除了构建医学知识获取与发现系统框架外,讨论了关联模型、Rough信息决策模型等定性数据的定量化挖掘方法以及人工神经网络、模糊聚类分析等定量数据挖掘的技术;改进了数据挖掘理论中的关联模型:针对知识规则的冗余性问题,提出运用集合的Apriori性质,以逆向递归方式消减冗余规则;参照多尺度分析的概念,增加了次级支持度的参数,用条件置信度阈值均衡知识规则的质和量,减少数据挖掘过程中丢弃的知识规则。在知识表达方法中引入图论中的生成树的形式;同时尝试用统一建模语言实现面向计算机的知识表达;探讨模型化解析化方式实现现有文本知识的精化和融合,以糖尿病数据分析为实例,设计并实现基于知识编辑器的交互式知识获取系统。上述工作在糖尿病并发症流行病学分析和糖尿病相关的生理参数的数据挖掘实验中进行了检验。