论文部分内容阅读
近年来随着生物医学工程的迅猛发展,测量技术的提高使得大量的医学信息以电子格式被记录下来,这些信息不仅包括CT影像,X光片,各项生理指标还包括病人的年龄,性别,体重,身高,既往病史等等资料。随着时间的推移,这些医院的数据库信息量不断的膨胀,成倍的增长,数据库技术的出现虽然使得这些信息的存储和检索变的非常容易,但是仍无法改变“数据丰富但知识贫乏”的现象。如何在计算机的帮助下利用这些宝贵的数据为疾病的诊断和治疗提供依据,发现这些数据背后隐藏的有价值的医学信息逐渐受到人们的关注,并成为热点问题。
数据挖掘技术的出现为解决这些问题提供了可能。数据挖掘技术是指从数据库中自动提取那些隐含在其中的,人们事前未知的信息的过程,所提取的信息可以表示为模式,规则,概念等多种形式。目前数据挖掘技术已在疾病诊断,医学图像分析,疾病相关因素分析等领域取得了较好的成果。
聚类是数据挖据中一项重要的技术,边界检测是聚类技术的一个细分,而边界检测技术为医学上疾病的预防与预测提供了可能。本文针对目前现有的聚类边界检测算法经行研究并取得了相应的成果:
(1)针对目前所提出的大部分聚类边界算法不能适用于高维数据的问题进行相关的研究,提出了一种适用于高维数据的基于局部质变因子的聚类边界检测算法(BRINK),该算法使用加权的欧式距离解决现有的大部分聚类边界检测算法不能适用高维数据的问题,利用局部可达密度确定每个对象的局部质变因子,依据每个对象的局部质变因子在聚类的边界对象具有稍大于1的特性来识别聚类的边界,在综合数据集和真实数据集的实验结果表明,该算法能够在含有噪声的,任意形状的多维数据集上有效的检测出聚类的边界。
(2)针对目前还没有专门的医学数据挖掘平台,作者开发了一个专门针对医学数据的挖掘决策平台,该平台通过数据预处理技术,利用BRINK,Band等多种聚类和边界检测算法对真实医学数据集进行聚类和边界的检测,实验结果表明,该平台的某些算法能够有效的完成既定目标,实现对真实医学数据的聚类和聚类边界检测功能。