论文部分内容阅读
多媒体数据获取和存储技术的飞速发展导致了大规模多媒体数据库的出现。多媒体数据的类型多种多样,包括图像、文本、视频、音频等等。对这些多媒体数据进行挖掘分析,能够揭示出很多有意义的信息和知识。在多媒体数据库上的挖掘称为多媒体数据挖掘。图像挖掘是多媒体挖掘的一个重要组成部分,可以提取出那些隐含在图像数据库中的知识或模式。最近,以医学图像为对象的图像挖掘形成了一个重要研究领域——医学图像挖掘。医学图像挖掘是一个多学科交叉的研究方向,涉及到医学、计算机视觉、图像处理、图像检索、机器学习、模式识别、人工智能、数据库和数据挖掘等等。传统数据挖掘算法很少考虑图像数据和医学领域知识,不适于医学图像的数据挖掘。 本文针对医学图像的特点,结合医学领域知识,以脑部医学图像(包括与图像相关的文字)为例,集中研究了医学图像挖掘问题,提出了一系列医学图像关联规则、分类、相似性搜索和聚类等挖掘算法。本文的创新之处主要表现在如下五个方面: 第一,针对已有关联规则算法中存在的只注重优化频繁项集生成过程,不关注规则的生成过程,只注重优化算法的执行速度,不关注挖掘知识的质量,尤其没有考虑应用领域知识提高算法效率和挖掘知识的质量等问题,本文提出了在领域知识指导下的医学图像关联规则挖掘算法。在频繁项集的生成算法中,本文根据领域知识给出了一个约束函数,对同时出现在同一个项集的对象进行了限制,大大减少了频繁项集的生成。在规则生成算法中,本文给出另一个约束函数,对出现在规则前后项的对象进行限制,降低了规则的数量,同时提高了规则的质量。 第二,本文针对医学图像集合以及医学图像与相关文字混合的数据集合,构建了一个通用的分类器。对于医学图像集合,本文提出了关联分类方法。该方法首先应用基于三级粒度表结构的关联规则挖掘算法,将上一级粒度表挖掘得到的结果用于组成下一级粒度表,大大压缩了每次扫描的数据表的规模。由于生成规则的后项限制为类标识,因此降低了挖掘规则的数量。本文将挖掘得到的关联规则作为分类规则构造了关联分类模型,同时给出了一个用于分支选择的判定规则,对关联分类模型无法给出类标识的图像,使用基于神经网络的方法对医学图像进行分类,取得很好的效果。对于图像和文字混合的数据集合,本文在医学领域知识的指导下提出了基于决策树的分类算法,给出了与图像相关的文字的泛化规则和分类度量属性的优先级,避免了选择分类度量属性的复杂计算过程。在复杂混合数据分类过程中,采用联机获取领域知识的方法,增加了分类的准确率和可靠性。 第三,本文针对医学图像的序列形式,提出了图像序列相似模式(Image Sequence Similarity Patterns,记为ISSP)的概念。对于各自包含一个图像序列的两个病患,ISSP是指隐藏在他们中的最长相似连续子模式。这些模式在医学上具有很重要的意义,因为对医生来说两个病患的相似(即图像序列相似)要比两个单一的图像相似更有实际意义。本文设计了基于领域知识的算法来发现每个病患的图像序列模式ISP和病患之间的ISSP,以支持医学图像序列相似性搜索,提高了检索的准确率。 第四,本文以具有诊断意义的关键像素区域(Region of interest,记为ROI)为核心,提出了基于ROI的两级聚类策略对医学图像进行聚类。在医学领域知识的指导下,本文首先从ROI中提取最相关的特征,基于这些特征定义了ROI的相似性度量,提出ROI聚类算法。接下来,本文应用信息检索中的理论定义了ROI在图像中的权值和基于ROI权值的图像相似性度量,给出了图像聚类算法,获得很好的聚类效果。 第五,目前还没有一个完整的针对医学图像挖掘的系统框架。本文提出了一个多级知识驱动的医学图像挖掘框架,由五级组成:像素级挖掘器、ROI级挖掘器、图像级挖掘器、语义级挖掘器和描述性文字挖掘器。每一级的挖掘工作都可以向用户和更高级别的挖掘过程提供知识。这个框架具有较好的通用性。 此外,文中还给出了一个图像预处理算法,可以较好地对CT图像进行ROI提取。实验结果表明该图像预处理算法准确、有效。