论文部分内容阅读
用中医来进行是否有病以及是否有湿证的辨别一直是中医学界所研究和探讨的话题。本文研究健康人、湿证病人和非湿证病人的新鲜尿液的色谱指纹图谱,对这些图谱进行了一系列的研究工作,并取得了一定的成果。 本文首先对色谱法原理及其特点进行探究,根据分析化学中常用的色谱指纹图谱来建立数学模型的方法来分析共有峰与重叠率以及n强峰的实际意义。 其次,本文针对聚类分析的各种算法进行了研究和对比分析。现有的聚类分析算法可划分为:划分方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。 划分方法:给定一个n个对象的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k≤n,如k-平均法,k-中心点算法,它对小数据库有效,计算复杂度为O(n~2)。 层次的方法:对给定数据对象集合进行层次分解。根据层次的分解如何形成,层次的方法又分为凝聚的和分裂的方法,如BIRCH算法。其计算其复杂度为O(n)。 基于密度的方法的主要思想是:只要邻近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。这种方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。如DBSCAN算法,如果用空间索引,DBSCAN的计算复杂度是O(nlogn),否则计算复杂度为O(n~2)。 基于网格的方法:把对象空间量化为有限数目的单元,形成了一个网格结构。所有的聚类操作都在这个网格结构上进行。这种方法的主要优点是处理速度快,其处理时间独立与数据对象的数目,只与量化空间中每一维的单元数目有关。如STING算法,产生聚类的时间复杂度为O(n),但查询处理时间是O(g),g是最低层网格单元的数目,通常g远远小于n。 色谱指纹谱的智能聚类分析在中医湿证辨别方面的研究 基于模型的方法:为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。如COB场王B,计算复杂度会因输入属性的数目和属性值的不同而剧烈变化。 基于模糊集的聚类分析:如模糊聚类的最大树法。 再次。本次研究利用n强峰、共有峰的重叠率和向量夹角正余弦值对样品色谱指纹图谱分别建立了相似度矩阵、相异性矩阵或相似度表,以这些数据模型为基础,分别用了k-平均、模糊聚类的最大树法和改进的COBWEB法进行了聚类研究,得到了不同的效果。其中改进的COB场吧B法利用共有峰的重叠率作为类内相似性(P(再二玲!q)),把谱峰向量夹角的正弦值作为类间相异性(P(再=玲),在处理谱峰数据过程中,减少或剔除了所有样品中共有峰中占总峰面积的较大面积的谱峰在聚类中的权重,以放大大部分相异成分在分类时的比重。通过比较COBWEB法取得了较好的效果。 最后,通过VC++实现聚类算法。同时提出了改善样本采集方法和改进聚类的方法以进一步提高聚类分析在中医辨别有病无病、湿证与非湿证的应用水平。