论文部分内容阅读
数据分类技术是一种强有力的分析手段,它旨在生成一个分类函数或分类模型,由该模型把数据库中的数据项映射到某一给定类别中。现有的数据分类算法大体可以划分为两大类:积极学习方法与消极学习方法。其中消极学习型中应用最广泛的是最近邻分类算法。由于消极方法使用很多不同的局部线性函数来形成对目标函数隐含的全局逼近,具有比积极方法更丰富的假设空间。因此对消极方法及其应用的研究是一个非常重要的课题。 本文首先分析了K近邻(kNN)算法的理论基础及实现方法,然后分析了kNN算法的相关特征,包括kNN算法的计算复杂度、分类精确度及存储开销等问题。 针对最近邻算法在数据分类中存在的问题,本文提出一种预聚类处理的加权kNN分类算法模型,即通过对训练数据集进行预处理,分析训练数据集的特征,对其进行聚类处理并建立分类模型。实验证明,新的算法不仅能有效缩减原kNN算法在分类过程中的计算开销,而且能够自动确定最佳的k值,且分类精确度较经典的kNN算法有所提高。 为了满足中毒分类系统的需要,本文基于P-tree数据结构提出了一种改进的P-trees kNN分类算法。算法根据不同临床中毒表现对应不同毒物的权值向量构成“中毒表现加权向量表”,并将它作为训练数据集的属性值;构建中毒表现加权向量表的P树,并选择HOBBit距离作为距离度量标准,运用P-trees kNN分类算法进行毒物分类。运用医学临床毒物数据作为实验数据进行实验后得到的实验结果表明该算法能够取得令人满意的分类精确度。 基于相关的算法,并结合中毒诊断及毒物咨询的实际应用需要,一个B/S体系结构的毒物分类系统原型得以实现。该系统提供了相关必要的功能,能作为医学中毒诊断的计算机辅助工具而直接应用于医学界,具有较高的实用价值和良好的市场前景。