论文部分内容阅读
随着互联网技术的高速发展,结合了数据挖掘技术和专家系统技术的智慧医疗相关理论和应用研究引起了研究人员的关注。目前,智慧医疗的相关研究中,支持数据往往是静态的,而医疗知识和规则具有动态变化的特性,由此本文对支持数据进行了动态化研究。智慧医疗中诊断模型或预测模型常常需要用到分类算法。由此,本文针对数据挖掘分类算法(近邻法),进行了一系列的改进,主要包括分类精度的提高;对比样本优质需求的满足;分类时间的收敛;动态性的适应四个方面。同时,为了更好地提高分类精度,本文针对相似性度量算法也进行了优化研究,即将欧式距离和杰卡德距离结合,本文称之为欧式-杰卡德距离(Euclidean-Jaccard Distance,E-JD)。本文对近邻法的改进研究主要有以下五个阶段:1)本文提出了子群近邻方法(Sub-group Nearest Neighbors,SNN),该方法是对近邻法的改进,它能够消除近邻法的界限模糊问题和由对比样本数量不平衡导致的分类错误问题;2)SNN方法需要优质的对比样本集,由此,本文提出了动态子群近邻方法(Dynamic Sub-group Nearest Neighbors,D-SNN);3)D-SNN方法存在随着样本数量增多,耗时增多的问题,因此本文提出了具有时间收敛的动态子群近邻方法(Time-convergent Dynamic Sub-group Nearest Neighbors,TD-SNN);4)TD-SNN方法牺牲了准确率,由此,本文提出了具有容错数的动态子群近邻方法(Fault-tolerant Dynamic Sub-group Nearest Neighbors,FD-SNN),通过容错参数进行调整,达到了时间收敛目的且保证了分类精度;5)为了适应动态性,本文对FD-SNN方法进一步改进,加入了自动赋值法,提出了基于自动边界的具有容错数的动态子群近邻方法(Automatic-boundary Fault-tolerant DynamicSub-group Nearest Neighbor,AFD-SNN)。通过实验可知,本文提出的SNN方法比近邻法更有效,更稳定;FD-SNN方法实现了时间收敛,同时保证了分类精度;AFD-SNN方法分类效果没有达到最优,其自动赋值法需要深入研究;E-JD的分类效果比单一距离的分类效果好,并且E-JD2的分类效果更好;两种数据变换操作的分类效果相差无几。