dedi-kNN算法在甲状腺疾病预测中的研究

来源 :计算机时代 | 被引量 : 0次 | 上传用户:yoki1120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:由于传统kNN算法在不平衡数据中的分类误差较大,故结合DBscAN算法、熵权法以及密度可达的思想,生成动态k值来改进KNN算法(ded-kNN)。以甲状腺疾病为例用MATLAB编程验证其在疾病预测中的应用,结果表明,改进的算法分类性能得到很大提高。
  关键词:甲状腺疾病;kNN算法;密度可达;疾病预测
  中图分类号:TP301 文献标识码:A 文章编号:1006-8228(2020)07-80-04
  0引言
  甲状腺疾病是一种常见的由促甲状腺激素水平异常引起的内分泌系统疾病,患病人数占20%~50%,在内分泌领域属于仅次于糖尿病的第二大疾病。甲状腺功能的实验室检查主要是通过测定促甲状腺激素(TSH)、三碘甲状腺原氨酸(T3)以及甲状腺激素(T4)等指标来发现并根据临床经验诊断出大部分甲状腺疾病。由此可见,诊断过程掺杂着医生的主观判断,不同的医生的知识储备和临床经验有差异,势必会造成一定的误诊率。本文提出一种ded-KNN算法,能有效克服传统算法在不平衡数据分类中的局限,为医生在甲状腺疾病的诊断划分中提供宝贵建议,对实现计算机辅助医疗诊断有一定的现实意义。
  1传统K-NN算法
  K-NN(K-NearestNeighbor)算法,即K-邻近算法是一种简单有效的惰性分类算法。早在1968年,该算法由Cover和Hart研究提出,其基本思想是:通过选择合适的距离函数分别计算出待测样本与训练集中每一个样本的距离,并选择与待测样本距离最小的K个训练样本进行投票,票数最高的类别作为待测样本的最终预测类别。近年来,基于其简单有效且易于理解的特点,K-NN算法在人脸识别、文本分类还有医学图像识别与分类等热门领域都得到了比较成功的应用。
  传统的K-NN算法在多分类问题上具有独特的优势,但也存在着明显的不足,主要表现为:计算量大,分类速度慢;当样本数据不平衡时,预测结果会偏向于多数类,影响少数类分类的正确率;计算距离时所有属性都是同等重要的,缺乏区分度;K值的选取没有统一标准。
  2改进K-NN算法的研究
  2.1 DBSCAN算法簡介
  DBSCAN(Density-Based Spatial Clustering ofApplication with Noise)算法是一种典型的基于密度的聚类算法,在DBSCAN算法中,有两个人为设定的参数:Eps邻域和邻域内包含的最少对象数MinPts。根据设定的参数,DBSCAN算法通常将数据点分为三类:①核心点:在半径Eps内含有超过MinPts数目的点。②边界点:在半径Eps内的数量小于MinPts,但是落在核心点的领域内的点。③噪声点:既不属于核心点也不属于边界点的点。
  2.2熵权法简介
  熵权法是确定指标权重的一种客观评价法,通过比对待评价对象的各个指标在竞争意义上的激烈程度来确定该指标在决策问题上所能提供的有效信息的多寡,信息量越大,该指标越重要,权重就越大,从而客观的计算出各个指标的权值。具体步骤如下。
  3ded-KNN算法
  本文在研究过程中尝试结合了DBSCAN算法和熵权法,改进后的算法能够减少一定的数据样本并且克服传统算法对属性缺乏区分度的缺点,分类性能有所提高。但由于本文的算法主要针对不平衡数据,期望在精准率和召回率上取得更理想的结果,因此在上述方法的改进基础上,提出了ded-KNN算法。
  3.1基于密度可达的思想生成动态K值
  传统的K-NN算法对测试样本进行分类时,为每个测试样本分配K个最近邻来进行投票选择,大大影响了不平衡数据的准确率。黄雪原在2018年提出了基于密度可达的思想生成动态K值的改进方法嘲,其原理是对传统K-NN算法生成的K个近邻依次做密度可达检测,若通过检验,则将该样本加入新的动态K近邻集,否则视为噪声,将其剔除,最终对动态K近邻集进行投票选择,票数最多的类别为待测样本的最终类别。本文参考其改进原理,为每一个待测样本生成个性化的K值。实验表明,动态的K近邻集能更高效地对不平衡数据进行分类。
  密度可达检测主要依靠样本平均密度以及类内密度实现,下面对这些概念做出详细的解释:
  (1)样本平均密度
  平均样本密度表示数据集中每个样本与其周围样本的距离疏密程度,其计算见式(3):其中m表示每个样本计算平均样本密度的周围样本数,本文研究的数据患病类与非患病类的比例约为l:3,因此设置m为3。dij表示距离第i个样本从小到大排列的样本中,第i个与原来样本之间的距离值。
  (2)类内密度
  类内密度是在样本平均密度的基础上每个类别的类内平均密度,并以此作为后续操作中K个近邻密度可达检测的对应类阈值。其计算见式(4):
  其中ni表示第i个类别所含的样本个数,meanj表示第i个类别中每个样本的平均密度。
  (3)动态K近邻集
  将原始的K近邻中筛选出与其对应类别处在相同样本密度范围的y个近邻组合成每个待测样本的动态K近邻集,并将其余近邻视为噪声然后剔除。
  3.2算法的描述
  根据上述方法的原理,本文结合了DBSCAN算法、熵权法和基于密度可达的思想生成动态K值,改进了传统K-NN算法,即ded-KNN算法。以下描述算法。
  (1)对原始数据进行数据预处理后,利用DBSCAN算法剔除噪声数据。
  (2)将剔除噪声后的数据作为新的原始数据,采用熵权法计算出每一项指标的权重并且对每一条数据即每个患者的甲状腺疾病诊断记录进行加权处理。
  (3)计算出加权后的数据集中每个样本的样本平均密度,并以此为依据计算出各个类别的类内密度。
  (4)根据本文测试数据的不平衡性,筛选每一类疾病样本的1/10作为测试集,剩余作为训练集。   (5)计算测试集中每一个待测样本分别与训练集中每个样本的欧氏距离,并选出K个最小距离的样本组成原始K近邻集。
  (6)以(3)中算出的类内密度作为阈值,来判断K个近邻是否与其对应的类密度可达,是则将该近邻加入动态K近邻集,否则将其视为噪声点剔除。
  (7)对每个待测样本的动态K近邻集进行投票选择,得票最多的类别作为待测样本的类别。
  4实验结果及分析
  本文选用UCI网站的甲状腺数据集,由于大部分数据库中的属性相同,本文将五个小数据集与thyroid0387进行合并整理,得到12944条诊断记录。每条记录包括29个属性值和一个诊断情况,以诊断情况作为分类标准。经过数据预处理,共得到数据12387条,选取每个类别的1/10作为测试集,剩余的为训练集。
  为了区分改进过程中的不同算法,将只用DBSCAN算法剔除噪声点的称为DBSCAN-KNN算法,结合DBSCAN算法和熵权法的稱为DEntropy-KNN算法,在DEntropy-KNN算法基础上综合了基于密度可达思想生成动态K值方法的称为ded-KNN算法。以K=3时为例,分步改进的三种算法与传统K-NN算法对比结果如表1所示。
  为了更直观的看出每种算法的分类性能,接下来将用折线图展示传统K-NN算法与改进过程中的三种K-NN算法在不同K值下准确率、精准率、召回率以及F1值的对比。
  通过图1~图4可以发现,改进的K-NN算法在相同的数据集上较传统的K-NN算法在准确率、精确率、召回率以及F1值上均有一定程度的提高,其中ded-KNN算法的效果最佳,尤其在召回率的提升上效果显著,很好地解决了传统算法对于不平衡数据分类的误差问题。说明本文提出的ded-KNN算法在甲状腺疾病预测上有一定的优势,可以作为一种新的预测模型在临床医疗上加以利用。
  5结束语
  随着数据时代的到来,医疗事业也在全力加速实现数据化,然而现实中的医疗数据往往是分布不均的不平衡数据,这对现有分类算法在不平衡数据的容忍程度上提出了重大的挑战。本文提出的ded-KNN算法在对甲状腺疾病预测中取得了良好的结果,有效克服少数类分类误差的问题,对临床上疾病预测和医生辅助治疗有一定的现实意义。
  尽管本文提出的ded-KNN算法能够有效降低不平衡数据在分类问题上带来的负面影响,但对于分类算法的优化工作而言还存在进步空间,医学数据总是庞大且复杂,因此分类效率是非常重要的,鉴于时间与水平有限,本文剔除噪声后速率提升并不明显。因此在未来对算法的改进工作中可以针对医学数据的特性研究如何快速且有效的找到K个近邻,避免重复计算,减少算法的计算开销。
其他文献
摘 要: 隨着AI技术的快速发展和产业结构的转型升级,职业院校迫切需要开发新的职业教育课程与之相适应。文章分析了AI时代职业院校课程开发所面临的现实挑战,从行业分析、工作分析、典型工作任务确定、学习领域描述、学习情境设计、课业文本设计和课程实施与评价等方面提出职业教育课程开发工学结合的开发范式,并根据该范式,开发云计算课程,以期实现职业院校课程开发的转型发展。  关键词: 工学结合; 职业院校;
期刊
摘要:为了实现Web环境下露头资料信息的共建共享机制,一套完备的用户权限控制模块必不可少。在经典RBAC(Role-based Access Control)模型基础上扩展一种考虑内容保密级别的权限控制模型,文章详细描述了该模块的功能设计和数据库设计,并在ASP.NET MVC框架下完成开发。开放式露头资料信息系统的用户权限控制模块的实现,可为同类互联网信息系统中的权限控制提供通用的解决方案。  
期刊
摘要:传统的协同过滤算法存在着冷启动、数据稀疏性和可扩展性等关键问题,这都使得用户的历史播放列表数据信息难以获得,从而导致推荐电影时精度较低。文章将聚类算法与SVD++模型相结合,通过K-means聚类算法将相似用户根据评分聚类的同时,并利用SVD++模型对聚类后的每个集群中的评分矩阵进行分解,从而解决相似用户查找效率低和评分矩阵数据稀疏性的问题,使得电影推荐系统具有较高的精度。  关键词:推荐系
期刊
摘要:为了进一步提高“安全服务中间件技术”课程的学习体验和学习效果,满足应用型人才培养目标要求,针对课程教学过程中存在的课程内容多、实践能力弱以及师生互动少等问题,尝试基于雨课堂的混合式教学模式改革.结果表明,该教学模式从某种程度上实现了课堂的翻转,能够赋予学生新的学习体验,有效培养学生自主学习能力,切实提高授课质量。  关键词:雨课堂;混合式教学;互联网+;中间件  中图分类号:G642.0 文
期刊
摘要:模糊C均值(FCM)聚类算法可以用来建立样本对类别的不确定性描述。文章提出一种基于拉普拉斯系数优化目标函数的FCM聚类算法。在目标函数中引入拉普拉斯系数,给对象之间的结构信息赋予权重,从而提高算法的质量和效率。通过紧凑性来优化聚类的有效性,并利用最大有效性的方法来提高改进算法的抗噪性能。仿真实验表明,改进的FCM算法与标准算法相比具有更准确的聚类效果,且受噪声影响小,鲁棒性强。  关键词:模
期刊
摘要:微服务的出现大大降低了Web系统的耦合度,但随着微服务的规模不断增大,其运行日志的数量不断增多、内容也更加杂乱,给用户查看日志数据带来困难,因此对微服务的运行日志进行处理具有重要意义。文章介绍的微服务日志系统,采用SpringBoot开发,利用非关系性数据库MongoDB作为日志系统的存储库,提供日志管理的相关接口,从而极大地提高了对日志数据管理和应用的效率。  关键词:微服务;日志数据;查
期刊
摘 要: 孔穴作为纤维板的微观属性,其形状,分布等微观特征信息在一定程度上会影响到纤维板的质量、性能、密度等物理指标。由于纤维板剖面孔穴图像采集时可能受到光线、环境等因素的影响,会在一定程度上造成图像的局部区域存在灰度不均、变异等变质问题。文章充分考虑灰度特征和空间信息的相关性,利用灰熵理论的特性来构造对比度增强指数,进而通过对比度增强函数来调节图像的增强区域。通过实验对比,证明该方法使纤维板孔穴
期刊
摘 要: 对介质进行断层成像重建以及CT系统参数标定问题的进行研究。分析接收信息与射线穿过介质的厚度的关系式。根据模板几何形状的和接收信息,求解探测器单元间距离;在托盘中心建立直角坐标系,计算CT系统旋转中心位置;推导介质厚度与X射线方向角关系式,求得初始X射线与x正半轴夹角。采用FBP算法重建未知介质的截面图像,分析不同滤波以及稀疏角度下重建图像质量。对参数标定的稳定性和精度进行分析,对现有模板
期刊
摘 要: 近年来,民宿业的发展在杭州呈现出新的态势,各种创意的主题民宿满足了社会的多元需求,多样化的经营、投资主体为民宿业的扩张提供了动力。杭州市旅游发展委员会充分发挥引领作用,利用智慧化的手段,为杭州民宿主、杭州旅游者打造了杭州民宿网,为游客提供民宿资讯、民宿预订等服务,为民宿主提供OTA对接、房态管理等线上预订系统。在消费电商化的时代大背景下,这种政府引导民宿产业实现智慧化管理,开创了行业新风
期刊
摘要:目前各个领域面对大数据,需要借助数据可视化技术把大数据转换为动态图形,并利用交互手段帮助理解数据。本文介绍了ECharts可视化技术及交互组件,结合天行数据接口获取实时数据,按照可视化的基本流程,实现基于ECharts的肺炎疫情数据处理与可视化,展示中国各地区疫情数据,让更多的互联网用户把握疫情走向,共抗疫情。关键词:ECharts;肺炎疫情;数据处理;可视化  中图分类号:TP399 文献
期刊