【摘 要】
:
随着信息技术以及电子病历和病案在医疗机构的应用,医院数据库产生了大量的医学数据.决策树因其分类精度高、计算速度快,且分类规则简单、易于理解,而被广泛应用于医学数据分析中.然而,医学数据固有的高维特征空间和高度特征冗余等特点,使得传统的决策树在医学数据上的分类精度并不理想.基于此,提出了一种融合信息增益比排序分组和分组进化遗传算法的混合式特征选择算法(GRRGA).该算法首先使用基于信息增益比的过滤式算法对原始特征集合进行排序,然后按照密度等分的原理对排序后的特征进行分组,最后再使用分组进化遗传算法对排序后
【机 构】
:
东北大学计算机科学与工程学院,辽宁沈阳110819
论文部分内容阅读
随着信息技术以及电子病历和病案在医疗机构的应用,医院数据库产生了大量的医学数据.决策树因其分类精度高、计算速度快,且分类规则简单、易于理解,而被广泛应用于医学数据分析中.然而,医学数据固有的高维特征空间和高度特征冗余等特点,使得传统的决策树在医学数据上的分类精度并不理想.基于此,提出了一种融合信息增益比排序分组和分组进化遗传算法的混合式特征选择算法(GRRGA).该算法首先使用基于信息增益比的过滤式算法对原始特征集合进行排序,然后按照密度等分的原理对排序后的特征进行分组,最后再使用分组进化遗传算法对排序后的特征组进行遗传搜索.其中,分组进化遗传算法共分为种群内和种群外两种进化方法,并使用两种不同的适应度函数来控制进化过程.此外,针对决策树的不稳定性,提出使用Bagging方法对C4.5算法进行集成学习.实验结果显示,GRRGA算法在6组UCI数据集上的Precision指标均值为87.13%,显著优于传统的特征选择算法.此外,与另外两种分类算法对比可知,GRRGA算法的特征筛选性能依然是最优的.更重要的是,Bagging方法在Arrhythmia和Cancer医学数据集上的Precision指标分别为84.7%和78.7%,充分证明了该算法的实际应用意义.
其他文献
随着大数据时代的到来,如何在保护用户隐私的前提下完成多维类别数据上的频率分布估计问题成为研究热点.已有的工作主要是基于中心化差分隐私模型或本地化差分隐私模型完成安全算法的设计.鉴于上述两种模型在隐私保护程度或发布结果可用性方面的弊端,基于新兴的混洗差分隐私模型,设计用户数据收集策略,进而提供高安全、高可用的频率分布估计服务.考虑到多维类别属性的多维特征以及不同属性上取值域大小不等的异构特点,从扰动算法以及洗牌方式等角度出发,设计了基于单洗牌者以及多洗牌者的数据发布方案ARR-SS和SRR-MS.此外,结合
持久性内存(persist memory,PM)具有非易失、字节寻址、低时延和大容量等特性,打破了传统内外存之间的界限,对现有软件体系结构带来颠覆性影响.但是,当前PM硬件还存在着磨损不均衡、读写不对称等问题,特别是当跨NUMA (non uniform memory access)节点访问PM时,存在着严重的I/O性能衰减问题.提出了一种NUMA感知的PM存储引擎优化设计,并应用到中兴新一代数据库系统GoldenX中,显著降低了数据库系统跨NUMA节点访问持久内存的开销.主要创新点包括:提出了一种DRA
图是描述实体间关系的重要数据结构,被广泛地应用于信息科学、物理学、生物学、环境生态学等重要的科学领域.现如今,随着图数据规模的不断增大,利用分布式系统来处理大图数据已经成为主流,出现了形如Pregel、GraphX、PowerGraph和Gemini等经典的分布式大图数据处理系统.然而,与当前先进的基于单机的图处理系统相比,这些经典的分布式图处理系统在处理真实的图数据时并没有充足或稳定的性能优势.分析了几个有代表性的分布式图处理系统,总结并归纳出了影响其性能的主要挑战.通过对这些挑战的深入研究,提出了RG
新型硬件及其构建的环境改变了传统的计算、存储以及网络体系,也改变了上层软件既往的设计假设,特别是通用处理器和专用加速器组成的异构计算架构,改变了数据库系统的底层框架设计和查询优化的代价模型.数据库系统需要针对新型硬件的特性做出适应性调整,以充分发挥新硬件的潜力.提出一种面向CPU/GPU/FPGA异构计算融合的基于代价的查询优化器Geno,可以灵活地调度并最优化地使用各类资源.主要的贡献是:发现根据系统环境硬件实际能力调整代价参数可以显著地提升查询计划的准确性,并提出一种异构资源代价计算方法和校准工具;通
脾胃病是临床的常见病和多发病,马志杭主任中医师治疗脾胃病注重调气,包括补气、理气等,兼以化湿、温阳、清热等法,脾胃病以此论治,每每奏效.
急腹症是指腹腔内、盆腔和腹膜后组织和脏器发生了急剧的病理变化,从而产生以腹部为主要症状和体征,同时伴有全身反应的临床综合征.临床上常用放射线检查对其进行诊断鉴别:rn一、急性阑尾炎的放射性检查rn1、X 线检查:胸腹部X 透视是阑尾炎的常规检查,可发现阳性体征.急性阑尾炎在腹部平片上也可出现阳性结果:约5-6% 的病人右下腹阑尾部位可见一块或数块结石阴影,1.4% 病人阑尾腔内有积气急性阑尾炎合并弥漫性腹膜炎时,为除外溃疡穿孔、急性绞窄性肠梗阻等立位腹部平片是必要的,如出现膈下游离气体,阑尾炎基本上可以排
目的:探讨集束化护理对尿路结石患者疼痛及复发率的影响.方法:选取2020年1月~2020年10月我院泌尿外科收治的尿路结石患者86例,随机分为观察组和对照组两组,各43例.对照组予常规尿路结石护理干预,观察组则实施集束化护理.采用疼痛护理满意度量表评价并比较两组患者住院期间的疼痛护理满意度,比较两组患者出院6个月内尿路结石的复发情况.结果:实施集束化护理后,观察组患者的疼痛护理满意度显著高于对照组,差异有统计学意义(P<0.05);观察组患者出院6个月内尿路结石的复发率显著低于对照组,差异有统计学意义(P
目的:分析应用7S管理方法对手术室耗材使用情况.方法:通过治疗先后顺序号分98例心外科患者为两组,对照组(n=49)给予常规管理方法及观察组(n=49)给予7S管理方法,对比两组手术室耗材发放状况.结果:观察组按质按量准确及时地发放95.92%及节约件数30.61%均较对照组67.35%、4.08%明显较高,且物品过期,破损现象2.04%较对照组18.37%明显较低(P<0.05).结论:在医院应用7S管理方法对一次性耗材使用情况进行监管,按时、按质、按量完成耗材发放,节约件数,避免物品过期,破损,临床价
目的:探讨小儿肺炎继发腹泻相关因素.方法:随机于2020.02-2021.02整一年期间,将我院收治的肺炎患儿,选取共66例患儿作为本次的研究对象,并根据患儿的继发腹泻症状进行分组,其中有33例患儿发生腹泻为观察组,而另外的33例患儿没有腹泻为对照组,展开两组患儿继发腹泻相关因素的分析.结果:观察组患儿年龄<3岁、住院时间≥7d、未用微生态制剂腹泻发生率相比对照组患儿明显更高,(P<0.05).结论:小儿肺炎继发腹泻,与患儿年龄、应用抗生素的种类、抗生素使用时间、住院天数、早期应用微生态制剂有关,需要临床
大数据时代,数据作为生产要素具有重要价值.因此,通过数据共享实现大规模数据的分析挖掘与利用具有重要意义.然而,近年来日益严格的隐私安全保护要求使得数据分散异质的多方之间不能任意共享数据,加剧了“数据孤岛”问题.数据联邦能让多数据拥有方在保护隐私的前提下完成联合查询.因此,基于“数据不动计算动”的联邦计算思想实现了一种多方安全的关系型数据联邦系统.该系统适配多种关系型数据库,能够为用户屏蔽底层多数据拥有方的数据异构性.系统基于秘密共享实现了支持多方安全的基础操作多方安全算子库,优化了算子的结果重建过程,提高