基于多GPU加速的医疗关联规则挖掘及其应用

被引量 : 0次 | 上传用户:porminor100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的不断发展,大数据处理的思想和方法在越来越多的领域中得到了应用。在医疗领域,通过对医疗大数据的挖掘和分析,发现临床症状、生活习惯、遗传因素和实验室数据等元素与疾病之间的关联和演化规律,在临床辅助决策、疾病预测模型、个性化治疗和临床试验分析等领域发挥着重要的作用。Apriori算法凭借其简单高效和适用范围广等特点,成为目前最常用的医疗关联规则挖掘的算法之一,被广泛地应用于癌症,糖尿病和心脑血管疾病等重大疾病的关联规则挖掘问题中。然而随着医疗数据量的日益增长和数据操作复杂程度的不断提高,传统Apriori算法在处理相关问题时,所消耗的时间越来越长,在实际应用中受到了很大的限制。因此,如何使用Apriori算法快速地从海量数据中挖掘出关联规则是一个亟待解决的问题。Google公司提出的MapReduce架构通过构建高性能计算集群可以有效地解决Apriori算法的效率问题,这也是目前应用最广泛的加速方法。然而构建集群的高昂成本,很多研究者及中小型用户都无法承受。因此本文利用GPU(Graphic Processing Unit)具有更大的内存带宽,更多的执行单元以及更低的成本等优势,提出了一种基于多GPU的并行方法对Apriori算法进行加速。这种方法既能得到很好的加速效果,又能大幅度地降低成本,使得中小型机构进行大数据处理成为可能。本文首先使用区间离散化和离散区间整数化等方法对Apriori算法进行了一些修改,使之能够适应数值型数据关联规则挖掘问题。接着本文对Apriori算法进行了并行化处理,在解决了算法数据存储优化、算法负载均衡的数据划分以及针对大数据的动态加载等问题的基础上,通过把每一个事务数据记录分配到GPU众多的线程当中,高效地将Apriori算法中支持计数计算的过程转移到GPU端,充分利用GPU强大的并行运算能力对算法进行加速。通过数据实验验证,本文提出的基于多GPU的并行Apriori算法不仅能够有效减少数据挖掘时间,而且加速效果与GPU数量呈线程增长关系,具有有良好的可扩展性。最后,通过和大连某医院合作,利用本文提出的算法,初步完成了一个乳腺癌疾病诊断系统,并取得了很好的效果。
其他文献
桂林作为国际旅游大都市,加上高铁的快速发展,来桂旅游的人数逐年增多,旅游公司层出不穷,旅游行业的销售人员作为推动桂林旅游业的核心人物,起着关键性的作用,企业必须加大对
随着医疗技术的发展,血型分析作为临床输血的必须检验项目,需要处理的样本量在急剧增加,传统的手工检测方法已经无法满足新时代血液分析工作的要求,对于全自动血液分析系统—
对作为一门“科学”的美学,通常人们把“西方”看成是最初发源地。所以,20世纪的许多亚洲学者,也往往在西学东渐的大趋势下,倾向于按照西方美学传统的基本模式来考察各种美学
随着世界范围内纳米技术研发热潮的兴起,对纳米技术可能引起的伦理问题的关注已经成为国内外学术界讨论的热点问题。自从“纳米伦理”提出已经过去了近十年,然而对于纳米伦理
实行领导干部经济责任审计制度,是我国加强对各级领导干部的任用、管理和监督,提高政府执行力、保障国有资产保值增值、促进党风廉政建设、从源头上预防腐败的一项重要措施。
随着经济的高速发展,电网中非线性负载不断增加,导致电网信号严重畸变,现有的电能计量方法和仪表都不能准确、合理地计量畸变信号条件下的电能。解决这一问题,不仅需要合理的计量
中信海洋直升机股份有限公司(简称中信海直)是中国通用航空领军企业,亚洲最大直升机专业运营商之一,也是中信集团旗下目前中国通用航空业首家且唯一的上市公司。中信海直为全
期刊
信用既是市场经济的基础,也是其灵魂。企业应收账款管理是当今企业管理的核心内容之一,更是企业在市场经济环境下保持竞争优势和可持续发展的必备条件。随着国内企业赊销规模
随着医疗条件以及公众健康意识的不断提高,到医院就诊的人数逐年增加,血型检测作为医院最常见的检测之一,数量也大量增加。传统的血型分析完全依赖手动操作来实现,具有效率低
随着工业的发展,生产规模的不断扩大,市场竞争逐步加剧,降低成本抢占市场成为众多生产厂家的发展之路。压滤机在PTA行业中的试用成功让很多厂家看到了精制单元进行变革的可能性