论文部分内容阅读
健康和疾病防控对每一个人都很重要,而大数据时代的到来,给生命科学和健康领域带来了机遇和挑战。对医疗数据的合理挖掘和使用,将发现临床症状、生活习惯、遗传等等因素和疾病之间的关联和规律。这将在临床辅助决策、疾病预测、个性化治疗等等领域起着决定性作用。Apriori算法是数据挖掘中最经典也是最常用的算法之一,然而对于海量规模的数据,数据挖掘所需要的计算量也迅速膨胀,Apriori算法过程变得十分耗时,很难满足人们的需求。如何加速Apriori算法效率,快速地从海量医疗数据中挖掘出有用的关联规则是一个需要解决的问题。传统的计算机集群技术可以很好的提高算法的效率并且具有较好的可扩展性,但是其过于高昂的成本以及复杂的架构使得其使用范围极其有限。相对于CPU来说,GPU有着更多的执行单元,使得GPU有着高性能的并行计算能力。通过GPU的并行计算能力的使用可以在成本较低的情况下得到较好的加速效果,但是主机中显卡数目的限制使得它可扩展性不高,很难应对应用需求越来越大的计算量。亚马逊云平台允许用户通过低廉的租用成本来使用海量的云计算资源,基于此,提出一种基于亚马逊云平台GPU集群加速的Apriori算法,该方法通过按需计费的方式来使用亚马逊的云计算资源,成本低廉;GPU实例中的G2实例包含高性能的NVIDIA GPU,具有很强的并行计算能力,可以带来良好的加速效果;亚马逊云服务提供弹性的计算能力,具有良好的可扩展性,可以应对应用的弹性需求。通过对Apriori算法的分析和并行化设计,提出了基于AWS云平台GPU集群的Apriori算法。其中解决了AWS中GPU集群的通信设计和搭建、数值型数据离散化和频繁项集的表示、Apriori算法的多节点多线程的并行设计、基于CUDA存储器模型的存储优化设计等一系列问题。通过实验得知,该算法具有较好的加速效果、较高的可扩展性,并且成本更加低廉。利用该算法,初步完成了一个乳腺癌疾病诊断应用,并取得了较好的效果。证实了本算法在大数据医疗中的可行性,为医疗领域中小企业和个人研究人员提供了一种低成本、高效率的解决方案。