基于云计算的医疗数据处理技术研究

来源 :贵州大学 | 被引量 : 13次 | 上传用户:shaoqing5320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展和广泛应用,医疗行业信息化进程不断加速,医疗数据量呈现几何倍数增长,据统计,到2020年,医疗数据将急剧增长到35ZB,相当于2009年的44倍。海量的医疗数据和繁杂的数据类型给整个医疗行业存储和处理带来了巨大的压力。与此同时,人们对医疗数据的关注度越来越高,如何有效地存储和处理海量医疗数据,为医生和患者提供高效的数据服务和数据支持已成为亟待解决的问题。云计算的出现为处理海量医疗数据提供了一种新思路。作为云计算技术的重要组成部分,开源框架Hadoop提供了海量数据分布式存储和计算的平台,本文针对海量医疗数据处理和分析中存在的问题,主要研究内容及所做工作包括以下方面:1)研究Hadoop云平台的核心组件HDFS和Map Reduce,针对其存储大量小文件时存在的内存瓶颈以及文件检索效率较低问题,提出了一种适合大量医疗小文件存储的方法。通过引入文件预处理模块,将大量小文件合并成一个序列文件,并将其所对应的信息写入扩展索引,能够有效地减少集群中文件的数量从而提高集群的内存使用;通过使用扩展索引,在确保用户信息安全以及准确定位所要检索文件的情况下,能够有效提高文件的检索速度。通过实验表明,该方法能够有效解决Hadoop存储小文件时存在的问题。2)研究Apriori关联规则算法,分析医疗数据间的关联关系,针对算法存在的中间结果规模过大、扫描时间过长的缺点,对该算法进行了改进并将改进后的算法移植到Hadoop平台。根据映射和规约的思想,提出了Apriori算法项集数字化映射和排序的方法,方便数据传输和项集匹配;采用基模式和生成模式的方法来生成超集,能够提高超集生成效率,同时该方法也能有效地提高剪枝效率。将改进后Apriori算法移植到MapReduce框架,使其能够很好地适应高并发运行环境。通过实验表明,移植后的Apriori算法具有良好的并行扩展能力。3)将医疗小文件存储和医疗数据分析相结合,设计实现了基于Hadoop的医疗数据存储与分析系统,介绍了系统主要功能模块所提供的功能。详细介绍了搭建Hadoop平台的过程,为系统功能实现提供保证。最终完成的系统为用户提供了文件上传、文件查找、疾病及其并发症间关联关系分析用户界面,并通过这些用户界面对系统的相关功能进行了验证,结果证明了该系统相关功能的可靠性。
其他文献
利用皇甫川流域降雨量、水土保持措施数量以及皇甫川把口站年径流量和年输沙量资料,采用水文分析法及水土保持分析法计算近期(1997—2006年)流域水土保持措施的减沙效益。计算
对于流寓飘泊惯了的人,节日本身往往并不重要,竟至忘却,或以为近乎无谓的俗套。能够忘却,是很高的境界;而仅仅视作俗套,并不能保证一定不被套住,便如厌死的人未必不死。以文
对中国《钢结构设计规范》(GB50017-2003)和美国《钢结构协会设计规范》(AISC-2005)中关于节点处连接板的计算方法进行了计算分析和比较,探讨两国规范对于连接板计算的异同点
矿山电力保护装置关系到了整个矿山的生产安全和生产供应,矿山电力被誉为矿山的"血液"。矿山电力保护装置关系着整个矿山是否能够正常的运行,其重要性不言而喻。随着我国矿产
由中国科学院海洋研究所刘建国研究员等完成的“富营养化海水的藻类处理系统及其应用”获国家发明专利授权。富营养化海水的藻类处理系统包括大型经济海藻、水循环设备、搅拌
四川省现有水土流失面积15.65万km2,占全省总面积的32.26%。自1989年国家实施“长治”工程以来,四川各级党委、政府围绕省委、省政府提出的构建长江上游生态屏障的目标,高度
所谓“内存不足”,是指在启动或运行Windows应用程序时,系统报“内存不足”信息。这时应搞清是真正的硬件内存不足还是软件引起的内存不足,但一般以软件引起的内存故障最多。
学前教育作为基础教育的重要部分,对人的成长成才有深远影响。高等师范院校作为学前教育专业人才培养的摇篮,为基础教育﹑学前教育提供高素质﹑高水平的幼教工作者。但目前该专业