基于Hadoop海量电子病历的存储方法研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:w11122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术在各个领域的不断渗透,互联网医疗逐渐成为人们生活中的一部分。医疗数据也从各个方面涌现出来,电子病历(Electronic Medical Record,EMR)作为现代医学信息的主要载体,在医疗行业中发挥着重大作用。但随着数据规模的不断增长,其给传统的医疗信息化平台建设带来了巨大的挑战。因此,构建一个高效的平台对海量、具有巨大研究价值的医疗健康数据进行存储和管理,是当前推进智慧医疗发展的重要内容。开源框架Hadoop提供了一个高效、可靠的分布式文件系统HDFS。其强大的存储能力、高吞吐量的设计,非常适合大规模数据集的存储,是海量电子病历存储的最佳平台选择。但其优势在于处理大文件,面对小文件时,会表现出一系列的性能瓶颈。因此,本文在分析国内外相关研究基础之上,结合医疗数据的特性,提出一种EMR小文件的优化存储方案。为实现对海量电子病历的有效管理,本文基于MapReduce并行实现了文本聚类算法,并结合Hash样本抽样和PAM聚类算法对传统的K-means算法进行了优化和改进。针对HDFS存储小文件的问题,本文根据聚类结果,提出了一种先对小文件进行合并,然后再存储的优化方案。同时,为提高EMR小文件的检索效率,本文设计和实现了小文件的预取和缓存机制,有效避免了对HDFS进行频繁地IO操作,节省了小文件的读取时间。最后,本文通过多组对比试验对本方案的可行性和有效性进行了验证。实验结果表明,本文提出的优化存储方案,有效减少了存储EMR文件的个数,缓解了NameNode的内存压力,提高了HDFS读写小文件的效率。实现了对海量电子病历进行高效地存储和管理。
其他文献
随着人类社会的迅速发展,信道传输环境越来越复杂,信号传输过程中由于时间选择性衰落和频率选择性衰落的影响导致信号失真,通信系统的传输性能受到较大影响。因此需要分析信
近些年来,随着计算机视觉的发展,运动目标检测与跟踪技术在军事、交通、环境监控等领域得到了广泛的应用。基于摄像机固定条件下的运动目标检测与跟踪技术已经逐渐成熟。然而
由于科技的高速发展,生物数据正处于爆炸式增长的时代。从复杂、高维的生物数据中挖掘出有价值的信息对于研究问题的本质具有重要意义。特征选择是处理高维生物数据的一种有
基于单词共现模式,传统主题模型能够从长文本数据中提取高质量的主题信息。对于短文本数据,文档的长度较短,单词之间的共现性信息较少,导致传统主题模型并不能很好地工作,无
作为惯性导航系统的重要部件,液浮陀螺仪提供基准坐标系,其性能和精度直接影响系统的性能和应用精度水平,具有精度高、寿命长、可靠性高等优点,在航空、航天、航海等军民领域
国际汉语教育不同于国内的语文教学,汉语教师不仅要提高学生汉语水平,更承担着传播中国文化的重要使命。但由于跨文化教学的桎梏,目前对外汉语教学中语言教学与文化教学存在脱节现象,产生了重语言教学而轻文化教学的现象。本文以中国面食文化作为对泰汉语教学中文化教学的研究窗口,力图展示当前重视文化教学的必要性和复杂性,并分析当前汉语教学中文化教学所面临的困境。针对这种困境,本文以面食文化为切入点,整合已有的汉语
市场经济时代,创新是企业保持竞争力的核心和灵魂。在企业生存环境动态性不断加剧,产品生命周期不断缩短的背景下,破坏性创新作为一种颠覆性的创新方法为新兴企业赶超市场主
伴随着各类用户对超清影像,VR以及3D游戏等图形处理产品卓越性能的追求,人们对图形处理器性能的要求也逐步提高。GPU通常作为一种用于图像运算的微处理器用于PC、游戏机、工
视频序列中的人体行为识别作为机器学习领域的热点和难点之一,已经引起了认知科学、生物学以及计算机科学等各个学科的广泛关注,同时,已成功应用于视频监控、零售分析和医疗
河道航拍图像包含水环境以及沿岸陆地环境等信息,已有的航拍检测方法所产生的结论不能准确、直观的反映场景信息。因而本文提出采用卷积网络自动提取图像特征,通过长短时记忆