基于Hadoop的医疗信息存储及检索技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lingfangzhi12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国卫生行业信息化的发展普及,电子病历的应用也越来越广泛。其在临床的初步应用,有利于提高医疗质量,降低服务成本,并且均衡医疗资源。随着医疗卫生信息的海量增长,数据的存储分析处理越来越复杂,传统的医疗存储分析平台已经很难满足当前的需求。  本文利用云存储平台Hadoop,建立了一个集中式的健康信息存储和交换的电子病历综合平台Medoop,该平台支持CDA文档的存储和快速检索。其中,CDA文档的存储建立在HDFS文件系统上,采用合并存储独立索引方案,合并具有内容相关性的文档,并利用文件名映射机制以及基于OSCache的索引缓存机制以提高读效率。CDA文档的检索,针对不同的需求采用不同的策略。对于频繁查询需求,采用提取文档有效特征信息方式,利用HBase保存特征,并使用Lucene建立倒排索引提高检索效率。对于临时查询需求,设计了一个高效的MapReduce算法处理合并的CDA文档提高分析效率。  针对Medoop系统的存储功能测试结果表明,该存储平台方案很好的满足了当前的存储规模,具有很强的可扩展性,解决了海量小文件问题,有效的降低了文件数量,不会导致单点瓶颈,提高存储效率,缓解了数据访问,读写开销也在可接受范围。
其他文献
随着网络通信和多媒体技术的发展,人们对网上音、视频的多媒体教学内容需求日益增长,基于流媒体技术的远程学习是未来人们受教育的新方法。然而流媒体的质量并不能令人满意,主要
随着信息时代的来临,数据的爆炸式增长和人们获取数据的需求方式的灵活多变,都推动了云存储技术和产品的快速发展,与此同时,高质量存储服务也对云存储中的核心存储系统,中心存储,提
图由于可以明确记录社交应用中的个体特征以及个体活动和关系而被广泛使用。由于此类数据包含有个体的信息,为了防止恶意攻击者根据个体特定的好友关系将个体还原得到个体的信
学位
IP多媒体子系统(IMS)是第三代移动通信伙伴组织(3GPP)在Release 5版本标准的基础之上提出的支持IP多媒体业务的子系统。它提供了基于IP协议的下一代多媒体业务平台,能够同时支
在如今的网络应用中,文件的下载是重要的功能之一。传统的下载方式一般是文件由服务器端传送到客户端,由于用户都是从一台服务器下载,而服务器所提供的带宽是有限的。当用户数过
粗糙集(Rough Sets,也称Rough集或粗集)理论是一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法,是一种新的处理模糊和不确定性知识的数学工具。近年来在理论
为了解和控制油藏信息,人们从发现油田开始就从事试井分析工作。试井从狭义上讲即是通过改变油、气、水井的工作制度,以引起油层中压力重新分布,进而测量井底压力随时间的变
视觉跟踪是目前智能化研究的一个重要课题。视觉跟踪可以应用到许多领域中,如自动驾驶、智能监控、人机交互等诸多应用中。视觉跟踪算法通常包含两个模型,即表观模型和运动模型
智能中文输入技术在桌面平台已经得到了广泛的应用,通过研究手机平台汉字输入的特点,本文将智能输入技术引入到手机平台上,并在手机平台上实现了以二元概率为基础的整句预测输出