基于Hadoop平台的海量医疗数据挖掘算法的研究与实现

被引量 : 11次 | 上传用户:haliluluya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究表明,高血压、糖尿病等慢性疾病及其并发症给人类健康和社会发展带来了沉重负担,做好疾病预防和治疗刻不容缓。由于发病机制复杂可变,很难事先做出准确诊断。但其发生和发展有一定规律可循,通过对患者状况的评估,采取有针对性的干预措施,可以有效降低疾病的危害性。因此从预防医学的角度,有必要借助数据挖掘技术建立慢病分类决策模型,辅助医生进行诊断和临床指导。然而,随着医疗数据的爆发式增长,现有的方法和技术都可能不再适用,可能需要考虑借助Hadoop这样的分布式环境及相关技术。总之,利用海量信息为防治慢病提供科学依据,是本论文的研究目的和意义。论文研究工作围绕慢病数据挖掘方案的设计,算法的选择、改进、并行化和性能评估,以及图形用户界面的设计与实现展开。针对高血压和2型糖尿病,依据权威医学指南设计了数据挖掘方案和必要的输入输出参数;选择C4.5决策树算法进行了提高稳定性和扩展性方面的改进和改造,用Java语言分别实现了融合Bagging的BCTree算法和基于MapReduce的MRC4.5算法;结合真实的慢病数据,验证了慢病数据挖掘方案的可行性和算法性能的提升;提出了海量慢病挖掘系统架构,开发了WeHealth医疗数据挖掘平台,完成了功能界面的设计实现、慢病分类决策算法的集成和模型的可视化。论文将复杂的医学诊断、预后评估和临床决策过程转化为清晰的、可编程实现的分类决策流程,所设计的数据挖掘方案的可行性得到验证。和C4.5算法相比,BCTree算法的准确度、敏感度有所提高,而MRC4.5算法在伸缩性和加速比实验中也体现了对海量数据处理的适应性。所开发的数据挖掘客户端软件具有友好的图形用户界面,且能很好地应用于海量医疗数据的挖掘任务。以上慢数据挖掘方案、算法和软件等研究成果进一步完善后,可用于慢病的诊断和临床指导,对慢病防治有一定的意义。
其他文献
在以个性化教学以学为主的学习模式中,学生模型是提供个性化、智能化的基础,提出一种基于推理引擎的个性化教学系统中建立认知学生模型的一种方法,通过对学生模型进行分析和
近年来,随着水污染问题日趋严重,排放到水体中的化学成分越来越多元化,高效、集吸附催化作用为一体、且能作用多元化学成分的功能性材料的开发逐渐开始受到重视。静电纺纳米纤维
<正>美国国家半导体公司(National Semiconductor Corporation)推出12位模拟/数字转换器。这款型号为ADC12D1800的器件能以3.6 GSPS的速度进行采样,速度比最接近的竞争对手快
信息时代的全面到来,使得计算机网络已经成为人们日常生活中极为重要的组成部分,其便利性自然不言而喻。然而因为其本身的安全问题所带来的风险也与日俱增。在网络协议中,许
<正>开展国土法律法规和政策宣传是党和国家宣传国土事业的重要组成部分,是国土部门的义务和重要职责,对于增强社会保护耕地意识,促进和谐社会建设具有十分重要的意义。
罗茨风机是聚乙烯装置输送粒料的关键机组,一旦出现故障,将会造成装置停工。某聚乙烯装置罗茨风机自运行以来,振动速度一直在10mm/s以上,因振速超标,出现了风机壳体、盖板断
经济的高速发展使我国的航空运输业在近三十年一直保持了两位数的增长速度,我国也因此成了世界上民用航空发展最活跃的地方。民航的快速发展给国民经济发展带来了便利和机遇,
近年来智能手机行业发展迅速,尤其是后来谷歌公司推出了基于Linux内核的开放源代码的智能终端操作系统-Android,任何人或组织都可以自由利用Android操作系统,这最终导致了智
超常材料是具有自然材料所不具备的超常物理性质的一类人工电磁材料。由于本身具有损耗大、工作带宽窄等缺点严重限制了其应用研究,尤其是在太赫兹和光波频段。在金属微结构
本文是江苏省陈鹤琴教育思想研究会"十一五"立项课题"幼儿户外活动的家园社区合作共育研究"成果之一。该课题以陈鹤琴教育思想、布朗芬布伦纳的生物生态学理论等为依据,将研