论文部分内容阅读
摘要:从大数据和医药健康问题出发,首先阐述了大数据对医药健康行业的促进作用,介绍了相应的背景知识。据此设计出一个基于大数据的医药健康平台,导入了2017-2018年度部分药品销售数据进行分析及展示了系统效果。最后对医药健康大数据目前存在的问题进行了分析总结。
关键词:大数据;生物医药;健康和医疗;聚类分析
随着移动互联网的普及、各种智能数据采集和数据存储技术的进步,人类活动产生的数据正以惊人的速度增长,这些数据往往难以被传统的管理系统有效的整理,而能在各种各样类型的数据中,能够快速获得有价值信息的大数据技术被人们所熟知起来。大数据是一种以PB为单位的数据集,能够有效且经济地存储、管理、处理的复杂的数据。如今,大数据已经渗透到人们生活与社会发展的各个方面,
随着互联网技术的日新月异,数据采集变得方便,数据分析也变得尤为重要。大数据在生活,工业,医药,体育等众多领域都得到广泛应用。在生物医药领域,大数据发挥的作用也愈发关键。由于我国老龄化人口数量不断增加和慢性病患者数量庞大,导致医药数据量大,类型复杂。医药大数据可提高服务效率.例如历史用药信息可提高医生诊疗速度和准确性。医药大数据也可以减少医疗资源浪费,提高其利用率。例如药品监管可减少药品浪费,减少无效诊疗,医保欺诈。大数据还能够帮助医生更好的了解病人;快速根据病情进行个性化治疗,通过数据预测疾病爆发等等。
1、医药健康大数据平台
为了能够更好的处理医药健康问题,我们根据医药大数据的特点提出了医药健康大数据平台。首先,医院治疗并录入患者的信息,并将数据以安全的信道传输到管理平台,管理者及時反馈并收集用户的信息,由数据分析师进行评估,再传递给私人医生,社区医生等,给患者合理的建议。主要的平台流程如下图所示。
1.1 k-means聚类分析算法
数据采集是数据分析中必不可少的,在本文中,我们采用K-means聚类分析来采集数据,k-meons算法由MacQueen在1967年提出,属于基于距离的聚类方法中的一种基本的划分方法,其函数定义为:
其中,uj是类Wj中数据对象的均值,uj是C个聚类中心,分别代表C个类。K- Means算法首先初始化C个类簇中心,然后计算各个数据对象到聚类中心的距离,并对其分类,把数据对象划分至距离其最近的聚类中心所在类簇中,接着根据所得类簇,继续更新类簇中心,一直迭代到最大次数。或者两次迭代Jc的差值小于某一阈值时,迭代终止,得到最终的聚类结果。由于K-Means算法易于描述,工作效率高。在文本聚类领域,K-Meons算法已经成为基本的算法。
1.2 设计流程
首先,通过sporkstreaming实时从flume获取数据并将数据导人数据库,在ideo集成开发环境下编写spark程序,将程序通过maven打包成jar包提交到spark集群,然后在spark环境下运行jar包来分析数据存人数据库,再通过JavaWeb进行前端布局与连接数据库操作,最后通过echarts的web项目从数据库提取数据,将分析得到的数据以更加直观,科学的形式呈现在系统管理者面前。
1.3 平台效果
由数据提供方提供的‘2017-2018年药品销售数据’截取5000条药品销售情况,进行数值分析并导人平台,在管理者模块中,分析得出的结果以六大板块展示出来分别为:患者购药行为对比、购买某类药物的患者的性别对比、购买某类药物的患者痊愈后回馈某类药物的评分对比各省份的某类药物的销量对比另女患者各个年龄段对比、针对某病症的各类药物销量对比、各省份的某类药物的销量对比和患者痊愈后回馈药物评分对比。由于数据提供方表示不能在作品中出现真实名称,所以我们用某类代替。具体数据如图所示。
2、问题与挑战
通过可视化数据分析,系统管理者能较为直观,清晰的分析数据。尽管如此.在实际应用中还面临许多问题和挑战。
2.1 数据处理
对小数据而言,最基本就是要减少错误,保证质量,但是对于大数据来讲,允许个别不精确的出现是其基本的特征,而非缺点。由于分散在医疗药物信息共享平台下各类医疗机构中的大量异常数据,将这些数据进行采集,整合十分困难。对个人信息来讲,对每一次的历史诊疗都必须准确无误,但是只看重这些高质量精确数据,而忽视那些不精确数据的利用将无法适应大数据时代,所以对数据的处理就显得尤为重要。
2.2 医药数据标准不统一,难于共享
虽然医药大数据已经研发十几年,我国也拥有海量的大数据资源,但现在各大医院的大量信息还没有互通起来,同时缺少有效分类。其中数据信息标准不统一是最大的问题,各家医院的信息标准,接口都不尽相同。有些数据是视频,音频等。非传统结构化的文本,导致难于导入程序中,使医药数据利用率低,难于共享。
2.3 安全隐私缺少保障
数据的安全与隐私缺少保障;同时医药大数据相关领域的法律体系不太完善,医院等医疗机构服务器存人大量个人私密信息,一旦被敌手获取,对个人安全造成严重威胁。
3、结束语
通过我们的大数据平台,管理者和分析师能更为直观的整理分析医药数据。目前大数据在医药方面还处于探索阶段,但是已经展现了颠覆医药行业的潜力。我们要积极解决目前存在的数据处理,标准不统一等有关问题,不断完善数据平台。相信随着大数据的发展,生物医药大数据技术会更加改变人类的生活。
参考文献
[1]马家奇,公共卫生大数据应用叨.中国卫生信息管理杂志,2014.
[2]俞国培,包小源,黄新霆等,医疗健康大数据的种类、性质及有关问题[J].医学信息学杂志,2014, 35(6): 9-12.
[3]张巍,大数据以及火数据处理技术在医院信息化建设中的应用,《科技风》,2018(1):58-58
[4]程方慧,泥瑾,大数据处理技术在医院信息化中的应用,《网络安全技术与应用》,2017(10J:67-67
[5] Carolinas heahhcare system[EB/OL]. http://www.ehoose carolinasheahheare. ore,/, 2015.
[6] Sharma S,Mangat V.Technology and trends to handlebig data: survey. Proceedings of the 5th InternationalConference on Advanced Computing&CommunicationTechnologies(ACCT),Haryana, India, 2015: 266~271
[7] Kelly J. Big data vendor revenue and market forecast.http://www.kdnuggets. com/2014/04/big-data-vendor-analysis-clusters.html, 2014
关键词:大数据;生物医药;健康和医疗;聚类分析
随着移动互联网的普及、各种智能数据采集和数据存储技术的进步,人类活动产生的数据正以惊人的速度增长,这些数据往往难以被传统的管理系统有效的整理,而能在各种各样类型的数据中,能够快速获得有价值信息的大数据技术被人们所熟知起来。大数据是一种以PB为单位的数据集,能够有效且经济地存储、管理、处理的复杂的数据。如今,大数据已经渗透到人们生活与社会发展的各个方面,
随着互联网技术的日新月异,数据采集变得方便,数据分析也变得尤为重要。大数据在生活,工业,医药,体育等众多领域都得到广泛应用。在生物医药领域,大数据发挥的作用也愈发关键。由于我国老龄化人口数量不断增加和慢性病患者数量庞大,导致医药数据量大,类型复杂。医药大数据可提高服务效率.例如历史用药信息可提高医生诊疗速度和准确性。医药大数据也可以减少医疗资源浪费,提高其利用率。例如药品监管可减少药品浪费,减少无效诊疗,医保欺诈。大数据还能够帮助医生更好的了解病人;快速根据病情进行个性化治疗,通过数据预测疾病爆发等等。
1、医药健康大数据平台
为了能够更好的处理医药健康问题,我们根据医药大数据的特点提出了医药健康大数据平台。首先,医院治疗并录入患者的信息,并将数据以安全的信道传输到管理平台,管理者及時反馈并收集用户的信息,由数据分析师进行评估,再传递给私人医生,社区医生等,给患者合理的建议。主要的平台流程如下图所示。
1.1 k-means聚类分析算法
数据采集是数据分析中必不可少的,在本文中,我们采用K-means聚类分析来采集数据,k-meons算法由MacQueen在1967年提出,属于基于距离的聚类方法中的一种基本的划分方法,其函数定义为:
其中,uj是类Wj中数据对象的均值,uj是C个聚类中心,分别代表C个类。K- Means算法首先初始化C个类簇中心,然后计算各个数据对象到聚类中心的距离,并对其分类,把数据对象划分至距离其最近的聚类中心所在类簇中,接着根据所得类簇,继续更新类簇中心,一直迭代到最大次数。或者两次迭代Jc的差值小于某一阈值时,迭代终止,得到最终的聚类结果。由于K-Means算法易于描述,工作效率高。在文本聚类领域,K-Meons算法已经成为基本的算法。
1.2 设计流程
首先,通过sporkstreaming实时从flume获取数据并将数据导人数据库,在ideo集成开发环境下编写spark程序,将程序通过maven打包成jar包提交到spark集群,然后在spark环境下运行jar包来分析数据存人数据库,再通过JavaWeb进行前端布局与连接数据库操作,最后通过echarts的web项目从数据库提取数据,将分析得到的数据以更加直观,科学的形式呈现在系统管理者面前。
1.3 平台效果
由数据提供方提供的‘2017-2018年药品销售数据’截取5000条药品销售情况,进行数值分析并导人平台,在管理者模块中,分析得出的结果以六大板块展示出来分别为:患者购药行为对比、购买某类药物的患者的性别对比、购买某类药物的患者痊愈后回馈某类药物的评分对比各省份的某类药物的销量对比另女患者各个年龄段对比、针对某病症的各类药物销量对比、各省份的某类药物的销量对比和患者痊愈后回馈药物评分对比。由于数据提供方表示不能在作品中出现真实名称,所以我们用某类代替。具体数据如图所示。
2、问题与挑战
通过可视化数据分析,系统管理者能较为直观,清晰的分析数据。尽管如此.在实际应用中还面临许多问题和挑战。
2.1 数据处理
对小数据而言,最基本就是要减少错误,保证质量,但是对于大数据来讲,允许个别不精确的出现是其基本的特征,而非缺点。由于分散在医疗药物信息共享平台下各类医疗机构中的大量异常数据,将这些数据进行采集,整合十分困难。对个人信息来讲,对每一次的历史诊疗都必须准确无误,但是只看重这些高质量精确数据,而忽视那些不精确数据的利用将无法适应大数据时代,所以对数据的处理就显得尤为重要。
2.2 医药数据标准不统一,难于共享
虽然医药大数据已经研发十几年,我国也拥有海量的大数据资源,但现在各大医院的大量信息还没有互通起来,同时缺少有效分类。其中数据信息标准不统一是最大的问题,各家医院的信息标准,接口都不尽相同。有些数据是视频,音频等。非传统结构化的文本,导致难于导入程序中,使医药数据利用率低,难于共享。
2.3 安全隐私缺少保障
数据的安全与隐私缺少保障;同时医药大数据相关领域的法律体系不太完善,医院等医疗机构服务器存人大量个人私密信息,一旦被敌手获取,对个人安全造成严重威胁。
3、结束语
通过我们的大数据平台,管理者和分析师能更为直观的整理分析医药数据。目前大数据在医药方面还处于探索阶段,但是已经展现了颠覆医药行业的潜力。我们要积极解决目前存在的数据处理,标准不统一等有关问题,不断完善数据平台。相信随着大数据的发展,生物医药大数据技术会更加改变人类的生活。
参考文献
[1]马家奇,公共卫生大数据应用叨.中国卫生信息管理杂志,2014.
[2]俞国培,包小源,黄新霆等,医疗健康大数据的种类、性质及有关问题[J].医学信息学杂志,2014, 35(6): 9-12.
[3]张巍,大数据以及火数据处理技术在医院信息化建设中的应用,《科技风》,2018(1):58-58
[4]程方慧,泥瑾,大数据处理技术在医院信息化中的应用,《网络安全技术与应用》,2017(10J:67-67
[5] Carolinas heahhcare system[EB/OL]. http://www.ehoose carolinasheahheare. ore,/, 2015.
[6] Sharma S,Mangat V.Technology and trends to handlebig data: survey. Proceedings of the 5th InternationalConference on Advanced Computing&CommunicationTechnologies(ACCT),Haryana, India, 2015: 266~271
[7] Kelly J. Big data vendor revenue and market forecast.http://www.kdnuggets. com/2014/04/big-data-vendor-analysis-clusters.html, 2014