医学大数据分析中数据粒度尺度对挖掘期望的影响研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:binzhi0du
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:探索数据粒度大小对数据挖掘期望的影响。  方法:  1.数据粒度探索研究:利用某市围产保健监测系统2010年6月30日-2013年6月30日的出生队列共86438例孕妇及新生儿数据,以孕妇孕期增重及其新生儿出生体重数据为变量,分别采用传统的相关分析、斯特吉斯经验公式进行粒度处理后分析两变量的相关性,并用随机数模拟方法验证该相关结果的可靠性,同时采用随机数模拟的方法探索不同样本量条件下粒度处理的适宜方法;  2.实例应用研究:基于南方某市医疗保险管理中心信息系统2003年7月至2010年6月8个年度数据共659114例,结合数据粒度的探索结果,运用曲线回归模型拟合方法、四分位法等方法进行数据的信息挖掘研究。  使用Excel2007、SPSS19.0、R、Matlab等软件进行数据处理和分析。  结果:  1.数据粒度探索研究中,原始数据分析结果显示孕妇孕期增重与新生儿出生体重呈弱相关,相关系数为0.238(P<0.05);增大数据粒度后相关分析结果显示相关系数均大于0.97(P<0.01);随机数验证结果显示,不相关的两变量通过斯特吉斯经验公式增大数据粒度后依然不具有相关性(P>0.05);随机数模拟结果给出了样本量分别为10000、100000、1000000时适宜的粒度处理方法。  2.实例应用结果显示,对于医保大数据,选取合适的粒度后(即将原始数据分为21组后取平均值)发现医疗保险公平性系数(Y)与医疗负担压力系数(X)呈良好的曲线关系,函数为Y(X)=0.4427*exp(-18.72*X)+0.5531*exp(-0.9679*X),校正决定系数为0.9991,拟合度较好。  结论:在医学大数据挖掘中,结合数据特点,选取合适的粒度对数据进行预处理,降低数据的噪声,可以使数据本身的特征突显出来,有利于发现数据隐含的信息。
其他文献
对工业烟尘及废气的监测与控制是环境保护、保障人们身体健康的一个重要手段。本文介绍烟尘浊度监测仪的原理、组成及性能,它不但能对烟尘源的浊度进行连续的监测、自动显示
媒体监测机构“新闻标志运动”称,2011年全球至少106名记者殉职。对媒体工作者而言,墨西哥和巴基斯坦连续两年成为“最危险国家”。106名殉职记者中,12人在墨西哥遇害,可能是
种子是神秘莫测的。隔着种皮,谁也看不到,里面的小生命是蓄势待发,还是想一直睡下去。  我并不是种子心理学家,所以只能跟所有人一样,在期待种子发芽的时光里,心中交替着希望和失望。  去年国庆节的时候,我专程跑到一个花坛那里,采集了一些三叶草的种子。回到家后,我把它们种到一个小盆里。为了让大家一起呵护它们,我还在小花盆上面覆盖了一张小纸条,写着:“种子正睡觉,请您勿打扰。”很可惜,直到现在,已经过去了
期刊
广告效果:91.7%的受众人群表示喜欢百事集团的广告;62.7%的受众人群表示广告改善了他们对百事集团的印象,年龄较小和男性受众最明显;84.5%的受众人群表示该广告增加了他们购
暑假,我们随同三叶草书社的朋友们,来到战国中山王国遗址参观.rn伙伴们兴致勃勃地进入中山国王陵陈列馆,结合文物与图片,聆听馆员有关中山国历史以及发现中山国遗址经过的精
期刊
目的:了解湖北省一般人群心脏瓣膜病的流行病学特征;分析心脏瓣膜病患病的相关危险因素,为心脏瓣膜病的防治工作提供科学的参考依据。  方法:本研究为横断面调查。在湖北省武汉
该课题组一直致力于镉内分泌毒性的研究,并探讨MAPKs在此过程中的作用.肾上腺皮质是机体重要的内分泌组织,我们在国内外首先报道了镉能够诱导豚鼠肾上腺皮质细胞凋亡,JNK可能
今年以来,公积金政策调整频繁,都释放出一个明显政策信号:公积金贷款条件放宽了,贷款额度提高了,贷款审核时间缩短了。点评:公积金来源于个人扣款和单位缴纳,从某种意义讲属
为了提高思想政治理论课教学质量和水平,打造思政“金课”,对于移动泛在环境下高校“形势与政策”课教学改革进行了研究.首先阐述了移动泛在环境的概念,分析了“形势与政策”
自从回到老家,我就发现与我同一年级的小表哥一天到晚就爱玩手机,不爱学习,用手机看动画片、打游戏……看到他这个状态,我忧心忡忡,这样下去怎么能行呢?于是,我决定帮他除掉“手机妖”。  A计划:藏起他的充电器。如果无法给手机补给电量,那么他就玩不起来了。没想到,他发现充电器没了的时候一点儿也不惊讶,而是从容地拿起他妈妈的充电器,充起电来。唉,A计划宣告失败。  B计划:换手机密码。谁知他在发现密码被换
期刊