基于机器学习的乳腺癌风险分析与预测研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zhuangjun_1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
IT行业、计算机技术和人工智能技术在数十年里发展日新月异。目前几年物联网信息产业发展势头迅猛,所有的这些造成了信息量不断的增长。特别是在医疗行业领域,医疗数据爆炸增长,已经建立起来了庞大的医疗数据库,有潜在的实用价值。伴随着以深度学习为代表的大数据分析技术不断发展和成熟,出现了大数据分析技术与医疗健康领域开始深度结合。本论文基于大数据Spark平台,开展了有关乳腺癌领域的疾病预测研究,探寻大数据分析技术在乳腺癌疾病预测上应用。首先,论文使用简单的数据挖掘技术,例如倾向得分匹配,卡方验证,KM生存分析,Cox回归针对临床数据做出了有效地分析。对患者的年龄和手术与否分组,得出患者的生存曲线。发现年龄在存活月数上不是主要因素,影响不大。手术方式起主导作用,尤其是同时切除原发灶和转移灶的患者存活月数最长。其次,本论文通过大数据spark平台和随机森林算法建立了患者呈阴性或阳性的预测分析。实验表明:在乳腺癌致病细胞细胞核的相关参数中,Perimeter、Texture和Concave points影响因子对于乳腺癌的致病影响程度较大,更易导致阳性的发生。本文建立的模型预测精度可达99.76%,精度高、方法可靠,有一定的实际应用价值。最终的实验研究结果对于乳腺癌风险的发现具有一定程度的参考意义。接着,本论文建立了基于svm算法模型的患者呈阴性或阳性的预测分析,得到了87.8%的预测精度。对比两个算法模型预测精度值,发现随机森林算法要优于svm算法。最后,本论文通过基于向量机svm和随机森林算法建立了风险致死模型,研究对比两种算法的优劣。实验结果表明基于向量机的模型预测精度达到了74.6%,基于随机森林算法的模型精度达到了75.5%,同时将两条预测曲线下的面积进行比较随机森林的0.796亦大于SVM的0.615,所以在实际的应用中随机森林算法更具使用价值。
其他文献
子宫内膜异位症(EMT)是生育年龄妇女的常见病,发病率可高达10%~15%,其特征为子宫内膜在子宫腔以外的部位出现﹑生长﹑浸润﹑反复出血,引发疼痛﹑不育及结节包块。其中卵巢子宫内膜异位囊
目的:研究分析弥漫性血管内凝血(DIC)患者血浆D-二聚体水平检测的诊断价值和临床意义。方法:选取笔者所在医院2011年1月-2012年1月收治的69例不同期DIC患者为观察组,同期的50例健
幼儿时期是幼儿身心处于蓬勃发展的时期,对新事物的好奇心非常旺盛,但接受能力却较差。游戏教育是幼儿阶段主要的教学方式,让幼儿通过做游戏的过程,培养幼儿对常识性知识的掌
提出一种改进的权重系数调节算法求解多目标Pareto最优解问题.该算法采用均方差值自适应权重调节法对各目标函数权值进行有效调节,从而提高了GA所得最终种群在多目标最优意义下
胃黏膜脱垂症是临床难治性疾病。何晓晖治疗此病效果明显,其主要经验是首辨虚实两端、重在通腑降逆、燮理脾升胃降、病证结合用药。文中列举3则验案,反映了何晓晖治疗本病的
现代包装外观设计是指包装外观平面设计中的文字、图形、色彩和其相结合的设计。纵观现代包装外观设计,相似或雷同的设计形式比比皆是。而此种情况的产生会令现代包装设计失去
文中分析了国际海运温室气体排放的特征,介绍了国际海运温室气体减排措施,并对未来发展趋势作出了预测。
本文通过对上海等地的实证研究资料的分析 ,指出一般家庭的婚姻暴力具有频率低、偶发性强、程度较轻以及双方互殴的特征 ,但丈夫挥拳的频率明显高于妻子 ,青年男女、农村夫妻
从香蕉根的cDNA文库中获得了一段香蕉钙调蛋白基因的片段,采用RACE技术获得其全长,命名为MaCAM。该基因全长845bp,编码149个氨基酸。生物信息学分析表明,该蛋白属稳定蛋白,其
目的:探讨脑损伤早产儿影像学改变与神经发育预后的相关性,为临床预测脑损伤早产儿神经发育预后提供依据。方法:选择2014年5月~2015年9月于某院小儿神经康复科就诊,且在纠正