基于XGBoost算法的前列腺癌风险诊断预测研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:jocelynsusan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前临床早期筛查前列腺肿瘤主要依靠对前列腺特异性抗原(PSA)进行检查诊断,但是通过PSA诊断前列腺肿瘤的灵敏度和特异度不是很理想。本文采用机器学习算法和数据挖掘方法,通过对临床医学科学数据中心(北京301医院)的前列腺肿瘤数据集进行分析研究,联合PSA和血常规、生化检查、尿常规等检查指标,筛选前列腺肿瘤风险因素。首先通过随机森林模型对数据进行缺失值处理,通过统计分析方法进行单特征分析以及联合特征分析,利用统计分析的结果组合出有临床意义的特征来提高模型的泛化能力;通过皮尔森相关系数选择与目标相关性大的特征来构建模型,同时,通过SMOTE算法对数据集进行上采样用以解决样品不平衡的问题;再将预处理过的样本集作为预测模型的训练和测试样本。预测模型分别采用基于随机森林算法、AdaBoost算法、XGBoost算法构建的模型。本文通过实验对比来优选预测模型,通过召回率、精确率、f1-score、ROC曲线等指标进行评估;根据实验结果和混淆矩阵进行综合评估,构建基于XGBoost算法的前列腺肿瘤诊断预测模型,其召回率、精确率为0.98,0.91,给出PSA(游离)的比率、PSA(总)、无机磷、PSA(游离)、载脂蛋白E的比率等特征的重要性以及临床意义,通过实验对比探究不同输入特征数量对于基于XGBoost预测模型指标的变化情况,从而为优化临床诊断数据提供科学依据。本文提出基于SMOTE处理的XGBoost模型应用于前列腺癌的诊断,通过对比实验,挖掘出诊断前列腺癌的特征重要性以及临床意义。
其他文献
目的探讨奥美拉唑对哮喘病人应用糖皮质激素所致胃肠道反应的预防效果。方法采用随机对照研究方法,比较治疗组应用奥美拉唑与对照组应用H2受体阻滞剂雷尼替丁和安慰剂组应用肌
地处莱茵河以南的意大利凭借着其艺术的魅力影响着世界的每个角落。从欧洲各地的天主教堂到莫斯科的克里姆林宫,从纽约第五大道上的精品时装到北京王府井商业街上的琳琅满目的
为研究大鼠促卵泡素(FSH)分泌的受体后信号转导机制,将GTH细胞用PMA或H7处理后,用GnRH脉冲刺激,再用实时荧光定量PCR方法测定细胞FSH-βmRNA表达的Ct值,并与空白对照组比较。结
目前一些大型化妆品公司都开发销售有自己品牌的花果茶;比如艾丽素、植丽素、雅芳等。据这些公司产品开发有关方面的人士介绍,花果茶包括花草茶和花果茶:花草茶是指,将可食植物的
研究脑炎原虫病兔外周免疫器官的形态学变化,采集20只病兔和12只对照兔的淋巴结、脾脏和圆小囊,通过临床检查,病理剖检,病理切片的HE染色、吉姆萨染色和免疫组织化学染色进行
维甲酸诱导基因1(RIG-1)是细胞质中侦测病原相关分子模式的识别受体。论文旨在扩增北京鸭RIG-1编码基因,并对其进行序列分析。通过PCR方法,从北京鸭脾脏中扩增得到RIG-1基因cDNA,
近年来,山东泰山煤矿安全技术培训中心在对现有的煤矿安全培训运行体系进行深度剖析的基础上,根据ISO10015的思路和原则进行了长期研究,通过对培训理论体系和培训理念的创新.建立
是草原的雄风砥砺企业坚强的性格,是草原的广袤赋予企业宽广的胸怀。中国神华能源金烽煤炭分公司昌汉沟煤矿,全国煤炭工业特级安全高效矿井,神华集团质量标准化特级矿井。
冀中能源张家口矿业集团通过应用煤矿安全隐患排查治理信息系统.有效落实了煤矿安全隐患排查治理职责.真正实现各区队、煤矿和集团之间的隐患能够及时上报、排查和治理,并通过统
为了解云南大理地区散养户猪伪狂犬病病毒(PRV)野毒感染的情况,从大理地区30多个散养户6月龄及6月龄以上猪群中随机采集了共112份血清,采用间接ELISA方法对血清样本进行PRVgE抗