基于机器学习的乳腺癌诊断及再分型研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:zfx523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
乳腺癌是现代女性最常见的恶性肿瘤之一,随着医学治疗手段的进步,乳腺癌的生存率已经得到了很大的提升,但是从二十世纪七十年代末起至今它的发病率一直在增加,已经严重威胁了女性的身心健康。在中国,乳腺癌在女性恶行肿瘤中位居榜首,具有发病年龄早,就诊病期晚的特点。乳腺癌的早期诊断对于后期的治疗很有帮助,但目前的确诊率并不理想。随着世界范围内各种新发癌症病例的增多,癌症患者的异质性愈发明显,因此癌症的研究和治疗依旧是人类面临的重要挑战。为了解决乳腺癌的异种类型,对其进行重新分型是主要挑战。本文主要从两方面展开研究,运用机器学习的技术对乳腺癌的良恶性进行预测和对Luminal B型的乳腺癌患者进行再分型。第一方面,乳腺癌的良恶性预测。现有的方法中主要侧重考虑预测的准确率,但是对于疾病的预测来说,将患者误判为不是患者的坏处远远大于将不是患者的病人误判为患者。对于乳腺癌的良恶性预测采用的是乳腺肿瘤细胞团的细针抽吸的数字化成像的特征数据,通过构建预测模型将乳腺癌分为良性与恶性。首先进行探索性数据分析,并根据分析结果进行数据预处理,之后使用多种算法进行建模以及特征分析。在预测过程中,使用了Ada Boost、支持向量机、随机森林和神经网络等预测算法。第二方面,乳腺癌的再分型。将乳腺癌的分型更加细致化,分析亚型的临床特征,最终得出亚型的临床意义,便于后续更加有效的治疗。虽然有许多研究者致力于乳腺癌的再分型,并在分型的基础上找到了可能的靶点,但由于其结果与预后关系不大,临床效果并不理想。对于分型,使用肿瘤基因组计划(TCGA)的乳腺癌数据对Luminal B型乳腺癌进行再分型的研究。对于乳腺癌的再分型,采用基于无监督学习的聚类方法在TCGA乳腺癌的数据集上进行了研究。本文的创新点主要有以下两点:1)本文提出基于权重和密度的聚类算法。基于权重和密度的聚类算法是通过计算每一个特征对簇内距离和簇间距离的贡献率,为每一个特征分配权值,使用权重测量每个特征对其簇的影响程度。2)在基因分析上,将生存分析贯穿整个过程,这样可以保证最终得到的基因与预后是有关的,整个分析过程都紧密与预后相结合。最终对乳腺癌的Luminal B型乳腺癌进行了分型,并对分好的类型进行了基因分析和病理分析。
其他文献
近年来,随着城市居民生活质量水平的不断提升以及交通基础设施建设的发展,城市中汽车保有量急剧增长。截止2019年4月,西安市城区的汽车保有量已逾340万辆,而主城区(三环内)各类停车位供给总量仅108万,使得目前西安公众面对严重的“停车六难”问题,即如厕难、购物难、就医难、入学难、入住难、旅游难。西安市停车资源的供给与需求出现了严重的失衡,仅靠政府部门很难实现社会资源的有效配置,PPP是政府与社会资
本文总结了国内外对生产线平衡问题和生产排序问题的研究成果,运用传统工业工程方法和Flexsim软件仿真方法,对WD公司多品种气门生产线进行了优化,取得了较为良好的效果,提高
能源的短缺和环境保护的问题使得各方都在积极的寻找更加高效的能源使用方式和环保的可再生能源。在当前低碳发展的大背景下,综合能源系统的建立作为一种有效的方案能够对目前我国能源系统运行过程中存在的设备使用率低、能源利用不充分、系统自愈能力差等问题有效解决。与此同时随着需求响应的进一步实践,实现需求响应与综合能源相结合并进行联合优化成为缓解负荷高峰压力和减缓能源设施建设的关键手段。因此,有必要对需求响应资
贫困是人类发展至今仍需解决的一个世界性难题,世界反贫困任务依然任重而道远。在我国,旅游产业在带动地区经济发展及帮助贫困人口脱贫方面的作用日益凸显,已成为摆脱贫困的
Android设备拥有用户大量重要的隐私信息,因此,这成为很多恶意Android应用程序攻击的目标。恶意应用程序在用户无察觉下频繁地泄漏隐私信息,给手机安全带来很大的威胁。在隐
《詩經》是我國最早的詩歌總集,收周朝詩歌三百零五篇。目前關於《詩經》語言的研究主要集中在語音、語義、語法、修辭等方面,側重《詩經》語言特點的總體研究,已取得豐碩成果,不過個體詞語的細緻分析尚有待加強。我們選擇以“盛”義類重言詞為研究對象,結合前人研究成果,具體分析每一個“盛”義類重言詞的來源,並討論與之音義相關的詞。本文參考《詩經》各種注本,如《毛詩正義》《詩集傳》《毛詩傳箋通釋》《詩三家義集疏》
认知无线电被广泛认为是未来无线通信的最有前景的技术之一,旨在实现频谱资源的高效利用。认知无线系统两个重要的组成部分是智能管理系统和重配置无线电。认知无线电系统利
利用听觉信息判断声音源所在位置的过程称为声源定位。近年来,基于麦克风阵列的声源定位技术在人机语音交互、音视频会议和军用雷达检测等方面都有着重要应用,已成为定位领域的研究热门。目前,常用的声源定位方法分为几何定位法和指纹定位法两大类。其中,基于位置指纹的声源定位方法有效改善了几何定位法的缺陷,具有模型依赖度低和定位精度高的优势。但为了保证精度,指纹定位法需要建立高指纹密度数据库,这不仅增加了离线采样
LX公司是一家有中国某大型零售企业控股的日本上市企业,这家公司在日本已经有近90年的历史,曾经是日本著名的电器连锁企业,2009年被中国某大型零售企业收购后,以崭新面貌出现
主汽温作为机组设备的重要参数之一,是实现机组控制系统正确运行的重要参考指标。针对主汽温变化的复杂性,能否对主汽温进行精准预测成为影响机组设备控制系统的关键。因其具有时延大、影响因子多、非线性等特点,传统的基于机理预测系统无法对主汽温进行精准预测。工业大数据的发展以及深度学习理论在时间序列预测方面更广泛的应用,为提出一种针对主汽温预测的非线性模型提供了新的研究方向。本论文针对上述研究现状及主汽温变化