基于机器学习算法的乳腺癌及亚型的分类研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:EMPS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
乳腺癌作为现如今全球女性最常见的癌症,提高其疗效的关键在于早期发现、早期诊断。目前乳腺癌的筛查主要还是借助于乳腺X线摄影技术,但仅依靠该项技术并不能够准确地筛查出乳腺癌,容易出现误判为乳腺癌的情况。为提高乳腺癌筛查的准确性,有助于乳腺癌的早期发现、早期诊断,本文利用生物标记物——基因启动子区域的甲基化水平对乳腺癌样本进行识别,从而给出一个更为精确的预测结果。本文从TCGA数据库中收集了892个样本,每个样本收集到29004个基因启动子区域的甲基化β值数据,主要的研究内容包括:(1)对数据进行预处理与描述性分析,并利用列联表分析了患者的生存状态与乳腺癌的亚型、分期之间的相关关系;(2)提取出样本子集,利用特征选择方法筛选基因并选择相对最优的基因子集;(3)对正常样本与三阴性乳腺癌样本进行过采样,然后划分为训练集与测试集,分别建立logistic回归、决策树、支持向量机和朴素贝叶斯四种机器学习分类模型,并比较四种模型在测试集上的预测效果。本文的研究结果表明:(1)患者的生存状态与乳腺癌的亚型、分期之间都存在着显著的相关关系,三阴性乳腺癌样本中患者死亡的可能性要显著高于其他两种受体阳性的乳腺癌,局部晚期或晚期的乳腺癌中患者死亡的可能性也要显著高于早期的乳腺癌,并且患者生存状态与乳腺癌亚型之间的相关程度要略高于与分期之间的相关程度;(2)通过比较不同方法的分类精度与保留的基因个数,最终选择VAR-NB-RFE方法所保留下的基因子集用于区分乳腺癌样本和正常样本,选择T-RF-RFE方法所保留下的基因子集用于将乳腺癌样本进一步区分三阴性乳腺癌和激素受体或HER2阳性乳腺癌;(3)根据对基因重要性的排序,基因LINC00824、RP11-526A4.1和DDX25启动子区域的甲基化水平差异对区分不同样本类别的影响相对较大,基因TM4SF18、ATP6V0CP1、ART5和MPRIPP1对区分不同乳腺癌亚型的影响相对较大。对样本类别的分类效果相对最优的为朴素贝叶斯,分类精度达到99.49%,对乳腺癌亚型的分类效果相对最优的为支持向量机,分类精度达到91.03%。最后,希望本文的研究结果能够对乳腺癌的早期发现与早期诊断有所帮助。在通过乳腺X线摄影技术发现存在可疑乳腺病变后,可以检测相关基因启动子区域的甲基化水平,更为准确地筛查出乳腺癌,降低误判的概率。在乳腺癌没有出现明显症状之前,检测相关基因启动子区域的甲基化水平变化可帮助尽早地发现乳腺癌。针对乳腺癌患者,通过检测相关基因启动子区域的甲基化水平差异来帮助识别不同乳腺癌亚型,从而对症下药。
其他文献
近年来,我国完成脱贫攻坚任务以后,相对贫困群体成为巩固拓展脱贫攻坚成果、防止返贫的重点关注对象。随着大数据分析等新型技术的推广应用,以及居民收入管理水平和投资理财意识的日益提高,数字金融扶贫效果也开始逐步凸显。相较于传统以收入为单一识别维度的指标体系而言,多维贫困识别综合考虑多个指标来进行判断,使得判断结果的准确度与可信度更高。精准识别多维贫困人群,并研究数字普惠金融服务如何进行多维扶贫,既能够为
学位
2021年12月10日中央经济工作会议上李克强总理总结指出,中国当前经济面临着人才需求紧缺、市场需求收缩、市场供给和预期逐渐下降的问题,并进一步强调了经济高质量发展的可持续化的重要程度。为保持经济基础的做大坐实,需引导和壮大金融机构对中小微企业和社会弱势群体等实体经济的支持,并通过金融业深化科技创新和绿色发展。要将“多边主义”理念应用到地区省份间的经济扶持,就必须重视数字普惠金融的发展。借助数字技
学位
随着人工智能等新技术的飞速发展,智能产品呈现爆发式赠长,家电场景智能化成为必然趋势。近年,新技术升级为扫地机器人市场带来了红利,扫地机器人产品的基础性能、智能程度得到了不断提升与优化。全球超90%的扫地机器人都制造于中国,中国也是扫地机器人全球销量最大的市场。行业内企业快速创新、保持竞争优势的同时,头部家电企业也争相布局、大力研发。同时,由于电商平台评论的特殊性,一句话中通常包含用户对于多种产品属
学位
企业是引领创新发展的第一动力,是推动高质量发展、建设现代化经济体系的战略支撑。然而,由于证监会对上市公司信息披露的强制要求,企业需要对外披露创新研发的相关信息,这可能使企业面临知识产权相关风险,所以大部分企业不愿披露相关信息。根据委托代理理论和不完全披露假说,企业可能会对信息披露模糊化处理,以减小风险。由于我国对信息披露制度的监管主要集中在数字信息披露,而没有重视文本信息披露,管理者可能加强了对文
学位
在线投资组合策略研究是量化策略研究中很重要的部分。在中国投资热情高涨,成交额破万亿时有发生,利用量化策略为投资者构建良好的投资组合,让人们能够分享到中国的财富增长,显然具有很强的现实意义。同时,从“风险”这一角度出发,给该领域的研究者提供更多维度的信息,为在线学习领域的学者提供一定的参考。在线投资组合领域经常被提到的是Cover(1996)等人提出的泛投资组合,而关于泛投资组合最知名的当属Helm
学位
随着社会分工的逐步深入和科技的不断发展,社会职位结构和工作岗位也会越来越精细化。针对该种状况,一方面,公司要求在最有限的成本下迅速寻找专业化的工作人员,另一方面,求职者们又期待能够迅速寻找并匹配到理想的工作岗位。因此人力资源供需双方都需要通过网络招聘平台提供更专业、细致的服务。但由于当前主要的网络招聘平台都是对多行业或者全行业覆盖,往往很难满足这类需求。为了解决此问题,本文通过实体关系抽取技术提取
学位
数字经济是大数据应用下的新经济形态,它透过利用信息的“识别—选择—过滤—存储—使用”这一功能途径,推动、促进信息资源的快速综合优化分配和经济效率高速发展。近年来,数字经济已经上升为国家战略,大数据、云计算、人工智能等新型数字信息技术也蓬勃发展。数字经济迅速兴起的今天,数字经济作为一个新型创新产业,涉及知识迁移、人才流动和社会经济关系等问题,往往存在着空间溢出属性,并呈现出空间聚集的特征。数字经济产
学位
随着互联网的发展,人们的信息获取需求已经不仅仅依赖于传统的工具如电视、报纸等,人们更关注信息的实时性,于是,网络视频在互联网浪潮中逐步发展起来,以哔哩哔哩视频网为首的视频平台在互联网的洪流中相互竞争,共同增长,另一方面,我国的网络视频用户规模也在不断增长,长短视频用户渗透率均不断增强,视频创作者也越来越多。本文以哔哩哔哩视频网站为例,采用网络爬虫方法爬取其视频数据,基于数据分析与挖掘的方法,对B站
学位
在国内国际双循环的新发展格局下,提升居民消费水平及质量成为我国扩大内需的重要切入点。然而,农村居民受到自身资本积累的限制,难以获取有效的金融服务支持,进而导致农村消费市场增长缓慢,各省市内部城乡消费水平依旧存在显著的差距。在数字经济持续发展的背景下,我国大力推动数字普惠金融服务建设,以期通过创新的金融产品和良好的金融市场环境缓解二元经济结构下的金融排斥现象。因此,如何通过发展数字普惠金融加速农村地
学位
近些年来,互联网金融迅速发展,互联网借贷成为互联网金融发展最为迅速的模式,在互联网借贷规模快速扩大的同时,风险管理问题也日益突出。信用评分卡模型作为广泛应用的风控模型之一具有完善的理论基础和丰富的实践意义。但随着大数据时代的到来,用户的信息特征维度也逐渐变多,如何对海量的用户信息进行挖掘,充分发挥人工智能在用户违约预测上的作用,对于提高互联网借贷的风险管控能力,进一步促进互联网小额贷款公司健康发展
学位