基于生成对抗网络的基因表达谱数据增强方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:cjfalx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对基因表达谱数据的分析研究,有助于寻找肿瘤相关的致病基因,能够为肿瘤的临床诊断和治疗提供相应的技术支持。然而,基因表达谱数据集样本量少的特性影响基于数据驱动的机器学习算法对其处理的性能,因此有必要对其进行数据增强。作为一种应用广泛的数据增强方法,基于梯度惩罚的条件Wasserstein生成对抗网络(CWGAN-GP)能够生成高质量指定标签的样本。然而,在对基因表达谱数据进行数据增强时,CWGAN-GP仍然存在生成样本多样性不足、生成样本分布不稳定和部分生成样本失真的问题。因此,在CWGAN-GP改进的基础上,本文提出两种适用于基因表达谱数据的数据增强方法,主要工作包括:(1)为解决生成样本多样性不足以及生成样本分布不稳定的问题,提出一种基于生成空间约束CWGAN-GP的基因表达谱数据增强方法(Gene-CWGAN)。首先,为解决生成样本分布不稳定的问题,提出一种基于样本离散度的数据集划分策略。该策略能够让训练集分布和真实分布尽可能接近,保证训练集分布的真实性,从而稳定生成样本的分布。其次,为解决生成样本多样性不足的问题,通过重新定义生成样本的生成空间并提出基于生成空间的约束惩罚项,将生成空间的强限制变成弱限制,进而提升生成样本的多样性。在多个基因表达谱数据集上的实验结果证明,Gene-CWGAN相比于其它相关方法生成的样本拥有更好的多样性和分布稳定性。(2)为解决由于生成对抗网络波动性引发的部分生成样本失真的问题,提出一种基于自适应代理模型Gene-CWGAN的基因表达谱数据增强方法(Gene-CWGAN-APS)。首先,通过构造出一种具备渐进性训练的代理模型对生成样本的质量进行评估。其次,通过设定质量阈值参数的方式对生成的样本进行质量筛选。然而,为了在面对不同数据集时算法能够自适应地选择出最优质量阈值,提出一种基于惯性权重分群的粒子群优化算法用来自适应式地优化不同数据集的质量阈值。实验结果证明所提出的方法能够有效过滤掉失真的生成样本,从而保证生成样本的质量。(3)设计并实现基于生成对抗网络的基因表达谱数据增强系统。采用JS进行系统的操作界面设计,利用Java和Python实现系统的业务逻辑和核心算法。该系统包含用户登录模块、用户信息管理模块、数据增强模块以及数据预测模块。通过系统的实现验证本文所提方法的有效性和可用性。
其他文献
心血管疾病和呼吸系统疾病已经成为危害人类生命健康最严重的病种之一,国内外发病率也不断攀升。在心血管疾病和呼吸系统疾病的早期及时进行疾病干预是最有效的手段,而心肺音听诊是及时发现这些病症的有效手段,且心肺音听诊相较其他手段拥有更快捷、更安全、成本低等优点,然而目前听诊只能由专业的医生实施,导致人们不能及时发现自身的问题并及时就医。本文利用深度学习技术和声音处理技术分析心肺音听诊信号,并开发较为准确高
学位
诚信是个人的立身之本,“诚”是道德的基础以及一切事业得以成功的保障,“信”是个人形象的标志以及应该具备的品质。习近平总书记指出:“社会主义核心价值观是当代中国精神的集中体现,凝结着全体人民共同的价值追求”。诚信价值观作为社会主义核心价值观个人层面的范畴之一,是人们交往生活的纽带,是市场经济发展的基石,是社会文明进步的标志。青年的价值取向决定着未来整个社会的价值取向,大学生是未来坚持和发展中国特色社
学位
人体胃肠道中分布着数量众多的微生物,它们包含有约100倍于人类自身的基因数目的基因,涉及营养代谢、外源物和药物代谢、抗菌、免疫调节、胃肠屏障维稳和修复等多种功能,这使其与宿主疾病健康状态密切相关。肠道菌群的功能行使,与肠道菌群内和菌种与宿主间的互作密不可分,因此,研究肠道微生物菌种间、肠道菌群与宿主间潜在相互作用,对解析相互作用机制,确定疾病与菌群因果关联,寻找相关疾病临床干预治疗的靶点具有重要意
学位
新时代是具有新的思想文化的时代,要坚定文化自信,首先要加强思想政治教育工作。思想政治教育工作是新时期高校开展各项工作的生命线和智慧线,加强高校思想政治教育工作保障体系研究对于高校营造良好的思想政治教育环境、促进未来社会人才的高效培养和高素质发展具有重要现实意义。新时期高等教育的现代化改革给高校的思政教育工作也带来了新的机遇与挑战。因此,为了解决当前高校思想政治教育工作的困境,必须以人的全面发展学说
学位
近年来,逐渐普及的视频监控在改善社会治安、提高城市交通资源利用率等方面发挥了重要作用。并且随着部署成本的降低以及人们安全意识的提高,家庭监控系统也逐渐成为常见的安防设备。但大量视频通过网络传输并存储,也带来了隐私泄漏风险,生活中因视频隐私信息泄漏而引发的案件也并不少见。目前视频隐私保护研究主要以感兴趣区域检测和保护为核心。本文主要以视频感兴趣区域保护为切入点,分别研究独立编码和结合编码的视频ROI
学位
啤酒是一种古老的酒精饮料,被世界各地的许多人饮用。中国是世界上最大的啤酒生产国和消费国,其次是美国。流行病学研究表明,适量饮用啤酒有益于健康。这些发现是由于抗氧化、抗炎和高生物利用度以及与非酒精成分相关的其他益生元效应的结果。啤酒中含有酚类化合物、类黑素、硒、维生素等抗氧化剂和矿物质,同时也含有氨基酸。人们对啤酒的各种加工和贮藏技术进行了大量的研究。然而,已经发现这些加工技术会通过外部环境的变化给
学位
随着近年来互联网的发展和视频录像数量的指数级增长,作为视频理解领域的基础任务,视频行为动作识别在视频监控、人机交互、视频检索等方面有着重要应用。当前使用深度学习的大多数视频行为动作识别方法都需要大量的标注数据作为支撑,然而现实世界中由于拍摄难度、收集标注成本和隐私伦理等原因,部分类别的数据往往难以大量获取和标注,因此少样本动作识别具有重要的应用价值。本文首先介绍了少样本动作识别的研究背景和现状;其
学位
重金属镉(Cd)能够被植物摄入并毒害植物。锌(Zn)虽然是植物生长所需的微量元素,但过量的Zn也会抑制植物生长。为探明植物叶片光合功能和活性氧代谢系统如何响应重金属Cd和Zn的胁迫,本试验研究了100μmol·L-1 Cd和200μmol·L-1 Zn处理对烟草(龙江911)叶片叶绿素(Chl)和类胡萝卜素(Car)含量以及光合功能和活性氧代谢的影响,并利用基于串联质谱标签(TMT)的蛋白质组学技
学位
在日常生活中,基于位置的服务扮演着越来越重要的角色。在室内定位领域中,由于Wi-Fi设施易部署的特性,基于Wi-Fi信号指纹的定位技术被广泛使用。然而,传统构建Wi-Fi信号指纹地图的方法需要大量的时间及专业人力。众包技术的出现虽然在一定程度上缓解了上述问题,但是仍有许多不足需要改进。本文针对接入点(Access Point,AP)选择、设备异构问题,以及如何构建立体Wi-Fi信号指纹地图进行了研
学位
植物丝裂原活化蛋白激酶(mitogen-activated protein kinase,MAPK)是一种丝氨酸-苏氨酸蛋白激酶,在植物非生物胁迫、生物胁迫、生长和发育等方面发挥重要功能。植物自交不亲和(Self-incompatibility,SI)是指植物拒绝自我花粉,只接受异我花粉的信号识别授粉机制。本论文以北方重要的观赏和食用性植物羽衣甘蓝(Brassica oleracea var.ac
学位