基于基因芯片的lincRNA SNPs与胃癌的关联性研究及其发病风险预测模型的构建

来源 :福建医科大学 | 被引量 : 2次 | 上传用户:liongliong543
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】通过SNP基因芯片结合生物信息学方法,研究芯片中与胃癌相关长链非编码RNA(lnc RNA)单核苷酸多态性位点(single nucleotide polymorphisms,SNPs)的分布特征,继而探索与胃癌发生相关的新的基因间长链非编码RNA(linc RNA)SNPs,从而筛选与胃癌关系最为密切的linc RNA SNPs,并通过比较和分析胃癌病例组和对照组候选的linc RNA SNPs,研究其与胃癌发病风险的关系。在前期研究的基础上筛选与胃癌相关的环境危险因素和遗传因素,构建胃癌的发病风险预测模型,为仙游当地胃癌高危人群的筛查提供工具。【方法】1.应用1:1配对病例对照研究方法,利用Affymetrix生产的900K Axiom Precision Medicine Research Array对来自福建仙游的96例男性胃腺癌患者和96例健康对照的外周血白细胞中的总DNA进行单核苷酸多态性检测。利用HGNC数据库筛选出芯片中长链非编码RNA(lnc RNA)的SNPs,进而利用SPSS 20.0和Excel软件对lnc RNA的SNPs位点进行卡方检验,筛选胃腺癌组与对照组有统计学差异的SNPs,并采用卡方检验分析lnc RNA的SNPs的分布情况,结合生物信息学(linc RNA数据库)进一步筛选新的基因间长链非编码RNA(linc RNA)的SNPs,并分析linc RNA SNPs的分布情况。2.在SNP基因芯片筛选的基础上,选取最小等位基因频率(MAF)=0.10~0.40、哈代温伯格平衡检验P>0.05的SNPs与db SNP数据库做交集,通过查阅文献以及构建基因模型,筛选出候选linc RNA SNPs。增加胃腺癌组和对照组的样本量各622例,采用Sequenom Mass ARRAY技术检测候选SNPs位点的基因型,运用COX模型进行条件Logistic回归分析各linc RNA SNPs与胃癌的关联。3.对课题组现场流行病学数据和大样本SNPs结果数据进行分析,筛选与胃癌发病相关的环境因素和遗传因素,借助怀卡托智能分析环境(Waikato Environment for Knowledge Analysis,WEKA)平台中的5种统计模式识别算法,即贝叶斯网络(Bayes Net)、逻辑判别(Logistic)、支持向量机(SMO)、决策树C4.5算法(C4.5)和随机森林(Random Forest),分别构建3种不同类型变量(环境因素、遗传因素和同时加入环境因素和遗传因素)的胃癌发病风险预测模型,比较5种模型的判别正确率、真阳性率、假阳性率、精确率、反馈率、F-测量和ROC曲线下面积等的差异性,并通过组内回代、外推预测和交叉验证来评价模型的适用性,筛选出适合仙游县地区理想的发病风险模型或组合模型。【结果】1.从SNP基因芯片中筛选出与胃癌相关的lnc RNA位点共131670个,涉及85%以上的lnc RNA。(1)lnc RNA的SNPs的分布特征:在胃腺癌组和对照组中具有统计学差异的SNPs共3068个,其中1837个位点分布在基因间lnc RNA(linc RNA);在8号染色体长臂端和20号染色体短臂端形成基因突变热点区域,而23号染色体是一个基因突变保守区域。(2)linc RNA的SNPs的分布特征:对筛选出有差异的linc RNA的转录本的构成比分析,发现单个转录本的linc RNA较多,占总体43.46%;对linc RNA SNPs的连锁位点靶基因进行GO富集分析,发现靶基因集合富集在β-连环素结合位点的分子功能上。2.进一步筛选出与胃癌关系最密切的位点共有10个,对这10个候选SNPs扩大样本量分析发现:LINC00687基因多态性位点rs2795025与胃癌易感性相关,携带rs2795025 CC基因型增加胃癌的发病风险(ORa=1.94,95%CI:1.12,3.34)。LINC02122基因多态性位点rs10036719和rs12516079与胃贲门癌易感性相关,携带rs10036719 GG基因型增加患贲门癌的发病风险(ORa=1.84,95%CI:1.05,3.23);携带rs12516079 AG和GG基因型降低贲门癌的发病风险(携带AG基因型ORa=0.48,95%CI:0.27,0.84,携带GG基因型ORa=0.54,95%CI:0.30,0.98)。联合作用分析结果显示:同时携带rs10036719和rs12516079的不良基因型者发生贲门癌的风险较高(OR=2.07,95%CI:1.69,2.53)。3.在5种统计模式识别贝叶斯网络(Bayes Net)、逻辑判别(Logistic)、支持向量机(SMO)、决策树C4.5算法(C4.5)、随机森林(Random Forest)相互比较中,Logistic建立的模型的筛检效果最好,其判别正确率为75.60%,ROC曲线下面积为0.826,且模型的组内回代、外推预测和交叉验证表明Logistic模型的变化差异小,模型的稳定性较好。在3种不同类型变量的胃癌发病风险预测模型中,遗传因素构建的模型,其判别正确率和ROC曲线下面积最差,环境因素构建的模型次之,同时加入环境因素和遗传因素构建的模型最优。初步构建包含环境因素和遗传因素的胃癌发病风险评分模型:Y=19×年龄+11×性别+8×吸烟-8×饮酒-12×饮茶+10×进食速度快+7×高盐饮食+9×暴饮暴食+10×喜烫食+13×喜硬食-5×食用水果+5×食用腌菜-7×rs10205233-3×rs10134160-3×rs12882235+1×rs2795035。该评分模型的ROC曲线下面积为0.715,灵敏度0.699,特异度0.627。【结论】1.通过SNP基因芯片可以筛选与胃癌关系密切的lnc RNA基因多态性位点,其中基因间长链非编码RNA(linc RNA)的SNPs与胃癌关系最为密切。通过基因芯片筛选lnc RNA SNPs方法,性价比高且现实可行。2.本次研究新发现3个linc RNA SNPs与胃癌关系密切。LINC00687基因多态性位点rs2795025与胃癌易感性相关,携带rs2795025 CC基因型增加胃癌的发病风险。LINC02122基因多态性位点rs10036719和rs12516079与胃贲门癌易感性相关,携带rs10036719 GG基因型增加患贲门癌的发病风险;携带rs12516079AG和GG基因型降低贲门癌的发病风险,SNP可能作为遗传标记用来筛查高危人群。3.胃癌发病风险预测模型中同时纳入环境因素(吸烟、饮酒、饮茶、进食速度快、高盐饮食、暴饮暴食、喜烫食、喜硬食、食用水果和食用腌菜)和遗传因素(rs10205233),其模型的筛检能力最优。在五种胃癌发病风险预测模型中,Logistic构建的胃癌发病风险预测模型的筛检能力更好,适用于仙游县胃癌高危人群的筛查。改善环境的危险因素,针对不良基因型携带者给予健康教育和指导,可以有效地控制和降低胃癌的发病率。
其他文献
<正>7月4日,在贵州省黔东南苗族侗族自治州麻江县生态蓝莓产业示范园,工人在采摘蓝莓。近年来,贵州省黔东南苗族侗族自治州麻江县依托本地土质、气候等资源优势,依靠贵州省科
近年来,随着国家加大对西部地区的开发力度,作为西部地区乃至全国的重工业能源大省的青海,公路交通迎来了跨越式的发展。然后,公路迅速发展的同时,沿线的房建工程的规划和建
在老龄化的一系列问题中,老年人的养老居所问题尤为重要。天津市老年宜居社区项目,是天津市探索社会力量建设养老机构的一种新模式。本文分析研究了天津老年宜居社区建设需求
随着我国加入WTO以及国有企业改革重组的展开,国内石油行业的经营环境发生了根本性的变化,开放成品油市场,中航油公司面临着严峻的挑战。挑战之一是打破垄断经营航油的特权,
我国有相当部分拱桥,尤其是早期修建的拱桥,由于结构设计上不够完善,未能达到规定要求,以及施工质量不佳等原因,特别当时片面强调大跨径、省材料等因素,致使很多拱桥存在不同程度的
从核心意识形态对民众意识的重要引导作用看,社会主义核心价值体系对当代社会思潮具有重要的引领价值,即用核心价值体系塑造人们的信仰、理想、道德观念,调动大众的主体积极性、
通过对我国政府网站著作权管理现状的调查,分析当前我国政府信息著作权授权存在的问题。在此基础上,对“开放内容授权”模式的内涵和特点进行阐述,分析政府信息著作权授出适
大数据时代的来临给市场营销带来了一系列的机遇,使得营销决策更加科学,市场空间和消费者需求得到了最大程度的挖掘,这是传统营销模式所远远无法比拟的。与此同时,市场营销也
Warren钢管桁架是一种常见的桁架形式。目前,桁架设计基于理想铰接假定,而实际桁架在其节点处都有一定的刚度。本文利用有限元软件ANSYS分析节点刚度对桁架静动力性能的影响
本书特色1.全:课例分析类型全,包括全国评优课例、地方研究课例、学校常态课例。2.新:典型环节数十张课堂照片来显现;便于记忆近三十首打油诗新创作。3.细:注重课堂细节的观