长链非编码RNA与三阴性乳腺癌预后相关性的生物信息学研究

来源 :南方医科大学 | 被引量 : 0次 | 上传用户:DownLoad0006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景与目的 乳腺癌是全球女性癌症致死的最主要原因。在中国,乳腺癌的发病率以每年3%的速度递增,不仅威胁广大女性的健康和生命,而且也是社会面临的严峻问题。在生物技术快速发展的几十年中,乳腺癌的机制研究仍然进展缓慢。乳腺癌是一种多个分子发生改变的异质性疾病,即使其临床表现相似,但生物学行为及预后差异明显,使得临床结果难以预测,患者对治疗不能完全适应。对于乳腺癌不同组织学分型和危险分层,传统诊断通常是基于肿瘤组织的临床病理学特征。基于基因表达分析,乳腺癌可分为四个主要亚型:腔面型(luminal A and B)、基底样型(basal)、人类表皮生长因子受体2(ERBB2)型和正常乳腺样型(normal-like)。根据这些分类而制定的临床治疗方案,包括内分泌治疗和HER2靶向治疗,能够一定程度上提高乳腺癌患者的存活率。三阴性乳腺癌(triple-negative breast cancer,TNBC)是指雌激素受体(ER)、孕激素受体(PR)、人类表皮生长因子受体2(ERBB2/HER2)均为阴性的一类特殊的乳腺癌。相比其他类型乳腺癌,TNBC侵袭性强、容易复发、预后较差、死亡风险高,是最致命的乳腺癌之一。因为缺乏ER、PR、HER2等受体,所以TNBC患者对内分泌治疗和HER2靶向治疗的效果不理想。目前尚未有针对TNBC的治疗指南,患者通常仍按乳腺癌常规标准进行治疗,而化疗是其主要的全身治疗手段。由于TNBC的高异质性,很难分辨对特定的化学疗法产生反应的患者,而且没有可靠的生物标记物,可以作为筛选标记。因此,迫切需要寻找TNBC的诊断分子标志物和潜在的治疗靶点,以改善患者的预后。随着高通量技术的发展,已经发现一些基因标志可以预测乳腺癌患者的预后。与传统的临床病理学指标相比,这些基因标志物有较高的敏感性和特异性。然而已发现的基因标志物并非适用于所有人群,只有其中少许部分可以预测TNBC患者的预后,如Mammoprint多基因标志物和基因分级指数(genomic grading index,GGI)等。但它们在临床应用上还存在局限性。lncRNA(long non-coding RNA,lncRNA)虽然不编码蛋白质,但其功能与RNA类似。lncRNA的总数约410,000,占全部ncRNA的80%~90%,但目前功能已知的lncRNA还不足1%。许多lncRNA已被证实与各种疾病的发展过程相关,尤其是癌症。lncRNA可以起着促癌或抑癌作用,并且能在表观遗传、转录和转录后水平上调控基因表达。越来越多的研究发现,lncRNA在许多癌症中出现表达失调。在大多数情况下,这些异常表达的lncRNA参与各种恶性生物过程,包括致癌作用、细胞增殖、凋亡、迁移、入侵和自噬等,与癌症发生、发展的关系密切。因此,lncRNA是癌症诊断、治疗、病理分型和风险评估的重要候选生物标志物,可为临床提供可靠的诊断依据和指导个性化治疗方案的制定,并可预测癌症临床结果。同时,随着基因芯片技术(microarray)广泛应用,在线公共数据库的基因芯片表达谱数据与日俱增,为我们利用相关芯片数据进行大样本数据挖掘和分析创造了条件。利用基因芯片技术不仅可以检测lncRNA表达,还可通过重新注释现有的芯片探针,发现新的预后预测相关lncRNA分子标志物。本研究结合GEO公共数据库(Gene Expression Omnibus)下载的TNBC基因芯片表达谱数据和临床资料,利用生物信息学工具,筛选TNBC预后相关的lncRNA,以期构建基于lncRNA分子的预后预测模型,对TNBC患者进行风险评估并预测其预后,从而为TNBC患者的个性化治疗提供参考和依据。研究方法 第一部分 TNBC芯片数据的预处理 从NCBI公共数据库GEO检索并下载TNBC相关的表达谱芯片原始CEL数据文件,登录号分别为GSE58812和GSE12276,并整理相关的临床信息。剔除临床资料缺失的样本后,选取GSE58812芯片数据集中107例和GSE12276芯片数据集中71例TNBC患者样本,共178例合格TNBC患者样本纳入本研究。在R环境下用Bioconductor的affy包读入芯片数据,采用以非编码RNA为中心的CDF文件重新注释芯片探针,提取出长链非编码RNA的探针集。其次采用经验贝叶斯算法(empirical Bayes methods)消除两组芯片数据的批次影响(batch effect),运用RMA(Robust Multichip Average)算法对数据进行背景校正和均一化处理,并输出log2转化值。第二部分TNBC预后相关的长链非编码RNA分子标志物的筛选 178例TNBC患者样本的芯片数据经过预处理后,使用R软件的Sample函数,按7:3比例随机分配为训练集(training set)和测试集(test set)。整理TNBC训练集和测试集的lncRNA表达数据和生存资料数据,并导入PAM(Prediction Analysis of Microarrays)2.23。首先,计算每个lncRNA 的 Cox 生存得分(Cox survival scores)并估测最适得分阈值(best score threshold)。利用在线非编码RNA表达数据库(ncRNA Expression Database),查证筛选得到的lncRNA信息。根据最适得分阈值,构建有监督的主成分预测模型(supervised principal component predictor),应用该模型估测测试集数据的结果,验证该模型的预后评估功能。作出K-M曲线(Kaplan-Meier curves),并输出预测信息结果。第三部分 评估长链非编码RNA分子标志物的预后预测效果 本部分选取GSE58812数据集和GSE12276数据集的TNBC患者样本作为研究对象,并收集所有TNBC患者样本的临床数据。排除预后不明确和患者临床资料信息不全的样本后,共纳入178例TNBC合格样本。分别根据患者年龄、肿瘤大小、组织学分级,将样本分为不同的亚组。利用基于lncRNA建立的预后预测模型,并结合的临床生存资料,使用PAM 2.23预测178例TNBC患者样本的风险得分,并对按肿瘤大小分层的样本作生存分析。以Cox比例风险回归模型对lncRNA预测风险得分、年龄、肿瘤大小、组织学分级等因素与TNBC患者预后关系分别进行单因素、多因素生存分析;应用诊断效能(receriver operating characteristic,ROC)曲线判断 lncRNA 预测风险得分、年龄、肿瘤大小、组织学分级等因素对TNBC患者的诊断评估价值。结果 第一部分 TNBC芯片数据的预处理 通过筛查,去除临床数据缺失的样本,分别从GSE58812、GSE12276中获得107例、71例TNBC患者样本,共178例TNBC患者样本,并提供了随访资料,可纳入后续分析。将纳入分析的178例TNBC患者样本的原始数据重新注释并经过消除批次影响、背景校正、均一化及log2转化等处理后,输出178例TNBC患者样本、共5635个lncRNA的表达值文件。第二部分TNBC预后相关的长链非编码RNA分子标志物的筛选 纳入本研究的178例TNBC患者样本经随机分配为训练集(n=124)和测试集(n=54)。使用PAM 2.23检测训练集(n=124)的预后相关lncRNA,当阈值为7.81时,能有效控制训练误差。筛选Cox生存得分的绝对值>阈值(7.81)的 lncRNA,得到 6 个预后相关 lncRNA,分别是 AK126909、AF086008、AK091525、BC013266、AK023400和BC042889,并查证得到其定位等信息。其中,AK091525的Cox生存得分为正值,说明该lncRNA表达水平较高的TNBC患者,其总生存期较短;而其余 5 个 lncRNA(AK126909、AF086008、BC013266、AK023400和BC042889的Cox生存得分为负值,则说明这些lncRNA表达水平越低,TNBC患者总生存期越长。将筛选得到的6个lncRNA,使用PAM 2.23构建有监督的主成分预测模型。根据该预测模型分别对训练集和测试集进行生存分析。结果显示,按照lncRNA预测风险得分,训练集和测试集的样本均可分为高、低风险两个组。在训练集中,与低风险组患者(n=61)相比,高风险组患者(n=63)的总生存率较低(P<0.001)。同样,在测试集中,高风险组患者(n=27)的总生存率显著低于低风险组患者(n=27)(P<0.001)。第三部分 评估长链非编码RNA分子标志物的预后预测效果 本研究共获得178例TNBC患者临床资料,其中107例TNBC患者样本来自GSE58812数据集,71例TNBC患者样本来自GSE12276数据集,最终178例TNBC患者样本纳入本部分分析。应用Cox比例风险回归模型对lncRNA预测风险得分、年龄、肿瘤大小、组织学分级与预后关系进行单因素和多因素分析,发现lncRNA预测风险得分、肿瘤大小是TNBC患者预后的独立影响因素(P<0.001),而年龄、组织学分级与TNBC患者预后无明显相关性(P>0.05)。根据肿瘤大小,将178例TNBC患者样本分为TI组(直径>2.0 cm)(n=82)和TII组(直径≤2.0 cm)(n=88),其余8例样本因资料不全而剔除,共170例TNBC患者样本纳入分层分析。按肿瘤大小分层后,使用lncRNA预测模型对亚组患者进行生存分析,结果显示,TI组(直径>2.0 cm)和TII组(直径≤2.0 cm)的TNBC患者样本均被分为高风险组和低风险组;而且高风险组患者的总生存率均显著低于低风险组患者(P<0.001)。通过ROC曲线分析发现,lncRNA预测风险得分和肿瘤大小对预后判断为死亡的ROC曲线下面积分别为0.879、0.721,且均有统计学意义(P<0.001):年龄和组织学分级对预后判断为死亡的ROC曲线下面积分别为0.562、0.525,但无统计学意义(P>0.05)。这说明lncRNA预测风险得分的预后判断能力和准确性优于肿瘤大小等其他因素。结论 利用R和PAM等生物信息学工具,筛选出TNBC预后相关的6个lncRNA(AK126909、AF086008、AK091525、BC013266、AK023400 和 BC042889),并构建了基于这6个lncRNA的预后预测模型。该预测模型为训练集和测试集提供了理想的预后判断,在TNBC预后分析中具有一定适用性和预测价值。这6个lncRNA的发现可为TNBC临床个性化治疗提供参考。
其他文献
以草莓鲜果为原料,接种酿酒活性干酵母,添加复合酶制剂、白砂糖.在常温(17.5~22.5℃)下进行全果发酵.结果表明,摘除萼片和枝梗的草莓鲜果经0.5‰高锰酸钾溶液浸泡20 s,清水冲
通过单因子实验对苏云金芽抱杆菌LLB19菌株发酵培养基碳氮源配方进行优化,确定以玉米淀粉、玉米粉为发酵培养基的碳源;以黄豆饼粉、酵母粉作为发酵培养基的氮源.采用Plackett—B
背景:前交叉韧带残端内含有丰富的本体感受器、多种促进愈合因子以及其残端本身的机械作用让保留残端的前交叉韧带重建手术在理论假说与基础研究上存在显著优势,但是在实际应用中是否存在明确临床优势尚有争议。目的:通过对经自体半腱/股薄肌肌腱关节镜下重建前交叉韧带使用不同术式(残端保留与残端清除)的研究,探讨保留残端术式是否存在近期内的临床疗效优势。方法:回顾性分析成都中医药大学附属医院骨科/国际病房(骨科)
家禽的产蛋性能受到众多因素的影响,但是影响家禽产蛋性状的关键在于家禽卵泡发育的过程。本实验室前期通过高通量测序发现miR-458b-5p在开产与未开产母鸡卵巢中差异表达。为研究miR-458b-5p在鸡卵泡发育过程中的作用,本试验利用qRTPCR方法,检测miR-458b-5p在卵泡中的表达情况,并根据高通量结果确定候选靶基因,进而验证靶向关系,研究miR-458b-5p通过靶向调节靶基因对鸡等级
最近几年,氮化铝镓氮化镓高电子迁移率晶体管越来越得到研究者的青睐。此半导体功率器件具有卓越性能,其原因主要是其突出的材料特性优势,例如,在异质节处有高浓度的二维电子
运用实验法等,通过对包头市高新区稀土路街道校园路社区33名中老年女性,进行为期6个月的"安代"广场舞教习,分析"安代"广场舞的健身价值和效果。结论:中老年女性经常练习"安代"广场舞
背景与目的: 白血病(leukemia)是最常见的造血系统恶性肿瘤。我国白血病发病率为3-4/10万,在各种恶性肿瘤死亡率中,白血病在男性和女性分别居第6位和第8位,在儿童及35岁以
随着机器学习的快速发展,贝叶斯网络已经被应用到很多领域中,贝叶斯网络一直是机器学习研究热点。在贝叶斯网络学习中一个重要的问题是当网络中含有隐变量时,网络的学习问题,
目的探讨利普刀治疗宫颈上皮内瘤变患者的临床效果。方法选取2016年1月至2019年3月收治的宫颈上皮内瘤变患者94例作为研究对象,按入院顺序单双号分为对照组和试验组,每组47例
目的探讨集束化护理在择期高龄产妇剖宫产手术中的应用效果。方法选取我院2017年8月~2018年7月收治的90例择期行剖宫产手术的高龄产妇,按随机数字表法分为对照组和观察组,每