论文部分内容阅读
乳腺癌是一种严重威胁女性健康的恶性肿瘤,其发病率逐年上升并且具有发病者年轻化的趋势,但是其发病机制却并不清晰,因此对于乳腺癌的研究非常必要。近年来的研究发现乳腺癌的发生是一个多因素综合作用累积的结果,作为一种重要的表观遗传机制,DNA异常甲基化在乳腺癌中非常常见,且往往导致乳腺癌关键基因的表达异常,对乳腺癌的发生发展具有关键性的调节作用。目前在乳腺癌的DNA异常甲基化的研究方面,大部分都是针对单个基因或基因不同区域的DNA甲基化模式的研究,对DNA甲基化与基因表达之间关系的研究并不多,也不够深入和详细,更没有从全基因组的角度来对DNA甲基化与基因表达之间的关系进行全面系统的分析。因此,针对目前研究上存在的不足,本文在全基因组的层面上对乳腺癌DNA甲基化与基因表达之间的关联模式进行了探讨,主要取得的创新性成果如下:1.针对全基因组上DNA甲基化与基因表达数据的高维性和关系的复杂性,本文提出了一种基于差异化分析和聚类的DNA甲基化与基因表达关系分析方法。该方法首先应用SAM差异分析方法筛选出差异表达基因和差异甲基化的CpG位点;然后利用AP聚类算法先对差异甲基化的CpG位点根据相似性聚类形成多个甲基化簇,再针对每个甲基化簇对应的基因表达数据利用AP聚类形成多个基因表达簇,即得到多个甲基化簇和多组基因表达簇;最后对相应簇的甲基化数据和基因表达数据进行组合即得到两者之间的多种关联模式。在上述聚类过程中,该方法通过迭代和设置阈值的方式来避免得到过多的聚类,通过取聚类簇的均值作为簇代表模式的方式来降低计算复杂性。同时该方法可以根据需要调整差异分析方法和聚类方法,具有良好的扩展性。2.本研究对全基因组上乳腺癌DNA甲基化与基因表达的关联模式进行分析发现,得到的关联模式具有显著特点。首先,各类别中的患病样本与正常样本之间存在明显差异性,可基本区分开。其次根据患病样本与正常样本的差异性区别得到的八个类别中,DNA甲基化与基因表达的关联模式具有类间显著不同,类内大致相似的趋势。最后,每个大类中,DNA甲基化与基因表达之间的关联模式存在着微小的差异,类内各关联模式的主要区别在于其甲基化水平和基因表达水平值的分布范围。3.实验分析证明了所得到的关联模式具有良好的生物解释性。首先,各关联模式都存在已知乳腺癌关键致病基因的支持,为新的乳腺癌关键基因的发现及其关联模式的研究提供了依据;其次,对各类别的基因集进行生物通路富集性分析发现,各基因集在多个乳腺癌关键通路中存在显著富集,对乳腺癌的发生发展起着重要调控作用。综上,本研究从全基因组的层面上对乳腺癌DNA甲基化与基因表达之间的关系进行了详细研究和分析,初步建立了乳腺癌DNA甲基化与基因表达之间的关联模式,也为乳腺癌的预后、诊断和治疗提供了方法和依据。