论文部分内容阅读
随着人类基因组研究的重点向功能基因组转化,基因表达数据分析成为目前生物信息学研究的热点和重点之一。关联分析是基因表达数据分析的一种重要手段,通过关联规则挖掘可揭示不同基因或环境与基因表达之间在生物学相关的联系,进而帮助鉴定人类疾病基因。本文着重研究基因表达数据的关联规则挖掘算法。Apriori算法是关联规则挖掘的经典算法,然其效率有待改善。基于Apriori算法原理,提出了完全连接的概念并给出一种有效的完全连接条件,在频繁2k-项集的集合进行自身Apriori连接得频繁(2k+1)-项集的同时,自身完全连接产生未剪枝的候选4k-项集;对频繁(2k+1)-项集的集合,直接对其项集进行自身完全连接产生未剪枝的候选(4k+2)-项集。改进的算法减少了连接的比较次数、迭代运算次数。实验表明该算法在保证无遗漏的情况下有效地提高了挖掘速度。采用Apriori等传统算法对基因表达数据进行关联规则挖掘时,在将基因表达矩阵转换为布尔矩阵之后,还需将布尔矩阵转化为交易数据的形式进行挖掘,没有充分利用布尔矩阵本身的特点。针对这些缺点,本文提出了一种不生成候选项集的“与运算”直接对布尔矩阵进行挖掘,且采用分段求与的方法提高“与运算”的算法效率。实验证明该算法能更快速有效的挖掘出关联规则。针对目前基因表达数据的关联规则挖掘所采用的都是将其转换成布尔关联规则进行挖掘,忽略了基因表达数据是数值型这一问题,本文提出了使用充分利用基因表达值的模糊方法挖掘基因表达数据的关联规则,并且通过使用模糊C均值聚类算法代替隶属函数,将每个基因划分为3个模糊集,确保挖掘结果的正确性。