基于相对熵的基因芯片数据聚类分析

来源 :第二十二届中国数据库学术会议 | 被引量 : 0次 | 上传用户:slientlamb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文采用最大-最小规范化和区间离散化两种方法对啤酒酵母基因芯片原始数据进行预处理,并把相对熵作为一种相似性度量标准对预处理后的数据进行K-均值聚类分析.结果表明:相对熵作为相似性度量标准,不仅可以得到与欧几里得距离和Pearson相关系数作为相似性度量标准时一样合理的聚类结果,而且能够使K-均值聚类算法以更快的速度收敛.
其他文献
近几年来,数据流的应用(DataStreamAppli-cation)变得越来越广泛.在数据流的应用中,传统的数据与查询模型已经不再适用.在传统的数据库应用中,数据是持久稳固的.通常,数据库中包含的是无序的静态数据集,这些数据的插入与删除操作相对于查询的插入与删除是很少的.用户可以随时加入查询来得到关心的结果.但在数据流中,数据是连续不断的、无界的、并且速度可能是变化的、以一种序列(流式)的形式在
本文提出了一个有效且稳定的判定聚类有效性的新指标.该指标的核心从重叠度的角度来评估类的紧凑度.指标的另一个可取之处是在量化重叠度的时候通过模糊理论来建立隶属度和交叠度之间的关系函数.
间隔约束将序列模式中两个相邻元素的间隔限定在用户设定的特定值之内.本文首先给出了带有间隔约束的序列模式的问题定义,然后在PrefixSpan算法的基础上进行扩展,提出了一种新的带有间隔约束的序列模式挖掘算法,提高了序列模式挖掘的灵活性和有效性.
Ontology是对领域知识概念的抽象和描述,它的设计是一个创造性的过程,对任何专业领域来说,均不存在唯一的本体.本体的设计是一个反复的过程,需要不断的完善,才能达到本体的完整性,而且本体应能够扩展,在领域不断发展时可以加入新的概念.本体自提出以来,就在计算机的许多领域得到了广泛的应用,如数字图书馆,软件复用,Web上异构信息的处理,语义Web等,因此本体是一项有意义并且重要的研究方向.
本文针对R-C4.5决策树模型的简化版本R-C4.5s模型进行了实验验证,并将实验结果与C4.5决策树模型进行了比较,充分证明了本文的分析.
本文正是根据这种思想,基于两阶段子密钥加密算法和读写安全级分开的强制存取控制模型,将加密技术与强制存取控制相结合,提出一种应用在多级数据库中的两阶段子密钥加密模式.
本文给出了映射表等相关概念,定义了映射约束的推导及一致性问题,提出了解决推导及一致性问题的“分割”算法.最后对全文进行了总结.
针对工作流兼有静态性和动态性的特点,本文结合RBAC和TBAC提出了新的基于任务和角色的访问控制方式,使得用户对数据的存取权限受到数据本身状态的限制,从而实现了权限在时间上的约束性制.
非覆盖式更新导致数据文件增大和磁盘I/O增加,从而影响系统性能.本文在PostgreSQL原有系统中引入回滚段,彻底丢弃非覆盖式更新技术,克服这一技术带来的不足,且不影响系统原来的高并发度.论文将在第2节分析PostgreSQL采用非覆盖式更新技术带来的缺陷,并引出回滚段方案;第3节详细论述回滚段在PostgreSQL中的实现;第4节分析实现结果;最后在总结中提出这一方案有待提高的地方.
本文在基于关键元组的判定定理以及测量信息公开的基础上提出了消除信息泄漏的算法,并进行了算法的时间复杂性和正确性说明.其成果必定会成为将来逻辑安全数据构架的一个基础.