面向高维数据的双聚类算法研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:yangyujie309
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生物信息学、电子商务等领域的迅速发展,积累了大量的高维数据,如何利用数据挖掘技术从这些高维数据中获得有价值的信息具有重要的研究意义。其中在聚类分析方面,由于传统的聚类方法只能在数据矩阵的行或列单个维度上进行聚类,只能够挖掘数据中的全局信息。由于高维数据中普遍存在着大量的局部信息,为了能够更好的挖掘高维数据中的局部信息,双聚类算法应用而生。双聚类算法能够同时数据矩阵的行和列两个维度上进行聚类,能够更加有效的挖掘高维数据中存在的大量局部信息。双聚类算法的提出能够有效地解决传统聚类算法在高维数据中遭遇的维度灾难问题以及稀疏性问题,然而双聚类算法的研究仍处于起步阶段,目前的各种双聚类算法还存在着诸多不足之处,因此对于双聚类算法的研究变得尤为重要。针对于目前双聚类算法应用最广泛的生物数据领域以及电子商务领域,本文根据不同数据的特点分别进行研究分析,设计出两种应用于不同领域的双聚类算法。针对于高维的基因表达数据,本文设计出一种基于加权互信息的双聚类算法。由于基因数据之间存在着复杂的非线性关系,本文因此提出了一种加权互信息的相似性方法来度量基因数据间的相关关系,通过考虑到条件集合的重要性对于双聚类的影响,本文提出了一个新的目标函数通过权重完成双聚类条件集合的优化更新。最后进行了实验对比验证,实验结果表明本文提出了基于加权互信息的双聚类算法取得了优秀的聚类效果。针对于高维的图像推荐数据中的高度稀疏性以及冷启动问题,本文结合推荐系统中通用的协同过滤算法,提出了一种异步双聚类的协同过滤算法。考虑到图像维度聚类时常遭遇的冷启动问题,本文通过多视图聚类算法将图像点击特征与图像视觉特征结合来获得准确地图像聚类,考虑到用户维度聚类时遭遇的维度灾难问题,本文利用词袋模型结合图像聚类信息对用户进行降维聚类,然后利用协同过滤算法将用户聚类和图像聚类信息进行融合推荐得到高质量的图像推荐结果。最后通过实验与现有方法进行对比分析,实验结果表明本文提出的异步双聚类的协同过滤算法明显优于现有的其它方法。
其他文献
随着食用菌市场需求的日益高标准和多样化,传统的一家一户分散土法栽培模式已远不能适应消费需要,工厂化大规模生产正在逐步得到发展。工厂化生产除大规模和人为控制栽培条件外
运用主成分分析和模糊数学的方法对艺术体操运动员选材的评价体系进行了研究,旨在提供一套适用于中国艺术体操运动员的科学选材综合评价模型和计算机软件工具。首先,我们引入
[目的]探讨放大色素内镜下非糜烂性反流病(NERD)食管黏膜细微结构特征及其在临床诊断上的意义。[方法]根据症状学及内镜检查结果,对25例反流性食管炎(RE)、35例NERD及15例健康对
1996年,叶小纲的电影音乐《人约黄昏》荣获上海东方电视台颁发的"最佳电影音乐奖";1998年,叶小纲的电影音乐《半生缘》荣获香港第17届电影金像奖"最佳原创电影音乐"提名;2001
目的研究纳他霉素、乳酸链球菌素和溶菌酶三种生物防腐剂对龙眼汁抑菌效果的影响。方法设计两两复配和响应面实验,以菌落总数为指标,观察贮藏期间内的抑菌率变化,得出最优抑
蔬菜能提供给人体所需的胡萝卜素、维生素C、各种矿物质和膳食纤维。购买蔬菜时,叶菜类一般是首选菜。其中颜色深的蔬菜比颜色浅的蔬菜更有营养。购买时应选择颜色深重、偏红
研究了海南霉素发酵代谢过程中的碳氮比,以及溶氧、OUR、CER、RQ等代谢参数与发酵单位的关系。结果表明,发酵基础料配方中,控制碳源物质淀粉和葡萄糖含量,氮源物质利用鱼粉部分代
水灰比是混凝土材料配合比设计最关键的参数之一。通过试验,分析了水灰比对超贫固结砂砾料碾压混凝土强度和弹性模量的影响,提出了超贫固结砂砾料碾压混凝土水灰比的合理选取范
源计划在2012年开始将位于广州历史最老的广州啤酒厂建于上世纪六十年代的麦仓建筑顶层改造为自己的设计工作室。这栋38米高的历史建筑座落于广州老城北郊的珠江支流增埗河南
研究了聚乙烯醇( PVA)和聚丙烯酸( PAA)对α-淀粉酶活性的影响,并采用荧光光谱法和圆二色谱法分析了PVA和PAA对α-淀粉酶内源性荧光和二级结构的影响。结果表明,PVA和PAA均能使α-