论文部分内容阅读
近年来,随着生物信息学、电子商务等领域的迅速发展,积累了大量的高维数据,如何利用数据挖掘技术从这些高维数据中获得有价值的信息具有重要的研究意义。其中在聚类分析方面,由于传统的聚类方法只能在数据矩阵的行或列单个维度上进行聚类,只能够挖掘数据中的全局信息。由于高维数据中普遍存在着大量的局部信息,为了能够更好的挖掘高维数据中的局部信息,双聚类算法应用而生。双聚类算法能够同时数据矩阵的行和列两个维度上进行聚类,能够更加有效的挖掘高维数据中存在的大量局部信息。双聚类算法的提出能够有效地解决传统聚类算法在高维数据中遭遇的维度灾难问题以及稀疏性问题,然而双聚类算法的研究仍处于起步阶段,目前的各种双聚类算法还存在着诸多不足之处,因此对于双聚类算法的研究变得尤为重要。针对于目前双聚类算法应用最广泛的生物数据领域以及电子商务领域,本文根据不同数据的特点分别进行研究分析,设计出两种应用于不同领域的双聚类算法。针对于高维的基因表达数据,本文设计出一种基于加权互信息的双聚类算法。由于基因数据之间存在着复杂的非线性关系,本文因此提出了一种加权互信息的相似性方法来度量基因数据间的相关关系,通过考虑到条件集合的重要性对于双聚类的影响,本文提出了一个新的目标函数通过权重完成双聚类条件集合的优化更新。最后进行了实验对比验证,实验结果表明本文提出了基于加权互信息的双聚类算法取得了优秀的聚类效果。针对于高维的图像推荐数据中的高度稀疏性以及冷启动问题,本文结合推荐系统中通用的协同过滤算法,提出了一种异步双聚类的协同过滤算法。考虑到图像维度聚类时常遭遇的冷启动问题,本文通过多视图聚类算法将图像点击特征与图像视觉特征结合来获得准确地图像聚类,考虑到用户维度聚类时遭遇的维度灾难问题,本文利用词袋模型结合图像聚类信息对用户进行降维聚类,然后利用协同过滤算法将用户聚类和图像聚类信息进行融合推荐得到高质量的图像推荐结果。最后通过实验与现有方法进行对比分析,实验结果表明本文提出的异步双聚类的协同过滤算法明显优于现有的其它方法。