基于稀疏保序子矩阵的分布式约束双聚类算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:gl_521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双聚类技术作为一种局部关联分析方法,被提出用于从数据矩阵中挖掘符合子矩阵模型条件的子矩阵模式,进而发现数据中有趣的局部相关性。然而,在双聚类技术研究过程中,如果只关注于保证每个被挖掘的子矩阵模式的质量,即保证每个子矩阵模式都完全符合期望的条件,那么在一定程度上很难控制所有子矩阵模式之于完整数据矩阵的覆盖程度和子矩阵模式之间的重叠程度。反之,如果想要实现被挖掘的子矩阵模式集合完全覆盖完整数据矩阵且子矩阵模式之间互不相交,即想要发现尽可能多的不同的局部相关性,那么势必很难保证每个子矩阵模式都符合期望的条件。值得注意的是,理论上符合期望条件的子矩阵模式所揭示的局部相关性的准确度更高。因此,这存在一个子矩阵模式质量与其在完整数据矩阵上的位置分布之间的权衡问题。此外,由于较高的计算复杂性,现有的双聚类技术的研究主要集中在规模有限的密集数据集上,这显然在例如推荐系统、文本挖掘或生物信息学等现实且具有大规模稀疏数据集的应用中并不适用。因此,这存在一个大规模稀疏数据集的处理问题。针对上述问题,本文首先定义了一种新的约束双聚类问题。为了保证每个被挖掘的子矩阵模式的质量,提高其揭示的局部相关性的准确度,约束双聚类问题的目标是挖掘满足预定义的子矩阵模型条件的子矩阵模式;此外,还附加了覆盖率约束和重叠度约束这两个约束条件来控制被挖掘的子矩阵模式集合在完整数据矩阵上的位置分布,从而减少挖掘的冗余相关性信息,进而提高算法的计算效率。接着,为了将约束双聚类应用于推荐系统预测评分问题,本文提出并实现了一种有效的基于稀疏保序子矩阵模型的约束双聚类算法。该算法通过线性地扫描完整数据矩阵来挖掘符合条件的子矩阵模式,并对子矩阵模式中的缺失值预测评分。实验结果表明,本文提出的约束双聚类算法在推荐系统预测评分准确度方面,与两个推荐系统领域传统的User-based和Item-based协同过滤算法,及两个同样基于双聚类技术的推荐系统算法相比,具有较高的准确度。最后,为了提高算法的计算效率,本文设计了一种基于上述约束双聚类算法的分布式计算框架,并称其为分布式约束双聚类算法,用于处理大规模的稀疏数据集。实验结果表明,本文提出的分布式约束双聚类算法不仅提高了预测评分的准确度,而且具有较高的稳定性和扩展性。
其他文献
遥感高光谱图像因其丰富的光谱信息而被广泛用于精准农业、军事目标识别、地物勘测等领域,然而由于成像传感器物理条件的限制,遥感高光谱图像的空间分辨率较低,制约了高光谱
背景:实体肿瘤通过新生血管为其生长提供营养和转移途径,遏制血管形成可抑制肿瘤生长。新生血管形成在实体瘤及多种疾病中起关键作用,是药物治疗的良好靶点。新型的脊椎类模
图像超分辨率重建技术(Super-Resolution,SR)指的是将给定的低分辨率图像通过特定的算法恢复成相应的高分辨率图像。高分辨率图像可以提供更多的细节,这些细节往往在应用中起
研究背景和目的蛋白质相互作用对肿瘤细胞的生物学行为过程具有非常重要的作用。PFKFB3是调节细胞糖酵解过程的一个关键酶,已经成为靶向肿瘤能量代谢研究的一个重要靶点。CDK
我国幅员辽阔,农业发展迅速。紫花苜蓿营养丰富,对环境的适应能力较强,是牧草之王。伴随着农耕方式的转变,除草剂在农业生产上得到广泛的推广和使用,为降低除草剂对紫花苜蓿生长的影响,对紫花苜蓿进行品种改良是关键。虽然常规育种方法有可能提高紫花苜蓿的抗性,但可种植面积变少,品种选育时间较长,因此我们力求寻求出一种高效、便捷的方法—抗除草剂转基因紫花苜蓿与雄性不育系杂交法。以紫花苜蓿雄性不育系作为母本,可大
由于核磁共振对软组织有较佳的清晰度,采用MRI图像引导的乳腺介入手术因其微创性和准确性而备受关注,但是MRI具有其独特性,如内部空间有限,材料选择需使用核磁兼容的材料等,
大数据云计算在推动各行各业快速发展的同时,也给个人隐私安全带来了严峻挑战。为了能够更好地推动各行业的快速发展,越来越多数据需要被共享,这些数据中包含了一些较为敏感
从2003年Belle合作组发现X(3872)以来,一系列的类粲偶素态(XYZ态)被BaBar、Belle、CLEO和BESⅢ合作组在e+e-碰撞中观察到。如:Belle合作组在B±→K±π+π-J/ψ衰变中观测到X
森林在生态系统中起着关键作用,是陆地生态系统的主题,森林具有多种强大的功能,不但可以实现大气的净化,确保空气保持稳定的平衡,而且还能为人类的生存与发展提供生活的基本
社区识别是社交网络分析领域的重要研究内容,近年来得到了各领域研究者的广泛关注。社区是网络中的密集群组,满足同一社区内部节点间的链接相对紧密,不同社区节点间的链接相