论文部分内容阅读
双聚类技术作为一种局部关联分析方法,被提出用于从数据矩阵中挖掘符合子矩阵模型条件的子矩阵模式,进而发现数据中有趣的局部相关性。然而,在双聚类技术研究过程中,如果只关注于保证每个被挖掘的子矩阵模式的质量,即保证每个子矩阵模式都完全符合期望的条件,那么在一定程度上很难控制所有子矩阵模式之于完整数据矩阵的覆盖程度和子矩阵模式之间的重叠程度。反之,如果想要实现被挖掘的子矩阵模式集合完全覆盖完整数据矩阵且子矩阵模式之间互不相交,即想要发现尽可能多的不同的局部相关性,那么势必很难保证每个子矩阵模式都符合期望的条件。值得注意的是,理论上符合期望条件的子矩阵模式所揭示的局部相关性的准确度更高。因此,这存在一个子矩阵模式质量与其在完整数据矩阵上的位置分布之间的权衡问题。此外,由于较高的计算复杂性,现有的双聚类技术的研究主要集中在规模有限的密集数据集上,这显然在例如推荐系统、文本挖掘或生物信息学等现实且具有大规模稀疏数据集的应用中并不适用。因此,这存在一个大规模稀疏数据集的处理问题。针对上述问题,本文首先定义了一种新的约束双聚类问题。为了保证每个被挖掘的子矩阵模式的质量,提高其揭示的局部相关性的准确度,约束双聚类问题的目标是挖掘满足预定义的子矩阵模型条件的子矩阵模式;此外,还附加了覆盖率约束和重叠度约束这两个约束条件来控制被挖掘的子矩阵模式集合在完整数据矩阵上的位置分布,从而减少挖掘的冗余相关性信息,进而提高算法的计算效率。接着,为了将约束双聚类应用于推荐系统预测评分问题,本文提出并实现了一种有效的基于稀疏保序子矩阵模型的约束双聚类算法。该算法通过线性地扫描完整数据矩阵来挖掘符合条件的子矩阵模式,并对子矩阵模式中的缺失值预测评分。实验结果表明,本文提出的约束双聚类算法在推荐系统预测评分准确度方面,与两个推荐系统领域传统的User-based和Item-based协同过滤算法,及两个同样基于双聚类技术的推荐系统算法相比,具有较高的准确度。最后,为了提高算法的计算效率,本文设计了一种基于上述约束双聚类算法的分布式计算框架,并称其为分布式约束双聚类算法,用于处理大规模的稀疏数据集。实验结果表明,本文提出的分布式约束双聚类算法不仅提高了预测评分的准确度,而且具有较高的稳定性和扩展性。