论文部分内容阅读
在现实社会网络中存在着许多关系数据,这些数据集合由不同类型的实体构成,实体之间广泛地存在着复杂的链接关系,对这些链接信息的挖掘可以为我们提供关于这个社会网络更丰富更准确的信息。因此,研究如何充分利用数据间的链接关系对数据进行分类在社会网络分析中具有重要的意义。
关系马尔可夫网是一种能够有效处理复杂关系数据的判别式概率图模型,由马尔可夫网和关系模式结合产生。将该模型应用于社会网络数据分类任务中,可以充分捕捉数据间的依赖关系,从而有效提高数据分类的准确度。
本课题对关系马尔可夫网模型的学习过程进行了一定的研究。其中,深入研究了采用似然估计方法构造模型目标函数的过程。研究发现,随着数据规模的扩大,该方法的时间复杂度越来越高。为了解决这一问题,引入了采用伪似然估计方法代替似然估计方法来构造目标函数。在参数优化方面,研究了共轭梯度法、梯度下降法和拟牛顿法等非线性最优化方法以及黄金分割法、牛顿法和Armijo-Goldstein法等一维搜索方法。并且从分类准确度和时间复杂度两个方面比较了各个算法的优缺点,力求给出一种较优的算法组合方案。
在实验过程中,针对Cora数据集和WebKB数据集分别采用关系马尔可夫网进行了数据分类。实验证明采用伪似然估计方法构造目标函数在时间复杂度方面比采用似然估计方法要低很多。在参数优化时,采用拟牛顿法和黄金分割法的组合方案可以同时取得较高的分类准确度和较低的时间复杂度。