论文部分内容阅读
链接挖掘作为数据挖掘的分支,它包含了对链接预测模型以及链接预测技术方法的研究。随着Internet的迅速普及和发展,电子邮件早已成为一种重要的通信方式,人们通过邮件通信记录能提取出适用于社会网络关系分析的数据,这使得邮件通联网络中的链接预测一直是数据挖掘领域的研究热点。本文根据邮件通联网络的特点,从多个角度获取有助于链接预测的信息,并针对多种已有链接预测方法的局限加以改进,提出三种分别适用于邮件通联网络演化链接和稳定链接的预测方法。通过在Enron邮件数据集上的实验表明,相对于已有的某些链接预测算法,改进后的方法具有较高的预测精度和预测准确性。本文的研究内容和成果具体可分为以下几个方面:1.已有的邻近度指标不适用于邮件通联网络的演化链接预测。本文根据邮件通联网络具有议题小组结构的特点,利用邮件议题信息对节点用户进行聚类分组,通过分析小组内和小组间演化链接的成因后,提出两种在已有算法基础上加以拓展改进的邻近度指标SIGCN和SIGRA来预测演化链接。实验表明,相比改进之前,改进后的算法的预测精度和预测准确度均有明显的提高。2.提出一种利用贝叶斯分类框架的新策略来预测邮件通联网络的演化链接。首先使用本文改进的邻近度指标SIGCN和SIGRA作为分类属性,优化其类条件概率,再通过对节点分类并根据类别间的通联概率分布提出新的分类属性IIs。为放宽使用朴素贝叶斯分类器的前提条件,利用改进的分类模型WCB组合所有分类属性来分类节点对,实现链接预测。相比优化前的分类模型,改进的分类预测方法大大缩短了分类训练时间和节省了内存使用空间,通过实验也展示了本文方法相比基于邻近度RA的预测法在预测精度上的较大优势。3.针对邮件通联网络中议题组结构特有的可重叠性和层次性,新定义了一种邮件通联网络的边演化模型框架HOSBM,并给出了HOSBM的似然估计函数表达式。通过借鉴已有的用来预测伪链接的思想,将其应用到预测稳定链接中去,并结合使用马尔科夫蒙特卡洛算法,提出了一种基于HOSBM生成链接可信度的邮件通联网络稳定链接的预测方法。最后的实验结果表明,相比已有的基于邻近度CN的链接预测法,新提出的预测方法在预测精度和准确度上有明显提升。