论文部分内容阅读
随着信息技术和网络通信技术的发展,利用互联网组织的违法行为和活动越来越多。如何从多种网络数据中准确抽取人物的属性和社会关系等信息,进而挖掘潜在的关键人物和社团组织等网情信息,已成为一个备受关注的问题。目前,基于单一网络数据的社会网络抽取与分析技术已比较成熟,但相关技术还无法解决基于多种网络数据的社会网络抽取与分析问题。本文对基于网络数据的社会网络抽取与分析相关技术的应用和研究现状进行了分析,在此基础上,针对Web页面和Email消息这两种数据,围绕基于多种网络数据的社会网络抽取与分析中的几个关键技术,包括社会网络模型、人物属性抽取、社会关系评估及社团发现等,开展了深入研究。主要工作和研究成果包括以下几个方面:(1)社会网络模型方面。针对现有社会网络模型不能充分描述人物在多种网络数据中的属性及社会关系信息,提出了多元社会网络的概念与模型,并给出了基于Web和Email的多元社会网络实例的具体描述方法;该模型为基于多种网络数据的人物的属性抽取、社会关系评估和社团发现等社会网络抽取与分析技术提供了研究基础。基于此模型,提出了多元社会网络抽取分析技术框架,并对其中的关键技术进行了分析,该框架对面向多元社会网络的相关研究和系统设计具有较好的指导意义。(2)基于Web页面的人物属性抽取方面。针对现有Web人物属性抽取的概念和方法不能适用于Web页面中不同类型的人物属性自动抽取问题,提出了广义Web人物属性抽取的概念,并对其进行了形式化描述。为解决广义Web人物属性抽取问题,提出了基于多特征自动推理的Web人物属性抽取方法(MFAR)。在MFAR方法的关联规则定义问题上,提出了多种具有通用性的关联特征,建立了基于单一特征和多特征的属性关联规则,对关联特征和关联规则进行了逻辑表示。提出了利用Markov逻辑网来解决MFAR方法中的关联规则自动训练与推理问题,并给出了基于Markov逻辑网的关联规则自动训练与推理框架。实验结果表明:面对不同类型的Web人物属性抽取问题,与现有基于单一规则的Web人物属性抽取方法相比,该算法可以更准确地从Web页面中自动抽取出人物属性。(3)基于Email数据的人物属性抽取方面。提出了基于邮件数据的人物属性抽取框架;针对框架中邮件正文称呼块和签名块内的候选人名属性抽取问题,提出了基于统计和规则的块定位算法;针对框架中候选人名可信度评估问题,提出了基于聚类和通信重要度的候选人名可信度评估算法,算法通过对候选人名聚类并分析人名在邮件通信中体现的重要度,评估候选人名类的可信度,进而抽取出人物的可信人名。在Enron邮件数据集上的实验结果表明利用提出的块定位算法可以较为准确地抽取出邮件正文中的称呼块和签名块,提出的候选人名可信度评估算法可以准确地抽取出人物的正式人名及其别名。(4)基于Web页面的社会关系评估方面。针对现有Web社会关系评估方法的评估结果准确度不高、稳定性不好等问题,提出了一个基于搜索引擎和文本分析的Web社会关系评估模型;在该模型的基础上,设计了两种关系评估函数,并构建了相应的关系评估方法。实验结果表明:与现有基于搜索引擎和基于文本分析的典型方法相比,基于SETARM模型设计的两种关系评估方法计算出的关系权重更准确、稳定性更好;模型中两类基本方法以线性方式融合且基于文本分析的方法其贡献更大时模型的性能更好。(5)社团发现算法方面。针对现有社团发现算法不能很好地解决多元社会网络中的社团发现问题,提出了多元社会网络中社团发现的基本思想。基于该思想,针对多元社会网络向有权网络的转换问题,提出了综合多元信息的关系紧密度评估方法(MICE);针对有权网络中的社团发现问题,提出了两阶段局部贪婪扩展算法(TSLGE),算法在种子的选择、扩展评价函数的定义和相似社团合并等关键问题的处理上提出了改进方法。在基于Enron邮件集构建的多元社会网络实例上的实验结果,验证了利用MICE方法评估出的节点之间的关系紧密度与真实社会关系更接近;在仿真网络和基于Enron邮件集构建的多元社会网络实例上进行的社团发现实验结果表明,TSLGE算法具有较好的时间性能,且与现有基于局部扩展的典型社团发现算法相比,TSLGE算法在无权网络和有权网络上均可以比较准确地发现网络中的社团。最后,对全文工作进行了总结,并对多元社会网络抽取和分析技术进行了展望,提出了下一步的研究方向。