基于Web和Email的多元社会网络抽取与分析关键技术研究

被引量 : 1次 | 上传用户:weiwen2100000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和网络通信技术的发展,利用互联网组织的违法行为和活动越来越多。如何从多种网络数据中准确抽取人物的属性和社会关系等信息,进而挖掘潜在的关键人物和社团组织等网情信息,已成为一个备受关注的问题。目前,基于单一网络数据的社会网络抽取与分析技术已比较成熟,但相关技术还无法解决基于多种网络数据的社会网络抽取与分析问题。本文对基于网络数据的社会网络抽取与分析相关技术的应用和研究现状进行了分析,在此基础上,针对Web页面和Email消息这两种数据,围绕基于多种网络数据的社会网络抽取与分析中的几个关键技术,包括社会网络模型、人物属性抽取、社会关系评估及社团发现等,开展了深入研究。主要工作和研究成果包括以下几个方面:(1)社会网络模型方面。针对现有社会网络模型不能充分描述人物在多种网络数据中的属性及社会关系信息,提出了多元社会网络的概念与模型,并给出了基于Web和Email的多元社会网络实例的具体描述方法;该模型为基于多种网络数据的人物的属性抽取、社会关系评估和社团发现等社会网络抽取与分析技术提供了研究基础。基于此模型,提出了多元社会网络抽取分析技术框架,并对其中的关键技术进行了分析,该框架对面向多元社会网络的相关研究和系统设计具有较好的指导意义。(2)基于Web页面的人物属性抽取方面。针对现有Web人物属性抽取的概念和方法不能适用于Web页面中不同类型的人物属性自动抽取问题,提出了广义Web人物属性抽取的概念,并对其进行了形式化描述。为解决广义Web人物属性抽取问题,提出了基于多特征自动推理的Web人物属性抽取方法(MFAR)。在MFAR方法的关联规则定义问题上,提出了多种具有通用性的关联特征,建立了基于单一特征和多特征的属性关联规则,对关联特征和关联规则进行了逻辑表示。提出了利用Markov逻辑网来解决MFAR方法中的关联规则自动训练与推理问题,并给出了基于Markov逻辑网的关联规则自动训练与推理框架。实验结果表明:面对不同类型的Web人物属性抽取问题,与现有基于单一规则的Web人物属性抽取方法相比,该算法可以更准确地从Web页面中自动抽取出人物属性。(3)基于Email数据的人物属性抽取方面。提出了基于邮件数据的人物属性抽取框架;针对框架中邮件正文称呼块和签名块内的候选人名属性抽取问题,提出了基于统计和规则的块定位算法;针对框架中候选人名可信度评估问题,提出了基于聚类和通信重要度的候选人名可信度评估算法,算法通过对候选人名聚类并分析人名在邮件通信中体现的重要度,评估候选人名类的可信度,进而抽取出人物的可信人名。在Enron邮件数据集上的实验结果表明利用提出的块定位算法可以较为准确地抽取出邮件正文中的称呼块和签名块,提出的候选人名可信度评估算法可以准确地抽取出人物的正式人名及其别名。(4)基于Web页面的社会关系评估方面。针对现有Web社会关系评估方法的评估结果准确度不高、稳定性不好等问题,提出了一个基于搜索引擎和文本分析的Web社会关系评估模型;在该模型的基础上,设计了两种关系评估函数,并构建了相应的关系评估方法。实验结果表明:与现有基于搜索引擎和基于文本分析的典型方法相比,基于SETARM模型设计的两种关系评估方法计算出的关系权重更准确、稳定性更好;模型中两类基本方法以线性方式融合且基于文本分析的方法其贡献更大时模型的性能更好。(5)社团发现算法方面。针对现有社团发现算法不能很好地解决多元社会网络中的社团发现问题,提出了多元社会网络中社团发现的基本思想。基于该思想,针对多元社会网络向有权网络的转换问题,提出了综合多元信息的关系紧密度评估方法(MICE);针对有权网络中的社团发现问题,提出了两阶段局部贪婪扩展算法(TSLGE),算法在种子的选择、扩展评价函数的定义和相似社团合并等关键问题的处理上提出了改进方法。在基于Enron邮件集构建的多元社会网络实例上的实验结果,验证了利用MICE方法评估出的节点之间的关系紧密度与真实社会关系更接近;在仿真网络和基于Enron邮件集构建的多元社会网络实例上进行的社团发现实验结果表明,TSLGE算法具有较好的时间性能,且与现有基于局部扩展的典型社团发现算法相比,TSLGE算法在无权网络和有权网络上均可以比较准确地发现网络中的社团。最后,对全文工作进行了总结,并对多元社会网络抽取和分析技术进行了展望,提出了下一步的研究方向。
其他文献
信息技术教学的主要目的是提高学生的信息素养。在我国由于各种原因信息技术教学没有受到很好的重视,即使是在教学条件比较发达的东部地区。信息技术教学模式上仍然采用传统的
基于自编SPH程序,模拟了球形弹丸超高速撞击薄板。将模拟结果与实验X照片、弹丸变形后的轴向径向尺寸等数据进行对比,定量研究了不同靶板厚度时弹丸内部应力波分布。结果表明
本论文以密排六方结构(HCP)且具有很强基面织构的商用AZ31热轧镁合金板材为研究对象,变形方式选用具有高应变速率特点的动态塑性变形(DPD)。从我们的研究目的出发,设计出DPD方向与
计算机技术和通信技术发展极快,已经非常成熟,而获取信息的工具——传感器处于明显的拖后腿状态,自动控制系统的飞速发展要求数字化、智能化和标准化的传感器。实现传感器各
中国新时期武器装备动员的机制与功能是高度统一的整体.武器装备动员机制包括目标形成机制、动力机制、约束机制和调控机制等互为前提、相互渗透、互为牵制的具体机制.其功能
邮轮游艇产业是中国特色社会主义先行示范区建设不可缺少的组成部分,大鹏半岛发展邮轮游艇产业在先行示范区建设和粤港澳大湾区协同发展中具有重要意义。大鹏半岛发展邮轮游
贫困,一个既古老又现实的问题,贯穿着人类社会发展的始终。它具有自我强加的持续性,类似于一个陷阱,使得处于该陷阱中的人们长期处于一种低水平的均衡状态。打破低水平均衡、
介绍结构半主动控制技术的发展过程及分类,综述了半主动控制的控制策略和算法,最后讨论了建筑结构半主动控制的研究方向.
现在越来越多的人将户外运动作为一种时尚的休闲方式,对户外装的要求也越来越高,不仅要舒适,而且要美观。因此国外一些公司越来越重视户外装,尤其是冲锋衣样版结构的研究。然
背景:糖尿病脑病(Diabetes encephalopathy, DE)是糖尿病(Diabetes mellitus, DM)严重并发症之一,损害患者的认知和记忆。传统治疗采用噻唑烷二酮(Thiazolidinedione, TZD)类过氧化物