维基百科人物属性自动获取及社会网络构建方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:cwhgh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人物检索是互联网用户最重要的活动之一。人物搜索引擎、社会网络构建等与人物相关的网络应用成为研究的热点。人物属性抽取是这些研究的一个重要基础。本文基于维基百科的人物文本进行了人物属性的抽取研究,并在人物属性抽取的基础上,结合人物维基文本中的其他信息,构建了一个社会网络。维基百科人物文本中的信息盒以表格的形式对人物的重要属性进行了描述,这为抽取人物属性提供了很好的数据源。但是只有不到40%的维基文本包含信息盒,并且还有部分信息盒中的属性信息缺失。因此,如何自动生成信息盒及填充信息盒中缺失的属性信息成为本文的研究内容之一。信息盒模板有不同的类型,不同的信息盒模板包含的属性类型不同。在利用信息盒模板抽取属性之前,必须先确定维基文本使用的信息盒模板类型。本文把该问题当作一个文本分类任务处理。在特征选择方面,提出了基于超链接词、文本类别和实词的特征选择方法,并且与所有词作为特征的方法进行了对比,在不同的分类器上进行了实验。结果表明,本文提出的方法在分类性能上具有一定的优越性。在属性抽取任务中,本文提出了一种全自动的抽取方法。该方法利用部分已有信息盒中的“人物姓名-属性-属性值”三元组标记维基文本句子,自动生成带标注的数据集,通过机器学习生成描述人物属性的模板,从而通过模板匹配获取更多人物的属性信息,达到生成或完善信息盒的目的。本文在五个常用属性上进行了实验,实验表明,该方法可以有效的抽取出人物的属性。最后,基于抽取出的人物属性以及维基文本中的其他信息挖掘出一个相似性社会网络。本文将人物的不同信息进行了分类,提出“人物模型”的表示方法。对于人物模型中的不同维度,给出了不同的相似度计算方法。对于人物模型总的相似度的计算,本文把人物实体看作一个系统,采用了系统相似性度量的方法。此外,本文还定义了四种关系,对给定的两个人物,在输出相似度的同时,进一步给出了两个人物之间的关系。最后,在维基百科真实人物的数据集上进行了实验,分析了网络的分布特征,证明了该方法的可行性。
其他文献
随着多媒体技术的迅速发展和计算机的不断普及,计算机的性能也在不断发生变化。计算机运行速度快、运算量大、计算能力强等特点不断增强。同时,高质量视频的快速传输和共享已
为了应对服务及服务组合应用执行过程中所面临的各种异常情况,保证其运行效果,需要在异常发生或者预测到异常发生时对组合服务进行调整以适应执行环境的动态变化。相同的组合
入侵检测(Intrusion Detection)被认为是防火墙之后的第二道安全闸门。它通过收集和分析网络行为、安全日志、审计数据以及其它网络上可以获得的信息和计算机系统中若干关键
自治化是未来网络体系结构的研究中的一个主要方向和趋势。网络自治化的思想得益于自治计算、自治通信领域研究的思想,在网络体系结构设计中自治化功能,以便实现自组织(self-
根据金矿顶板的安全现状,分析现有的金矿顶板安全监测技术,总结其优缺点。根据煤矿测力锚杆监控顶板应力的成熟技术,提出一种应用于金矿的测力锚杆监控顶板应力的方案。根据
后基因组时代,作为复杂网络的生物网络,受到广泛的关注。为全面理解蛋白质之间是如何通过相互作用来完成生命活动,必须分析蛋白质相互作用(Protein-ProteinInteraction, PPI)网
传感器节点部署区域的开放特性以及无线电的广播特性,使得WSN的路由很容易遭到攻击者的破坏。目前,针对WSN的路由协议有很多,在安全路由方面研究主要集中于针对广播路由信息
随着互联网时代的发展,大量的信息数据在不断产生。个性化推荐帮助用户从海量数据中筛选出需求的数据,为了使用户获得更好的推荐体验,如何优化推荐就成为推荐领域的研究热点
近年来本体在知识管理和语义网络中扮演着越来越重要的角色,是许多应用的必不可少的一部分。有了本体的支持,不管是用户还是系统都能使用一个领域的共同理解来进行交流。由于
随着中国移动产品、服务的增多,受理渠道的多样化,网络业务平台也越来越复杂,业务流程的不完善性越来越明显,由于数据不一致情况造成业务、计费及服务的问题日趋严重,由此带来的客