论文部分内容阅读
人物检索是互联网用户最重要的活动之一。人物搜索引擎、社会网络构建等与人物相关的网络应用成为研究的热点。人物属性抽取是这些研究的一个重要基础。本文基于维基百科的人物文本进行了人物属性的抽取研究,并在人物属性抽取的基础上,结合人物维基文本中的其他信息,构建了一个社会网络。维基百科人物文本中的信息盒以表格的形式对人物的重要属性进行了描述,这为抽取人物属性提供了很好的数据源。但是只有不到40%的维基文本包含信息盒,并且还有部分信息盒中的属性信息缺失。因此,如何自动生成信息盒及填充信息盒中缺失的属性信息成为本文的研究内容之一。信息盒模板有不同的类型,不同的信息盒模板包含的属性类型不同。在利用信息盒模板抽取属性之前,必须先确定维基文本使用的信息盒模板类型。本文把该问题当作一个文本分类任务处理。在特征选择方面,提出了基于超链接词、文本类别和实词的特征选择方法,并且与所有词作为特征的方法进行了对比,在不同的分类器上进行了实验。结果表明,本文提出的方法在分类性能上具有一定的优越性。在属性抽取任务中,本文提出了一种全自动的抽取方法。该方法利用部分已有信息盒中的“人物姓名-属性-属性值”三元组标记维基文本句子,自动生成带标注的数据集,通过机器学习生成描述人物属性的模板,从而通过模板匹配获取更多人物的属性信息,达到生成或完善信息盒的目的。本文在五个常用属性上进行了实验,实验表明,该方法可以有效的抽取出人物的属性。最后,基于抽取出的人物属性以及维基文本中的其他信息挖掘出一个相似性社会网络。本文将人物的不同信息进行了分类,提出“人物模型”的表示方法。对于人物模型中的不同维度,给出了不同的相似度计算方法。对于人物模型总的相似度的计算,本文把人物实体看作一个系统,采用了系统相似性度量的方法。此外,本文还定义了四种关系,对给定的两个人物,在输出相似度的同时,进一步给出了两个人物之间的关系。最后,在维基百科真实人物的数据集上进行了实验,分析了网络的分布特征,证明了该方法的可行性。