论文部分内容阅读
社交网络上的人物社会关系是分析人物网络行为的一类重要信息,如何高效准确地从社交网络上抽取人物关系信息,是本文研究的重点本文首先提出一种基于特征提取的人物关系分类的改进方法,然后再将这种方法应用到微博语料中,通过对新浪微博中两个用户之间的微博评论等含有二人关系的语料内容进行采集分析和过滤处理,然后进行语义角色标注和句法结构分析,提取人物关系特征,训练人物关系模版,进而实现人物关系分类本文的研究内容主要包括以下几个方面:首先,本文使用基于语义角色标注的方法来提取人物关系特征通过对中文语句语义角色标注,将两个人名实体在语句中的位置和成分以及语句结构类型作为人物关系特征,并通过上述分析进行选取核心特征词,丰富了人物关系特征的种类其次,本文实现对微博中的语料进行人物关系抽取本文使用新浪微博的API接口获取部分新浪微博语料,针对微博语料不规则不完整的特点,本文采用对微博语料进行规则填充的方法,使其符合标准的中文语句结构,再使用本文提出的改进方法对微博中的语料进行分析,抽取语料中的人物关系,对新浪微博中的人物的虚拟关系圈进行关系抽取最后,本文使用Flex技术实现微博用户人物关系网的可视化分析本文使用Flex的开源可视化框架Birdeye来实现可视化模块,构建人物关系网络拓扑图,并对于微博用户的好友活跃度分析好友性别区域分布等信息使用直方图和饼状图的方式来实现为了证实基于语义角色标注的特征提取方法的关系抽取效果,本文分别对新闻类语料和微博类语料进行实验,在新闻类语料的实验中选用ǎ人民日报ǐ语料中3000个含有两个人名实体的语句,微博类语料选用了3000个含有两个人名实体的微博语句,人工对这些人物关系进行标注,分别使用基于语义角色标注的特征提取方法和只选用上下文词集为特征提取方法进行对比实验在新闻类语料中本文提出的方法取得了的准确率和召回率分别81.17%和81.00%,选用上下文词集特征方法的准确率和召回率分别为72.32%和72.35%;微博类语料中本文提出的方法取得的准确率和召回率分别为71.65%和71.70%,后者的准确率和召回率分别为62.67%和62.60%通过实验表明无论是对于新闻类语料还是微博类语料,本文提出的基于语义角色标注的特征提取方法在人物关系抽取的问题上与选用上下文词集作为特征的方法相比都能够取得更优的结果