论文部分内容阅读
随着互联网技术的发展,出现了许多方便快捷的网络社交平台,例如国外的Twitter、Face Book和国内的新浪微博,腾讯微博等,使得微博这样的社交网络服务(SNS)的网络行为变得越来越频繁,微博文本信息呈现出一种爆炸式增长的趋势,发现人物之间的社会关系、社会行为等有着重要的意义。由于微博的短文本特点,许多关系提取方法无法正常的在微博语料库中使用。基于这样的缺陷,本文的研究内容包括以下几点:(1)首先针对微博特点改进了基于依赖三元核的人物关系提取方法,改进内容主要涉及词项的语义相似度和句法相似度。本文利用词项相似度工具HowNet来对词项语义特征进行了分析,然后提出了词项的词性标注(POS)和语义角色(GR)二元组(POS,GR)进行词项句法特征分析,并且计算了词项信息熵以及(POS,GR)二元组的互信息熵的值来分别作为词项语义特征和句法特征的权重。本文将改进后的依赖三元核用于提取人物之间的互动关系集合(IR),并且作为元学习层的输入进行关系分析。(2)在获得互动关系后,经过分析发现关系种类复杂,运用在图谱上会产生很多重复、冗余节点,因此本文的元学习层运用互动关系作为输入,提出7种关系描述词提取规则和关系描述词分类算法(RKWCA),将人物社会关系大致分为了朋友,工作,家庭,敌意这四种关系,最后将人物实体作为节点,关系描述词作为属性,关系类型作为边生成可视化图谱。(3)本文对提出的方法进行了实验,从微博中提取出了人物的互动关系和社会关系,并且将关系描述词作为边的属性构建出了微博人物知识图谱。本文利用句法依赖树解决了短文本处理的问题,并且利用依赖三元核找到人物关系之间的特征,将特征通过元学习的策略学习出人物的社会关系,构建出了可视化人物知识图谱,实验证明了本文研究具有一定的实践和理论意义,提出的基于微博的关系挖掘方法是可行的。