基于图模型和规则的同名作者消歧研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:jwh777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学文献管理中,同名消歧一直被视为一个具有挑战性的问题,且随着科学文献的大量增长,使得该问题的解决变得愈加困难与紧迫。尽管同名消歧已经在学术界和工业界被大量研究,但由于数据的杂乱以及同名情况十分复杂,导致该问题仍未得到很好解决。本文针对大规模学术论文中的作者同名消歧问题进行研究,主要研究工作如下:(1)提出一种基于原子簇的构建论文关系图的方法,该方法预先将强关联的论文聚集到一起形成原子簇,图中以论文和原子簇作为节点,以论文和原子簇、论文和论文之间的关系构建边,缩小了图的规模。(2)结合论文内容信息和论文间的关系信息进行消歧。模型首先利用论文本身的特征属性信息将每篇论文嵌入到一个统一的向量空间中,然后基于待消歧的姓名构建论文关系图,使用图自动编码器将图的关系信息和论文自身的特征信息结合起来进行学习来得到最终的论文表示向量,最后对待消歧的姓名进行凝聚式层次聚类分析。(3)提出一个基于规则的消歧后处理算法。该算法利用合著者关系以及作者所属机构这两个强消歧特征进行规则约束,对每个待消歧姓名的候选集进行两个层面的处理。该算法能够有效提高模型使用预测簇数(即预测的同名作者人数)时的消歧表现。本文在公开的真实大规模同名消歧数据集上进行两部分的实验对比:1)在指定聚类个数时(即每个姓名的实际作者人数),将本文模型与现有消歧模型进行比较,实验结果表明我们的消歧模型相比于其他方法在F1值上有3%-10%的提升;2)在不指定聚类个数时,将各消歧模型结合本文提出的消歧后处理算法进行实验,实验结果表明,本文的提出的后处理算法可以显著的提高消歧表现。
其他文献
目的阿尔茨海默病(AD)是一种最常见的神经退行性疾病。2010年,全球已有3600万AD患者,预计到2030年AD患者将达到6570万。Tau蛋白异常聚集形成的神经原纤维缠结是AD的主要病理
随着经济的发展,人类对能源的需求日益增大,能源短缺和发展伴随的环境污染问题越来越受到人们的重视,需要寻找新型绿色能源技术满足社会的发展。微生物燃料电池(microbial fue
如今,支持Wi-Fi访问的AP(Access Point)设备与用于安保的视频摄像头已遍布于工作和生活的每个角落,基于Wi-Fi或视频的行人定位等相关研究吸引了广泛的关注。其中,视频定位技
随着多媒体技术和互联网的发展,生活中出现了越来越多的图像,如何从图像库中检索出感兴趣的图像变得越来越重要,图像检索技术应运而生,得到了越来越广泛的应用。图像的特征提
作为一种新兴的高科技产品,薄膜晶体管液晶显示器TFT-LCD(Thin Film Transistor Liquid Crystal Display)在许多行业都有着广泛的应用。随着人们对液晶面板要求的不断提高,其
动物源食品安全是国际社会高度关注的重大公共卫生问题,引起食品安全问题的因素很多,其中70%以上的食源性疾病是由病原微生物引起的,主要由单核细胞增生李斯特菌、沙门菌、大
如何使机器人高效、高性价比地服务于工业一直是国内外学者研究的热点。高端机械臂精度高、速度快、稳定性好但是成本昂贵,中端和低端的机械臂价格便宜但是精度、速度和稳定
目前国内外微波吸收材料的研究已取得了长足的发展。但无论是应用多年的铁氧体,羰基铁粉等,还是近年来发展起来的新型微波吸收材料,都存在吸收频带窄、吸波能力不够强、涂层
近年来,面向需求日益增大的室内位置的相关服务,非常多的人倾向于使用定位技术,医院,仓库物流,博物馆,抢险救灾等场所都是室内定位技术的应用场景。针对在室内定位技术中的组
随着国家一带一路战略的推进,海洋经济的可持续发展成为了该战略的核心之一。因此加强海洋环境的研究和保护,大力发展海洋实时监测技术对国家和社会经济的发展具有重大的战略