科技文献作者消歧方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:lrdw149
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,网络海量科技文献知识库为科技工作者提供便捷的文献检索和学习研究服务,同时大量的作者同名现象降低了检索的准确性,因此作者消歧是该类知识库亟待解决的一个问题。作者消歧一般采用聚类方法来处理,针对目前聚类消歧方法没有充分利用作者间关系,本文研究提出一种基于二阶段层次聚类的作者消歧方法,用于解决同单位和不同单位的同名作者消歧问题,首先根据启发式策略从待消歧候选作者中发现同人的作者,通过聚类合并实现消歧,然后充分利用全局合著者关系,在聚类的迭代过程中补充合著者关系并结合作者的属性特征实现消歧。本文的主要研究工作如下:(1)作者消歧数据预处理。首先,针对网上不同文献知识库的文献格式不统一的问题,设计研发了科技文献数据的采集和抽取框架,将文献存储为标准的结构化数据;其次构建作者和论文实体,将结构化数据转化为RDF三元组来表示,利用D2R工具展示作者和文献实体及实体之间的关系;最后分析作者属性特征和关系特征的消歧能力,选择合适的特征用于作者消歧任务。(2)通过构建论文-合著者的关系图,研究提出一种基于图的作者消歧模型,建立消歧矩阵。研究提出利用词向量构建文档向量实现作者的属性相似度计算;研究提出基于图的合著者关系相似度计算;针对不同合著者对同名作者的区分度不同,研究提出利用姓名模糊度来衡量合著者的权重;最后提出一种基于属性特征和合著者关系的线性组合的相似度计算方法,结合作者的属性特征、合著者关系特征以及姓名模糊度,实现同名作者间的相似度计算。(3)充分利用合著者关系这一强特征,提出一种基于二阶段层次聚类的作者消歧方法。在第一阶段,针对可信合著者关系稀疏的问题,利用合著者扩展和共现关系实现待消歧候选作者的聚类合并;在第二阶段,针对合著者关系可信度低的问题,提出一种合著者关系的全局计算,结合线性组合的相似度计算方法进一步实现聚类合并。实验表明,本方法具有更优的准确性。
其他文献
近年来,Web服务计算领域随着SOA技术的广泛应用而得到了快速发展,从中衍生出了服务发现、服务组合、服务选择等若干子领域。服务选择,作为服务执行前的重要步骤,其中的QoS预
随着嵌入式系统的普及应用,选用实时操作系统(RTOS)作为其基础软件平台已成为必然选择。然而,由于嵌入式系统的强实时约束,导致RTOS无法对资源竞争等高复杂度的操作提供全面
用户的情感信息在人机交互中起着重要的作用,自动情绪识别的应用可以使人机交互变得更加智能和友好。近年来,基于脑电的自动情绪识别受到了广泛关注并涌现出大量成果,但其在
P2P技术一项最重要的应用就是P2P网络,P2P网络“无中心化”的特征使得其不断受到人们的关注。然而,随着网络规模的扩大,越来越多的恶意节点加入其中,使得网络中存在较大的安全隐
在布料模拟中,为了达到较高的真实感,一般采用物理模拟的方法,虽然物理模拟方法可以得到高精度的结果,但通常需要花费较高的计算代价,因此效率和精度的权衡是需要关心的最重
近些年来,随着显卡技术的高速发展以及性价比的提升,将GPU用于通用计算逐渐成为国内外研究的热点。早期的GPGPU开发使用GPU的图形学接口,开发难度大、成本高。NVIDIA公司推出
敦煌飞天艺术有着深厚的文化内涵和强烈的艺术感染力。但是目前在飞天动画的制作方面存在流程复杂,制作耗时,技术要求高等问题。而且在动画制作过程中也缺乏对飞天飘带运动模
伴随着数字多媒体技术和设备的快速普及,使得人们获取和制作视频的方式更加容易,同时这些视频数据可以很容易的被人们通过视频编辑软件进行任意修改,使得互联网中充斥着各种
嵌入式系统开发、生产过程中涉及到的一个很重要的问题就是“镜像文件烧写”,镜像文件的烧写方案直接关系到嵌入式设备的开发、生产效率。目前国内很多嵌入式设备厂商的生产
情感分析是对文本中的观点、情感和主观性的计算处理过程。基于特征的用户评论情感分析是情感分析领域近几年出现的一个研究热点,它主要面向产品的用户评论,进行产品特征提取