论文部分内容阅读
近年来,网络海量科技文献知识库为科技工作者提供便捷的文献检索和学习研究服务,同时大量的作者同名现象降低了检索的准确性,因此作者消歧是该类知识库亟待解决的一个问题。作者消歧一般采用聚类方法来处理,针对目前聚类消歧方法没有充分利用作者间关系,本文研究提出一种基于二阶段层次聚类的作者消歧方法,用于解决同单位和不同单位的同名作者消歧问题,首先根据启发式策略从待消歧候选作者中发现同人的作者,通过聚类合并实现消歧,然后充分利用全局合著者关系,在聚类的迭代过程中补充合著者关系并结合作者的属性特征实现消歧。本文的主要研究工作如下:(1)作者消歧数据预处理。首先,针对网上不同文献知识库的文献格式不统一的问题,设计研发了科技文献数据的采集和抽取框架,将文献存储为标准的结构化数据;其次构建作者和论文实体,将结构化数据转化为RDF三元组来表示,利用D2R工具展示作者和文献实体及实体之间的关系;最后分析作者属性特征和关系特征的消歧能力,选择合适的特征用于作者消歧任务。(2)通过构建论文-合著者的关系图,研究提出一种基于图的作者消歧模型,建立消歧矩阵。研究提出利用词向量构建文档向量实现作者的属性相似度计算;研究提出基于图的合著者关系相似度计算;针对不同合著者对同名作者的区分度不同,研究提出利用姓名模糊度来衡量合著者的权重;最后提出一种基于属性特征和合著者关系的线性组合的相似度计算方法,结合作者的属性特征、合著者关系特征以及姓名模糊度,实现同名作者间的相似度计算。(3)充分利用合著者关系这一强特征,提出一种基于二阶段层次聚类的作者消歧方法。在第一阶段,针对可信合著者关系稀疏的问题,利用合著者扩展和共现关系实现待消歧候选作者的聚类合并;在第二阶段,针对合著者关系可信度低的问题,提出一种合著者关系的全局计算,结合线性组合的相似度计算方法进一步实现聚类合并。实验表明,本方法具有更优的准确性。