论文部分内容阅读
在科学研究领域,通过文献著者搜索相关信息是学术信息检索的主要方式。然而,在各类文献管理系统中,文献著者的跨文本指代现象非常严重,给学术信息检索带来了诸多困难。例如:如何消除不同文献之间的同名作者歧义性问题,即:重名消歧;如何消除不同文献之间的作者指代不统一问题,即:多名聚合。在解决重名消歧问题时,已有方法主要通过作者合作关系、作者主页、邮箱等信息对重名作者进行分类。由于作者的邮箱和主页信息很难获取,如何在这些信息未知的情况下,准确的划分文献著者类别,是重名消歧需要解决的核心问题。此外,文献著者名字的表示形式多样,甚至存在未知形式的名字变体。因此,如何在名字变体未知的情况下,实现多名聚合是跨文本指代消解所面临的又一问题。针对上述问题,本文的主要研究内容如下:(1)提出了基于网络表示学习的重名消歧算法。该方法可以在作者邮箱、主页等信息不可获取,以及作者具体类别个数未知的情况下,解决文献著者重名消歧问题。首先,利用待消歧作者的多阶合作者及论文-作者关系,构建论文-论文网络。其次,通过图网络学习得到论文的特征向量表示。最后,利用论文之间的关系网络,实现文献著者的重名消歧。(2)提出了基于特征相似度的多名聚合算法。该方法可在仅给定作者名字的情况下,通过分析论文间的特征相似度,实现中文文献著者的多名聚合。首先,对于给定文献著者,构建作者名字变体集合。其次,构建论文关键词,并分析论文间不同特征的相似度,实现文献著者的多名聚合。(3)提出了基于监督学习的多名聚合算法。该方法将多名聚合问题划分为论文标题匹配和论文作者匹配两个子问题。首先,对于给定的文献著者,获取其在百度学术学者频道中的论文。其次,利用BLEU算法分析论文-论文及作者-作者的相似度,找到作者所对应的名字变体形式,实现文献著者的多名聚合。(4)验证了上述所提算法的有效性。通过发布在Aminer上的基准数据集以及人工收集的真实数据集,验证了所提算法在重名消歧和多名聚合方面的有效性。此外,所提算法已经应用于《学术头条》APP(http://www.acheadline.com/)。