论文部分内容阅读
随着信息技术和互联网技术的快速发展,各个学术系统的出现,为科研人员的研究工作带来了极大的便利。对于学术系统而言,如何能够提供高质量的信息服务是其非常重要的问题。学者相关的信息服务是学术系统中重要的组成部分,因此如何有效地分析挖掘学者信息成为了学术系统的一个基础性问题,它所面临的一些关键挑战包括:(1)如何能够从多源异构的学术信息中正确地识别学者个体;(2)如何能够准确地构建学者画像;(3)支撑大规模、多类型学者信息挖掘任务的系统应该如何设计。在本文中,我们针对学术领域中学者信息挖掘上述挑战性问题,重点研究了学者的重名消歧问题、学者的代表性标签挖掘问题,并且设计实现了大规模学者信息多任务挖掘系统。通过上述学者信息的挖掘研究,旨在提升学者的数据质量,挖掘学术数据的内在价值,从而进一步提升学术系统的服务质量。本文的研究成果主要包括: 1、基于协同分类的学者重名消歧模型 我们将学者重名消歧问题形式化为协同分类问题,并且提出基于迭代的ICAND(Iterative Classification Algorithm for Name Disambiguation)算法用于求解该问题。我们的方法具有如下的优势:(1)分类过程后重名学者的数量能够被自动地确定;(2)在消歧过程中能够灵活包含文章对的多种特征,包括固有特征和关系特征;(3)协同推理中能够有效地利用文章对之间的关系,解决消歧中遇到的信息稀缺的问题。通过在数据集上进行实验表明,我们提出的方法明显优于其他基准方法。 2、基于领域关键词的学者代表性标签挖掘问题 我们提出学者代表性标签挖掘问题的解决方案,用于解决学者画像中的学者研究兴趣的建模。首先通过学者相关论文的关键字信息构建学者的候选标签,然后将候选标签的选择问题形式化为排序问题。我们提出学者标签的语义表示以及学者的语义表示,用于学者标签的相关特征的计算,在此基础之上提出了基于随机森林的学者候选标签排序算法。通过实验表明,我们提出的代表性标签挖掘算法优于其他基准方法。 3、大规模学者信息多任务挖掘系统 我们设计并实现了面向大规模学者信息的多任务挖掘系统,并应用到在线学术平台“学术圈”中。该系统以学者为中心对学术信息进行存储、组织和多维度分析,包括了面向异构数据存储与管理的数据中心模块,以及面向多任务的学者分析挖掘模块,并通过以学者为中心的信息访问API进行互联。其中,多任务学者分析挖掘模块,包括了学者重名消歧模块、学者标签挖掘模块、学者信息统计模块、知名学者挖掘、学术人脉模块、学者索引构建模块等。通过该系统,能够高效地实现大规模学者信息的分析挖掘,提升学者信息的质量,为在线学术平台“学术圈”提供了多维度学者相关的信息服务。