面向学术领域的学者(信息)挖掘关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hl03031121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和互联网技术的快速发展,各个学术系统的出现,为科研人员的研究工作带来了极大的便利。对于学术系统而言,如何能够提供高质量的信息服务是其非常重要的问题。学者相关的信息服务是学术系统中重要的组成部分,因此如何有效地分析挖掘学者信息成为了学术系统的一个基础性问题,它所面临的一些关键挑战包括:(1)如何能够从多源异构的学术信息中正确地识别学者个体;(2)如何能够准确地构建学者画像;(3)支撑大规模、多类型学者信息挖掘任务的系统应该如何设计。在本文中,我们针对学术领域中学者信息挖掘上述挑战性问题,重点研究了学者的重名消歧问题、学者的代表性标签挖掘问题,并且设计实现了大规模学者信息多任务挖掘系统。通过上述学者信息的挖掘研究,旨在提升学者的数据质量,挖掘学术数据的内在价值,从而进一步提升学术系统的服务质量。本文的研究成果主要包括:  1、基于协同分类的学者重名消歧模型  我们将学者重名消歧问题形式化为协同分类问题,并且提出基于迭代的ICAND(Iterative Classification Algorithm for Name Disambiguation)算法用于求解该问题。我们的方法具有如下的优势:(1)分类过程后重名学者的数量能够被自动地确定;(2)在消歧过程中能够灵活包含文章对的多种特征,包括固有特征和关系特征;(3)协同推理中能够有效地利用文章对之间的关系,解决消歧中遇到的信息稀缺的问题。通过在数据集上进行实验表明,我们提出的方法明显优于其他基准方法。  2、基于领域关键词的学者代表性标签挖掘问题  我们提出学者代表性标签挖掘问题的解决方案,用于解决学者画像中的学者研究兴趣的建模。首先通过学者相关论文的关键字信息构建学者的候选标签,然后将候选标签的选择问题形式化为排序问题。我们提出学者标签的语义表示以及学者的语义表示,用于学者标签的相关特征的计算,在此基础之上提出了基于随机森林的学者候选标签排序算法。通过实验表明,我们提出的代表性标签挖掘算法优于其他基准方法。  3、大规模学者信息多任务挖掘系统  我们设计并实现了面向大规模学者信息的多任务挖掘系统,并应用到在线学术平台“学术圈”中。该系统以学者为中心对学术信息进行存储、组织和多维度分析,包括了面向异构数据存储与管理的数据中心模块,以及面向多任务的学者分析挖掘模块,并通过以学者为中心的信息访问API进行互联。其中,多任务学者分析挖掘模块,包括了学者重名消歧模块、学者标签挖掘模块、学者信息统计模块、知名学者挖掘、学术人脉模块、学者索引构建模块等。通过该系统,能够高效地实现大规模学者信息的分析挖掘,提升学者信息的质量,为在线学术平台“学术圈”提供了多维度学者相关的信息服务。
其他文献
自动分词技术是中文信息处理的基础工程。任何基于词一级中文处理应用系统都离不开分词系统。自动分词技术的重点和难点在于歧义切分处理和未登录词识别。本文首先阐述了现代
该文介绍了蓝牙技术的提出背景,蓝牙技术的特点,然后总结了蓝牙系统的软硬件组成牙和工作原理.在嵌入式操作系统方面,该文介绍了实时操作系统的发展过程.实时操作系统原理以
该文首先简要介绍了传统的用户管理系统和计费系统的原理和特点,分析了其不足之处.该文的重点在于利用先进的网络技术、软件技术对现有系统进行改造,从而构建一个全新的、便
随着计算机和网络技术应用的普及,出现了大量分散的闲置的计算机,他们的处理能力之和可以超过超级计算机。越来越多的科学家需要利用这类异构机群系统或工作站网络上开展高性能
随着经济的发展,机动车辆在数量上日益增长,已经成为人们日常生活中不可或缺的一部分,给人们的生活带来了巨大的便利。尽管如此,机动车辆也带来许多新的问题,其中最严重的是道路交
首先,我们将在论文开始详细深入地研究分析面向对象方法存在的缺陷,并对业务过程建模技术面临的问题进行讨论.在讨论缺陷的同时还要给出初步的解决方案.其次,针对面向对象方
该文的研究重点是两个:一个是对Sun Engine进行源码分析;另一个是采用类比的方法来研究网格系统,主要的目的就是把一个比较陌生的系统转化为一个相对熟悉的系统来分析.该文首
近年来,随着计算机应用领域的迅速扩大,计算机软、硬件技术的不断涌现,人们对软件质量提出了新的更高的要求,但是却没有很好的度量方法和度量工具.该文提出的面向对象软件质
漏洞扫描技术是网络安全技术的重要组成部分.然而,传统的漏洞扫描器存在功能单一、管理地域限制、不易跨系统操作等诸多缺陷.为了满足管理员对安全管理功能多样性、易扩展性
随着移动互联网、手持拍照智能设备、网络社交媒体的兴起和普及,人们得以随时随地制作、分享和获取数字图像数据。然而,急速增长的图像数据量给互联网有效管理带来严峻考验。据