面向智慧校园的学术文献姓名消歧方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:Wayne_poplar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着教育科研人数激增以及学术活动的多样化发展,网络中文献的数量庞大且增长迅速,因此各种在线学术平台相继构建。发表、检索和阅读学术文献是学校科研、教学、管理和交流工作的重要组成部分,学术平台也逐渐成为智慧校园建设的重要基础平台。在高校中,重名人员日益增多,这些大量重复的姓名会极大降低学术平台中文献检索的效率,并且可能检索出错误的数据,给高校知识图谱的构建带来极大不便。姓名消歧系统凭借维护成本低、检索效率高等优势,目前已成为学术平台不可或缺的组成部分。精准的姓名消歧系统不仅能大幅度提升用户体验,减少人工分配文献的工作量,也能为高校降低系统的维护成本。在系统构建过程中,许多学者提出姓名消歧方法用于解决作者同名导致的文献检索和分配出错问题,其主要思想是从数据中提取有关作者的特征输入模型进行训练,再通过聚类算法对待消歧的文献作者进行预测。目前,姓名消歧研究已成为热门问题,大量具有优秀性能的姓名消歧模型相继被提出。本文通过对近些年姓名消歧模型的调研,发现姓名消歧研究仍面临文献数据特征稀疏、数据海量性等挑战。针对目前姓名消歧研究所面临的问题与挑战,本文提出面向姓名消歧的网页表集成模型,以及基于异构文献关系图随机游走的姓名消歧模型,有效提升了文献分配的准确性。本文的主要工作可概括为以下三点:(1)针对文献数据特征稀疏问题,提出了一种面向姓名消歧的网页表集成模型(Web Table Data Integration for Name Disambiguation,WTDI)。WTDI模型首先从校园网页中爬取网页表,并且转化为格式统一的结构化数据。再通过两类匹配器组合形成多项标签匹配器,从而识别网页表中的标签映射。接着根据相似度比较器得到各实例之间的映射关系,将有关联关系的网页表数据进行集成。然后分别提取网页表集成前后两个数据集中有关文献的特征,最后将这些特征输入模型进行训练并利用该模型按照正确作者确定文献归属。该模型借助网页中的数据扩充新的关联属性,因此能有效的缓解文献数据特征稀疏问题。(2)针对文献数据海量性与特征表达能力弱问题,提出了一种基于异构文献关系图随机游走的姓名消歧模型(Name Disambiguation Based on Random Walk of Heterogeneous Literature Relation Graph,RWHG)。RWHG模型通过六种策略将文献数据中的合作作者姓名进行缩写识别。然后,依据文献之间的属性关系,构造异构文献关系图,使得特征表达更丰富。图中的节点表示每篇文献,若文献之间拥有关联关系,则构造关系边。再对文献数据进行随机游走采样,将得到的随机游走序列根据负采样方法进行嵌入表示。最后,通过两阶段层次聚类组件将文献分配给对应候选作者集合中。该模型使用文献之间的关系构造异构文献关系图,舍弃与作者实体关联性并不强的数据,并且使用负采样方法对模型进行优化,因此能缓解文献数据海量性与特征表达能力弱问题。(3)本文基于中国某高校提供的真实图书馆与各学院文献网页表数据集以及AMiner、Cite Seer X两个公开数据集,分别进行了多组对比实验。验证了本文提出的WTDI模型以及RWHG模型的有效性。两种模型的结合能更有效提升文献分配的准确性。
其他文献
软件可维护性是指软件维护人员理解、改正、改动和改进软件的难易程度,是决定软件质量的关键属性。及时且准确地预测软件的可维护性对提高软件维护效率具有重要意义。然而,随着软件系统日益复杂,软件可维护性的预测也越来越困难。一方面,在软件维护规模的预测中,现有工作所使用度量套件对预测维护规模的有效性未得到统计学上的验证,且由于方法过于简单使得预测效果不够稳定。另一方面,在可维护性程度的预测中,大多数研究未考
学位
随着近些年来科技的进步,计算机、传感器等设备的可用性和可负担性变得更高,越来越多的工厂从“制造”走向“制造”,工业信息物理系统(CPS)在其中发挥着重要的作用。工业CPS可在生产制造过程中融合计算、通信与控制等多项技术手段,使多类生产制造设备协同工作,从而实现生产过程的智能化。大多数工作为了对CPS进行性能分析,牺牲了模型的部分描述能力,从而无法描述工业CPS中设备之间的交互行为。此外,将现存CP
学位
随着北斗系统的逐步应用,海上渔船定位数据越来越丰富,基于多源数据协同监控成为船舶监控系统(Vessel Monitoring System,VMS)的重要研究方向和发展趋势。针对传统VMS多源数据利用率低,不能有效协同多源信息精准监控渔船状态的问题,本文设计基于多源数据协同作用的渔船监控系统。该系统既可关联多源轨迹识别目标渔船也可基于轨迹识别渔船作业类型,进而实现海上渔船状态的精准监控。其主要内容
学位
随着人口老龄化加剧,老年抑郁(Geriatric depression,GD)正成为一个全球重大公共卫生问题。经颅磁刺激(Transcranial magnetic stimulation,TMS)是一种已被证实治疗成年人难治性抑郁症的有效干预手段,但TMS对GD疗效仍不清楚。这篇综述提供了TMS治疗GD一些新观点,探讨了TMS应用临床治疗GD的可行性。
期刊
随着深度学习技术在人工智能各个领域的快速发展,深度神经网络(Deep neural network,DNN)模型日益复杂,数据集规模不断增大。在单机单卡环境下的DNN模型训练速度已经无法满足日常的研发需求,因此研发人员开始将DNN模型训练过程逐渐转移到多机多卡环境下使用多个计算设备进行并行训练,从而加快DNN模型训练速度。分布式深度学习(Distributed deep learning,DDL)
学位
<正> 前言目前,酸度对雨水水质的影响已引起人们的关注。pH值则是衡量雨水水质及雨水酸度的主要指标。由于雨水的采集方法及分析平均值的计算方法各有不同,这佯,雨水的平均pH值也有所不同。至今日本还没有一个在同一标准下计算各地区雨水pH值的统一方法。在探讨雨水平均pH值计算方法的同时,此文将以计算结果为依据,推断一下日本各地区雨水的年平均pH值及其分布情况。
期刊
近年来,室内可见光定位系统发展迅速,其定位精度高,部署和维护成本低,有丰富的频谱资源并且可以工作在电磁敏感的场所,因此具有实现室内外定位服务一体化无缝切换的潜力。基于上述原因,室内可见光定位系统成为了室内定位问题的研究热门。本文研究了室内环境下基于光电二极管的可见光定位系统,利用偏振光实现了可移动物体的定位机制,丰富了可见光定位系统的定位技术手段,拓展了其应用场景。因定位精度高和功耗低的优点,基于
学位
随着人工智能的不断发展,文档图像的分析和识别技术被广泛应用于教育行业。目前,大多数文字识别技术能够较好地处理语文或英语等结构相对简单的文档。但是,对于数学类文档,由于其内部存在着复杂的数学表达式,其精准识别仍然是具有挑战性的难题。针对数学文档的自动分析与识别全流程,本文基于深度学习技术构建了一系列文档图像增强、分析和识别的算法。具体而言,本文的主要研究内容包括如下三个部分:(1)本文提出了一种基于
学位
学位
<正> 酸雨是当代世界上面临的主要环境问题,并已成为人们普遍关注的公害之一。近年来,我国各地区对大气污染和降水化学成分的分析表明,我国南方地区酸雨出现的频率大大高于北方地区。由于城市工业区排出的二氧化硫、氮氧化物等污染物,不只污染城市空气,而且可随着气流输送到很远的距离。加之污染物可以作为凝结核,在云滴、雨滴形成的时候,就可能具有酸的因素。云内的成雨过程,以
期刊