科技文献作者重名消歧与实体链接

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qqiuhe123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及,在线文献系统也随之发展,出现了如DBLP、微软学术等以作者为核心的文献集成系统,而同名作者识别是该类系统亟待解决的问题。本文将作者识别分为作者重名消歧与实体链接两个子问题:对于作者重名问题本文尝试了基于聚类的消歧方法和基于特征关系图的消歧识别方法;在解决文献与教师链接问题时,针对中英文文献采用了不同的实体链接方法。具体研究内容包括以下几个方面:第一:文献测试数据集的构建与特征选择方法。本文首先给出了文献记录的获取方法,测试数据集的构建策略及消歧实验的通用评价方法。其次根据文献中不同信息特征对于消歧的作用强弱,给出了文献识别问题中的特征选择方法,并设计了统一的特征消歧能力测试算法。测试结果表明合作者、期刊与关键词特征具有最好的区分作用,摘要和标题虽然有一定的消歧能力,但有较大的误差。了解特征属性,对改进消歧算法和提高作者识别的准确度均有很好的指导意义。第二:基于聚类算法的作者消歧方法。一般重名消歧问题的研究思路都是将消歧问题转化为聚类问题,本文尝试了层次、k-means、AP三种不同的聚类消歧方法,在分析了各个方法优缺点的基础上,根据文献的各属性特征在聚类中起的作用不同,提出了分步聚类消歧方法。实验结果表明分步聚类方法比普通聚类方法更有效,使得消歧的准确率达到90%,召回率也接近75%。第三:基于特征关系图的消歧方法。本文在文献作者消歧问题中引入了特征关系图的概念,将消歧问题转化成图的划分问题,给出了两种分别采用基于图的层次聚类消歧方法和基于连通子图划分的消歧方法。结果显示,特征关系图的消歧方法明显优于传统基于聚类的方法,其中基于连通子图划分的方法取得了最好的效果,消歧结果的召回率提高到84%,平均准确率达到了94.5%。第四:实体链接与Tnet系统实现。实体链接主要解决文献中的作者与教师实体库的教师链接问题,针对中英文文献采用了不同的实体链接方法,最后将作者识别问题的研究成果应用到Tnet系统的文献展示模块。
其他文献
近年来,随着自然灾害和突发事故等一系列灾难性事件频繁发生,世界各国都高度关注应急指挥系统的建设和应用研究,以尽可能减少灾难损失和提供及时的人道主义求助援助。应急指
互联网市场具有非接触、隐蔽性强、无经营场所、宣传成本低、主体难以追踪等特点,给不法分子在互联网上宣传、销售假冒伪劣产品和违禁产品带来可乘之机,给合法经营的商家和消
随着我国经济的高速发展,交通工具急剧增多,道路交通状况日益恶化,交通拥挤问题日趋严重。为了解决出交通拥挤问题,智能交通系统的研究被放到越来越重要的位置。交通自动监控系统
灰狼优化(Grey Wolf Optimization,GWO)算法是一种新颖的元启发式智能优化算法,其模拟了大自然中灰狼种族特有的等级制度和集体狩猎行为。GWO算法由于结构简单、参数少,收敛
无线自组织网络(WirelessAdhocNetwork)是一个由移动主机组成的,没有任何基础设施或集中管理的临时网络。无线adhoc网络中的每个节点都可以充当一台主机或者一个路由器。由于
粗糙集理论是Pawlak教授提出的处理不准确、不完整和不明晰信息的数学方法。模糊集理论是Zadeh教授提出的,用来刻画模糊现象以及模糊概念的数学工具。其后,Atanassov教授推广
随着图像采集技术、传感技术、互联网技术的迅速发展,现实生活中数字图像的数量呈现爆炸式的增长。面临数量巨大、内容丰富的图像数据库,如何从中准确、快速地检索到用户感兴
目标跟踪是计算机视觉领域的主要研究方向之—,在视频监控、军事制导、无人驾驶、人机交互等领域得到了广泛应用,深受研究者们的广泛关注。作为目标跟踪技术的一个重要分支,
在过去几年中,软件的构建、部署和运用发生了重大变化,RichInternet Application(RIA)将桌面软件的丰富功能与Web应用程序的广度结合在一起,提供良好的用户交互体验和更好的
随着医学影像技术的发展,医学影像设备在医院得到了广泛应用,积累了大量病人的医学图像数据及相关医学参数。利用数据挖掘技术挖掘出隐含在这些海量图像数据中的有用信息,不但可