论文人名检索系统中关键模块的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:cdwkevin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在学术论文搜索中,根据作者姓名搜索是一种常见的搜索方式。但由于重名现象的严重性,当用户搜索某一姓名时,系统会返回所有该姓名的不同人的学术论文成果,用户还需自行筛选想要查询的信息,这种现象称为人名歧义问题。人名歧义问题影响着检索的质量,也不方便人们快速了解某位学者的所有研究成果,因此,人名消歧问题一直是国内外学者研究的热点。本文选题来源于企业实际项目,项目背景为公司需要给客户提供医生洞察,其中包括医生在Pub Med文献数据库中的论文数量信息,因此需要完成Pub Med论文作者的姓名消歧,即确定论文某作者具体是国内的哪位医生。针对以上目标,本文提出了一种完成人名消歧的论文作者检索系统,以方便工作人员通过人名检索得到所需的信息。论文主要工作与创新如下:(1)系统数据的获取与处理。主要包括两种数据:医生数据以及论文作者数据。本文通过Scrapy框架完成多源医生数据的获取,并完成了多源医生数据的融合,构建了信息完整且唯一的医生本体。接着从Pub Med论文信息中抽取出论文作者个人信息,主要包括作者工作单位、所属科室、区划信息以及个人电子邮箱。解决了包括英文名作者过滤、工作单位中英文对应以及标准化等一系列问题。(2)作者姓名消歧。提出了一种基于医生知识库的实体链接消歧与作者聚类相结合的两阶段姓名消歧法,通过论文作者到医生本体的匹配,完成论文作者人名消歧。首先,根据论文作者的个人属性信息从医生知识库中过滤候选人,然后通过word2vec训练科室相似度计算模型对候选人进行排序,完成实体链接消歧。接着根据作者合作关系对上阶段没有消歧的作者与同名医生一起进行聚类,完成了更多的作者消歧。(3)作者人名检索系统的设计与实现。首先使用Elasticsearch创建系统索引库,完成了搜索业务的分离。然后采用Flask框架实现了论文人名检索系统的主要功能模块。包括搜索词预处理、用户认证、以及给认证用户提供数据修改等,方便工作人员使用。根据使用反馈,本系统可以帮助用户方便的获得医生发表的论文数量信息,节省了工作人员大量时间;并通过提供数据修改的用户接口,方便了工作人员对程序的消歧错误进行人工修改,形成“程序消歧-人工完善”的消歧闭环,满足了业务需求。同时,测试结果表明:本文实现的消歧算法精确率达到了79.6%,召回率达到了83.6%,系统各模块也均通过测试。但本文仍存在一些不足,比如人名消歧过程目前没有对作者姓名为拼音缩写的情况进行处理,这也是本文工作的进一步研发方向。
其他文献
三氯生(TCS)是一种个人护理品(PPCPs)类的抗菌剂,被广泛添加于洗手液、牙膏和漱口水等大众消费品中。TCS在常规污水处理工艺中不能完全去除,可能导致大量TCS被排放到环境中,而TCS在环境中不易降解,最终在环境产生积累效应。且由于其半衰期为18~60 d,经过植物吸收和人体直接接触,部分回到生物体内,对生态环境和生物体健康造成极大危害。因此,有必要找到一种有效的方法去除水和土壤中的TCS。基
随着生活节奏的不断加快,越来越多的人步入亚健康的状态,心脏疾病的发病人群也越来越多,已经成为全球高发的人类健康威胁第一号病症。如果能够在心脏疾病发作前进行实时监测,对于患者及时的抢救以及后续疾病的恢复具有十分重要的意义。心电图(Electrocardiograph,ECG)是临床医学中使用最多的医学设备,其检测准确快速深受医生青睐,但由于临床的心电图仪难以进行长期的监测,越来越多的学者投入到了可穿
新型食品保鲜剂的开发一直是食品工业研究的重要内容,保鲜剂可分为化学合成类和天然类,化学保鲜剂因其在食品中的残留可能具有潜在的毒副作用而引起消费者的担心,因此,寻找安全、有效且无毒副作用的天然保鲜剂是食品保鲜防腐领域的研究趋势。生物保鲜技术因其具有处理费用低、贮藏条件易控制和符合绿色环保要求的优点,成为食品保鲜领域研究的热点,该技术能够利用自然或人工控制的微生物菌群和(或)它们产生的抗菌物质来延长食
模式挖掘是计算机视觉领域和数据挖掘的一个重要研究方向,被广泛用于自然场景、旅游中图像模式的表示,也用于目标识别、目标检测和场景分类等任务。视觉模式是通常出现在图像中的基本视觉元素,并且比原始像素更倾向于传达更高层次的语义,代表视觉世界中可辨别的规律性,并捕获了视觉对象或场景的本质。视觉模式挖掘通过识别图像中在视觉上具有区分性和在语义上有意义的区域来解决不同的视觉识别任务,所挖掘出的视觉模式通常具有
近年来,随着航空航天及相关遥感技术的发展,越来越多高精度、高分辨的SAR数据开始应用于各个领域,其中利用SAR图像进行变化检测成为了SAR数据的主要应用之一,也是当下国内外研究的热点。传统的变化检测技术是通过比较不同时相下同一地区的两幅图像位于同一位置的特征差异,形成特征差异影像,并对差异影像进行聚类的过程。近些年,随着研究的不断深入,出现了越来越多的变化检测算法,但由于各个特征在实际变化检测的应
屏幕驱动芯片是现代IC(Integarted Circuit)芯片产业中发展迅速的一支,从LCD(Liquid Crystal Display)到OLED(Organic Light-Emitting Diode),从非全面屏到“刘海屏”、“挖孔屏”、“水滴屏”等异性全面屏乃至真全面屏,获得了长足的发展进步。智能手机屏幕自材质到形态几经变革。而今,图像压缩也成为屏幕驱动领域的又一火热研究焦点。随着
随着"双减"政策出台,学校全面展开课后服务"5+2"模式。如何让上了一天课颇感疲惫的学生再次焕发生命的活力,让期盼父母略显焦躁不安的学生安然自若?除了进行必要的学科辅导,合理开发和利用学校特色课程不失为一种好的选择。乒乓是我国的"国球",它既是一种技能,也是一种课程,更是一种文化。无锡市花园实验小学以"乒乓"课程为载体,深刻挖掘乒乓运动及乒乓文化的育德、健体、启智、怡情功能,从感性到理性,从
期刊
网约车共乘服务已经成为了缓解出行高峰期城市交通阻塞和降低空闲时间段网约车空载率的有效解决方案。目前,滴滴出行,Uber等热门出行软件都在提供网约车共乘这项服务,这项服务在城市的有效推行,在保持原有网约车数量不变的前提下,为更多的乘客提供出行服务,以此缓解了网约车供求不平衡的压力。现有的共乘服务中,首先乘客需要预定乘车服务,然后系统会为该项定单分配相对最优的网约车解决方案并规划最佳路线,由此可以看出
随着无人驾驶技术的发展,自适应巡航、自动泊车等很多智能化的技术开始应用在汽车上,为人们的驾驶带来更多便利。在驾驶过程中,人们必须要正确的按照交通标志的指示行驶,以避免造成交通违章。但是人类总会出现疏忽,错看交通标志或不按交通标志行驶,从而造成违章,甚至发生交通事故。智能化的交通标志识别(Traffic Sign Recognition,TSR)技术已成为众多车企研究的方向。自然条件下,由于道路环境
量子计算在大数分解以及数据搜索方面表现出了超越经典计算机的实力,引起了研究者的广泛关注,也是量子力学中热门的研究方向。人工智能的算法主要建立在多层神经网络的基础之上。为了应对日益增长的网络复杂性和内存要求,希望可以对这些强大算法的运行方式和结构进行改进。量子计算强大的并行计算能力和希尔伯特空间巨大的存储能力有望可以比任何经典计算机更高效的解决这些问题。当前,量子机器学习以及深度学习技术成为了量子计