面向文献著者的跨文本指代消解研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lqtanj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科学研究领域,通过文献著者搜索相关信息是学术信息检索的主要方式。然而,在各类文献管理系统中,文献著者的跨文本指代现象非常严重,给学术信息检索带来了诸多困难。例如:如何消除不同文献之间的同名作者歧义性问题,即:重名消歧;如何消除不同文献之间的作者指代不统一问题,即:多名聚合。在解决重名消歧问题时,已有方法主要通过作者合作关系、作者主页、邮箱等信息对重名作者进行分类。由于作者的邮箱和主页信息很难获取,如何在这些信息未知的情况下,准确的划分文献著者类别,是重名消歧需要解决的核心问题。此外,文献著者名字的表示形式多样,甚至存在未知形式的名字变体。因此,如何在名字变体未知的情况下,实现多名聚合是跨文本指代消解所面临的又一问题。针对上述问题,本文的主要研究内容如下:(1)提出了基于网络表示学习的重名消歧算法。该方法可以在作者邮箱、主页等信息不可获取,以及作者具体类别个数未知的情况下,解决文献著者重名消歧问题。首先,利用待消歧作者的多阶合作者及论文-作者关系,构建论文-论文网络。其次,通过图网络学习得到论文的特征向量表示。最后,利用论文之间的关系网络,实现文献著者的重名消歧。(2)提出了基于特征相似度的多名聚合算法。该方法可在仅给定作者名字的情况下,通过分析论文间的特征相似度,实现中文文献著者的多名聚合。首先,对于给定文献著者,构建作者名字变体集合。其次,构建论文关键词,并分析论文间不同特征的相似度,实现文献著者的多名聚合。(3)提出了基于监督学习的多名聚合算法。该方法将多名聚合问题划分为论文标题匹配和论文作者匹配两个子问题。首先,对于给定的文献著者,获取其在百度学术学者频道中的论文。其次,利用BLEU算法分析论文-论文及作者-作者的相似度,找到作者所对应的名字变体形式,实现文献著者的多名聚合。(4)验证了上述所提算法的有效性。通过发布在Aminer上的基准数据集以及人工收集的真实数据集,验证了所提算法在重名消歧和多名聚合方面的有效性。此外,所提算法已经应用于《学术头条》APP(http://www.acheadline.com/)。
其他文献
利用环境扫描电子显微镜(ESEM)表征红瓶猪笼草叶笼蜡质滑移区表面微观结构.利用手动悬臂移动法在原子力显微镜(AFM)无针尖探针悬臂上黏附15μm二氧化硅微球模拟单根刚毛与猪笼草
自从习近平上任以来,反腐风暴一直没有停息,一大批高官相继落马成为阶下囚。但是着丝毫不减公众对公务员职位的热情。虽然过去几年总体报考人数稍有下降,但是个别岗位的竞争
磷在土壤中易被固定沉淀,在植物磷利用率低的情况下,过度施肥会造成磷肥浪费,可能通过地表径流、地下水溶解等方式,造成水体富营养化产生面源污染,对人类生产生活造成较大影
<正>2015年7月,党中央召开的党的群团工作会议,将群团工作推向了一个新的历史高度。重庆作为全国群团改革试点省市,肩负使命、先行先试。万州作为全市6个试点区县之一,不辱使
通过对菟丝子属不同种的菟丝子的鉴定以及菟丝子药材与常见伪品的鉴定研究分析,为菟丝子药材的质量控制提供依据。
<正>1临床资料患者男性,78岁,主因"间断头晕3年,加重2个月,跌倒1h"入院。患者3年前出现间断头晕,以劳累和休息欠佳时为著,多次就诊于当地医院神经内科,行头颅CT、MRI、经颅多
采用固相萃取(SPE)结合液相色谱-串联质谱(LC-MS/MS)技术,建立了不同水产品组织中四环素类药物残留的测定方法。样品通过含EDTA的弱酸性MCI缓冲盐提取,醋酸铅沉淀蛋白,并结合正己烷和
唐山三友集团40岁以下青工占职工总数的80%,集团通过搭建思想交流平台、技能培训平台、晋升机制平台和活动展示平台,一大批有志有为青年扎根三友、忠诚三友、奉献三友,为集团持
近年来,特色小镇的建设席卷全国,尤其是在我国提出将培育1000个特色小镇的背景下,全国的各类特色小镇如雨后春笋般涌出,特色小镇是特定历史背景下形成的特殊的小城镇,为落实