基于上下文的多特征图模型中文实体链接技术

来源 :太原理工大学 | 被引量 : 2次 | 上传用户:hfj0219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息的发展与语义搜索需求的不断增长,使得知识库的扩充成为自然语言处理研究领域的热点。实体链接正是知识库扩充的核心关键技术,是将文本中的实体指称表述项正确链接到知识库中实体的过程,具有重要的理论研究价值和实际应用价值。目前大多数实体链接技术处理的语言为英文,针对中文的研究仍处于起步阶段,造成这一现象的主要原因包括:(1)缺乏统一且权威的中文开源知识库和语料库;(2)中文的实体抽取技术受制于中文分词,并且中文的语义丰富、语法更加灵活,消歧难度比英文大,使得其仍然停留在命名实体的表述层面,不能很好地获取实体的语义信息。针对以上问题,本文以当前主流的英文实体链接技术为基础,结合目前中文的研究现状,提出了一种基于上下文的多特征图模型的解决方案。(1)选取中文维基百科作为此次实体链接任务的知识库支撑,并且从NIST(National Institute of Standards and Technology,美国国家标准与技术研究院)在TAC(Text Analysis Conference,文本分析会议)的KBP(Knowledge Base Population,知识库扩充)子任务提供的官方评测数据中,抽取中文语料信息,构造语料库和实验数据集;(2)从实体指称表述项的上下文和维基百科数据库两个方面入手,充分抽取实体之间的多种特征并量化为语义相似度,然后将语义相似度融合到构建的图模型中,利用图模型的主题一致性的特点,对候选实体进行排序,完成实体链接,达到提高中文分词的准确性和增加实体语义信息的目的。为了验证本文方法的性能,采用重现目前最新的中文实体链接的方法,实验结果表明,本文提出的方法可以有效提高实体链接的准确率和效率,取得了较好的整体效果。
其他文献
爱国主义是一个历史范畴。在不同的社会发展阶段、同一社会发展阶段的不同历史时期,爱国主义都有鲜明的时代特点和时代烙印。中华民族的悠久历史和复杂的社会发展状况,决定了
<正>金融统计是中央银行的一项重要基础性工作。随着我国金融业的改革和发展,以及央行职能的转变,对央行金融统计工作提出了新的更高的要求。一、金融统计工作中存在的问题1
新课程积极倡导自主、合作、探究的学习方式,十多年的教学实践表明,这一学习方式在中学语文课堂教学中带来了可喜的变化,确立了学生的主体性地位,逐步提升了教师的教研意识,
虽然英国英语与美国英语的差异正在逐渐缩小,有相互交融的趋势,但在某些方面差异依然存在。了解和掌握这些差异对英语学习者来说是非常重要的,也是很必要的。本文对英国英语
独白式教学依然在小学语文教学中占据主要地位,而对话教学理念的提出对传统教学发起挑战的同时,也为小学语文教学带来了新气象、新机遇。根据笔者在小学教学中的实践和反思,
目的落实护理不良事件防范工作,降低护理不良事件的发生率。方法由信息科统计2009年和2010年全年住院病人数,由护理部统计2009年和2010年全年各种护理不良事件的发生例数,将2
目的观察万花油外用结合物理疗法对慢性肾衰竭血液透析患者动静脉内瘘血肿的临床疗效。方法将96例慢性肾衰竭血液透析动静脉内瘘血肿患者随机分为对照组和治疗组,每组各48例
目的:考察心理资本在社会支持和利他行为之间的中介效应,以探讨社会支持影响利他行为的作用机制。方法:采用社会支持评定量表、积极心理资本问卷和大学生利他行为问卷对417名
本文选择了以往在近现代美术研究领域中较少受到关注的近现代美术的海外传播问题作为具体的研究对象。在传播的大问题之下将研究的焦点放在对于美术展览的研究上。通过对民国
总结了539例大面积烧伤手术患者实施多台高频电刀同时使用的护理配合要点,包括充分的术前准备和认真的仪器检查工作,巡回护士术中的密切观察和洗手护士的熟练配合是保证高频