古文命名实体识别的研究与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xraid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来随着自然语言处理任务的不断进步和知识图谱、信息检索等研究领域的兴起,中文自然语言处理任务作为一项基础性研究取得了快速的发展,但在古文领域的研究却极少。我国的古文是中国所特有的文体,记载了古代大量的信息,研究古文对研究中国的历史文化具有重大意义。古文命名实体识别可从古文文本中提取出大量的实体信息,帮助研究者们快速掌握古文知识,具有重要研究意义。《三国演义》是我国第一部以农民起义为题材的长篇章回体小说,反映了三国时代各类社会斗争和矛盾的转化,是迄今为止这类题材小说中艺术成就最高的一部。《红楼梦》以恋爱、婚姻悲剧为内容展开,深刻反映了我国封建社会末期的社会现实,批判了腐朽的封建统治阶级,是中国古典小说的巅峰之作,中国封建社会的百科全书。本文选取《三国演义》和《红楼梦》作为语料文本进行人工标注工作,构建了古文命名实体识别数据集,进行了如下命名实体识别工作:在实体识别方面,我们对在标准中文NER数据集上表现良好的latticeCRF模型做了改进,提出了latticeLAN模型。该模型将CRF模块替换成基于注意力机制的LAN模型,能够很好的融合文本的标签信息,经过古文数据集和中文NER标准数据集上的实验和分析,它可在更短的时间内快速准确的识别出文本中的实体。为了进一步探索命名实体识别对下游任务的影响,我们对古文文本进行了实体链接任务的探索。实体链接是将识别出来的实体对应到知识库中的实体,是关系抽取、知识图谱等任务的基础。我们从NER标注的实体中随机选取了131个实体构建了知识库,并选取了部分包含了实体的文本做了实体链接标注工作。我们在实体识别和链接联合训练模型上做了改进,验证了我们提出的LatticeLAN模型能够对下游任务提供更多的实体信息,提高实体识别和链接系统的整体性能。
其他文献
目的本文通过构建结构方程模型,探索家庭“向上”代际支持对农村老人生理、心理和功能健康的影响,探索农村老人健康改善的政策建议。对象与方法利用2014年CLHLS调查数据库,以
在皮尔士及其溯因思想的追随者们看来,溯因是一种与演绎和归纳并列的独立的推理方法,它在科学发现中起着创造性作用。由于溯因的形式逻辑刻画会流失溯因的认知特性这些更重要
在现代篮球技战术不断更新和发展的背景下,训练技术和方法不断创新,越来越多的高科技手段运用到日常训练和比赛中,极大地促进了篮球运动的发展,让篮球运动在比赛中更加具有实
青少年爱国教育一直以来就深受党中央重视,但随着时代的发展,全球化与文化多元化给国家认同问题赋予了新的内涵。在这一新的时代、新的挑战下,如何加强国民的国家认同感,成为
“真(truth)”自始至终都是逻辑学研究的核心主题之一。尤其是近四十年以来,作为真之理论主要分支的紧缩真理论受到越来越多的重视,而作为紧缩真理论最新版本的极小主义真理
在《关于公证债权文书执行若干问题的规定》施行前,执行证书的性质备受争论。虽然现行司法解释将执行证书定性为证明材料,但证明材料的性质不足以支撑其成为申请强制执行的必
信息时代的发展使得人工难以处理每日产生的海量数据,对风险投资、数据走向、金融监管等分析任务带来了极大的困难和挑战。在这一背景下,自动化信息抽取技术成为了解决这一问
随着无人机技术的不断发展,无人机在现代战场上的应用前景越来越广泛。其中,侦察型无人机凭借其广阔的视野、高度的机动性和支持多种传感模块的易扩展性,日益成为战场快速获
个人、社会与健康教育(Personal,Social and Health Education)于 20 世纪 80年代初兴于英国,2008年9月,英国资格和课程委员会(QCA)对审查了中学的相关课程后,于是将该课程更
近年来,物联网(Internet of Thing)接入终端的数量激增,使得传统的云计算不足以支撑海量衍生数据的存储与处理。边缘计算作为IoT一种可能的计算范式,具有提供点对点服务以及