【摘 要】
:
为解决命名实体之间的复杂嵌套以及语料库中标注误差导致的相邻命名实体边界重叠问题,提出一种中文重叠命名实体识别方法。利用基于随机合并与拆分的层次化聚类算法将重叠命
【机 构】
:
中国电子科技集团有限公司信息科学研究院
【基金项目】
:
国家重点研发计划“面向云计算的网络化操作系统”(2016YFB1000500)
论文部分内容阅读
为解决命名实体之间的复杂嵌套以及语料库中标注误差导致的相邻命名实体边界重叠问题,提出一种中文重叠命名实体识别方法。利用基于随机合并与拆分的层次化聚类算法将重叠命名实体标签划分到不同的聚类簇中,建立文字到实体标签之间的一对一关联关系,解决了实体标签聚类陷入局部最优的问题,并在每个标签聚类簇中采用融合中文部首的BiLSTM-CRF模型提高重叠命名实体的识别稳定性。实验结果表明,该方法通过标签聚类的方式有效避免标注误差对识别过程的干扰,F1值相比现有识别方法平均提高了0.05。
其他文献
本文结合目前太阳能干燥温湿度检测系统的研究现状,针对检测控制系统的价格昂贵、检测精度不高、使用不灵活的特点,提出了一种基于单片机的数字式温湿度传感器的测控系统构成
本文以人民日报官方微博"你好,明天"和"微评论"的349个样本为基础,对人民日报微博新闻评论的选题内容、呈现方式、发布时机、评论视角、评论意图、高频词等进行实证分析。结
本文运用语义场理论,采用定量与定性分析、共时与历时相结合等研究方法,对汉语“给予”类单音节动词语义场中的“一般‘给予’子义场”和“特殊‘给予’子义场”中的成员进行
《汉语水平词汇与汉字等级大纲》是于一九九一年,由国家汉语汉办水平考试部与汉语北语水平考试中心一同编制的。自此以后,在对外汉语的教学中,不论是教学教材的设计或者是课堂授
植物民间分类、利用和文化象征构成了植物传统知识的主体.本文在田野调查的基础上,从生态人类学和象征人类学的视角出发,通过对新平傣族植物传统知识的研究,探讨了其植物分类
契约文书是人们在具体的生产、生活、社会交往等关系中形成的用以证明某种关系的原始文字协议或文字认定,具有史学、法学、语言学、经济学、社会学、文献学、民俗学等学科研
提高家电维修行业准入门槛、加强对“马路游击队”的监管是必要的。但要从根本上解决问题,还是要提供更多的正规服务、把正规维修的成本降下来$$ 家电维修和老百姓的生活息
悬高测量是测绘的一项重要高度检测手段,本文重点介绍了悬高测量原理、双测站法测量方式、悬高测量在城市中的应用、测量结果计算以及对测量误差进行了讨论和分析。结果表明
无论是在中国还是在西方国家,学者们在翻译研究理论上都取得了卓越的成就。20世纪80年代以前,西方的翻译理论家基本专注于纯文本方面的研究,很少涉及文本以外的因素。自20世纪80
针对干部在线教育信息化水平偏低和已有APP客户端干部学习平台使用效率低的现状,设计并实现了一种基于微信企业号的干部学习平台,并以重庆干部网络学院官方微信学习平台为例,