【摘 要】
:
日常生活中,人们在使用互联网的同时创造了蕴藏着巨大价值的海量文本数据。挖掘海量文本数据价值的重要一步为命名实体识别。命名实体识别是指从文本数据中识别出人名、地名
论文部分内容阅读
日常生活中,人们在使用互联网的同时创造了蕴藏着巨大价值的海量文本数据。挖掘海量文本数据价值的重要一步为命名实体识别。命名实体识别是指从文本数据中识别出人名、地名、机构等特定意义的实体,是计算机正确理解文本信息的关键步骤之一,也是信息抽取、信息检索、问答系统等自然语言处理应用的基础任务。命名实体识别的一大研究方向为中文命名实体识别。然而,现有的中文命名实体识别方法存在以下问题:(1)现有方法大多基于循环神经网络,而循环神经网络缺乏对全局信息的建模,同时因其只对连续隐含状态进行浅层连接,容易忽略重要的输入信息以及之前的隐藏状态信息。(2)中文命名实体识别通常是基于词序列的识别,需先采用中文分词技术将文本分割为词序列,忽略了分词错误带来的噪声数据对模型性能的影响。为此,本文提出了一种基于深度转换网络的中文命名实体识别模型Lattice DT。具体而言,该模型通过加深文本序列中每个位置的隐藏状态转换路径以及为每个位置添加从整个文本中学习到的全局表示的方式来解决循环神经网络所存在的问题。同时,模型基于字序列进行中文命名实体识别,并引入基于外部语料的词向量,将文本序列中隐含的词向量融合到字序列中,从而来缓解中文分词带来的噪声。为了验证所提模型有效性,本文在One Notes 4,MSRA,Weibo NER和中文简历四个公开数据集上与基线模型进行了广泛的对比实验。实验结果表明本文所提模型在广泛采用的F1指标上明显优于现有模型。
其他文献
柴达木循环经济试验区(以下简称“试验区”)是凭借青海省柴达木盆地丰富的自然资源而成立的国家级试点工业园区,对青海省乃至全国工业及经济的发展而言具有举足轻重的地位。
目的:1.分析西宁市胃癌的发病流行现况及发展趋势;2.分析西宁市不同民族胃癌构成;3.分析西宁市不同年龄段胃癌患者的临床病理特征。方法:1.基于西宁市疾控中心肿瘤登记提供的2009-2016年西宁市常住户籍居民胃癌人群数据,计算胃癌(性别、年龄别、城乡)发病率、死亡率,并计算不同民族间性别、年龄及发病死亡趋势变化,由此分析流行现况及发展趋势。2.回顾性分析2015-2017年青海大学附属医院,青海
深度学习、神经网络已经在各行各业的到了巨大地发展,而使用神经网络进行计算、预测时需要使用者提前对网络的各种参数进行提前定义。在早期时候,多使用经验值进行参数的调整
动物自发性疼痛症状与人类慢性疼痛症状相关,可以较好地反映出人类对疼痛的感知。在生物医学领域研发新镇痛药时,老鼠等啮齿动物常常被用于感知和评估疼痛程度。考虑到啮齿动
新中国成立70年来,我国现代服务业的规模和竞争力日益壮大,成为了保障人民就业、稳定经济发展的重要组成部分。2018年,我国服务业对外直接投资(Outward Foreign Direct Inves
《企业破产法》第32条第1句赋予了破产管理人“强大”的针对危机期间个别清偿行为的撤销权。为平衡已受偿债权人利益,缓和因破产管理人行使撤销权对交易安全的破坏,《企业破
重定位作为移动机器人走向自主化进程中不可缺少的一部分,已经受到广泛的关注。但当前重定位技术仍存在可靠性差、速度慢、无法很好地应对动态环境等挑战性问题。为了解决这
《著作权法》第四十九条就侵权损害赔偿额的计算问题,明确规定了“权利人实际损失”“侵权人获利”和“法定赔偿”三项标准。作品类型、许可使用费、侵权行为性质及侵权后果
目的探究人际信任对新媒体新闻选择偏好的影响,为净化新闻环境提供建议。方法研究共包含2个实验,被试为河北省某高校108名大学生,运用人际信任量表评定其信任水平,根据量表得
无线传感器网络是一种分布式的传感器网络,作为新一代的信息采集技术,它有着广泛的应用场景。如今,它已在军事、医疗等多个领域发挥着非常重要的作用。节点定位是无线传感器