融合词典特征的Bi-LSTM-WCRF中文人名识别

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:liyan19821021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
受限于标注语料的领域和规模以及类别不均衡,中文人名识别性能偏低。相比人名识别训练语料,人名词典获取较为容易,利用词典提升人名识别性能有待进一步研究。该文提取人名词典特征,融入到双向长短期记忆(Bi-LSTM)网络模型中,在损失函数中提高人名标签权重,设计加权条件随机场(WCRF)。从人名词典中获取姓和名相关的特征信息,Bi-LSTM网络捕获句子中上下文信息,WCRF提高人名识别的召回率。在《人民日报》语料和工程法律领域语料上进行实验,结果表明:在领域测试语料上,与基于隐马尔可夫模型的方法相比,人名识别的F
其他文献
食饮理论的形成发展有着悠久历史,与《黄帝内经》成书差不多同时期的"三礼"则对上古食饮的规范叙述详细,但随着以儒家文化为基础的传统文化的衰落,食饮中有关"礼"局面的日趋混乱,
词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文
近日,交通运输部办公厅印发《交通运输部办公厅关于提到公路工程机制砂应用水平的通知》(交办公路函[2020]76号)文件,为深入贯彻落实绿色发展理念,推动和规范机制砂在公路工
省略作为一种普遍存在的语言现象,在中文文本尤其是对话、问答等短文本中频繁出现。该文从服务于短文本理解的视角出发,针对省略恢复问题提出了一种多重注意力融合的省略恢复
1计算机病毒总体情况2016年7月,国家计算机病毒应急处理中心共发现病毒741,503个,比6月上升4.5%,新增病毒47,602个,比6月上升5.6%,感染计算机45,967,310台,比6月上升4.8%,主
为确定桂林毛村地下河的氮磷水平及其来源,在毛村地下河出口设置水质自动监测仪,并根据地下河水系分布在流域内布点同时采样监测。结果表明:采用GB/T14848—93《地下水质量标
大规模法律文书数据为智能司法审判研究提供了重要的数据基础。量刑预测是智能司法审判中的一个关键环节,对维护司法审判的公平与公正具有重要意义。该文首先基于区间划分和
之所以选择“6·26”案件进行评析,是因为本案是近年来发案率极高的所谓虚假信息诈骗犯罪案件的代表性案件。对本案的剖析意义在于:一方面通过剖析能够使读者了解此类案件
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield