基于CRF的中文命名实体识别研究

被引量 : 0次 | 上传用户:xxssdd55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别就是把文本中出现的命名实体包括人名、地名、组织机构名、日期、时间、和其他实体识别出来并加以归类。命名实体识别是自然语言处理中的一项基础性工作,同时也是很多应用中的关键技术,如信息检索、信息抽取以及机器翻译等。因此,研究命名实体的自动识别具有重要的理论意义和实践价值。本文首先对当前命名实体识别的研究进行了总结和回顾,并介绍了国内外命名实体识别评测活动,研究了当前命名实体识别研究的进展和命名实体识别所使用的各种方法。系统详细地介绍了条件随机域模型,条件随机域是一种统计机器学习方法,在序列标注和分割方面有着优秀的表现,在模型的训练过程中我们利用了统计词典获得外部特征。实验表明外部特征的加入可以弥补训练规模的不足、显著的提高实体识别效果。利用现有的人民日报标注语料库,以条件随机域模型为基础实现在字一级对于包括外国译名在内的中文人名、地名的识别以及组织机构名的识别。最后,我们采用了基于规则的方法完成了对时间词和数词的识别。从实验结果来看,采用CRF进行命名实体识别取得了较好的识别效果。我们将深入研究CRF模型的特征选取和参数训练问题,进一步提高命名实体识别的效果。
其他文献
结节病是一种多器官受累的肉芽肿疾病,病因及发病机制至今未明,可能与环境、遗传、免疫等因素有关,其中与分枝杆菌、痤疮丙酸杆菌感染及HLA基因关系最为密切。肉芽肿的形成及
期刊
中小企业信用担保机构担保赔偿准备金及代偿损失的税前扣除问题,税法已有明确规定,但在实际执行过程中,中小企业信用担保机构对该政策的理解存在难度。文章通过案例予以说明
渤海A油田一期投产后,压力下降速度快,产量递减快,为了了解这种河流相砂岩油田砂体规模,储层连通状况,河道边界,同时确定油气藏的渗流特征、参数以及地层压力与评价井的完善
综述了国内外聚丙烯(PP)/云母复合材料改性研究的最新进展,包括改变云母粒径、加入相容剂、表面改性、加入增韧剂等方法。结果认为,各种改性方法均可使PP/云母复合材料的力学
竹黄是我国一种传统的珍贵真菌。介绍了其生物学特性、化学成分、药理性质,并对其作为一种新型的食用色素前体的应用前景进行了展望。
由于在动态环境下难以获取持续的竞争优势,这使得研究在动态环境中如何获得持续竞争优势的动态能力理论应运而生,并成为战略管理理论研究的一个新热点。在快速变化的环境中,
目前中国资本市场的并购重组多为增量资产重组。通常情况下,注入资产以评估值为基础定价。这一类并购重组是特定时期的经济行为,具有较多的非市场化的因素。文章以锦江股份资
<正>《北方音乐》杂志1981年创刊,是黑龙江省文学艺术界联合会主管、黑龙江省音乐家协会主办,国家二类期刊、黑龙江省省一类刊物,半月刊。国际标准刊号:ISSN 1002-767X;国内