论文部分内容阅读
本课题来源于国家自然科学基金重点项目——国家自然科学基金重点项目“融合语言知识与统计模型的机器翻译方法研究”(60736014)、国家863计划重点项目“面向跨语言搜索的机器翻译关键技术研究”(2006AA010108)、微软亚洲研究院IFP(FY09-RES-THEME-158)。命名实体识别是众多自然语言处理的基础,近些年来有很多学者对命名实体任务进行研究。大体上,命名实体的识别过程分为两大类,规则与统计。对于不同的命名实体类别,如人名、地名、机构名等,分析其固有的规律,国内外学者也做了大量的研究,发现了很多针对性强的特征,并取得了很好的效果。本论文尝试回答中文命名实体识别中的两个问题:1.怎样选择中文命名实体识别的粒度,以字还是以词作为处理单位?2.对不同类别的中文命名实体,什么样的特征或者特征组合最有效?本文首先将中文命名实体识别转化为序列标注问题。理论上讲,一切可以用于序列标注问题的机器学习模型,都能够用于命名实体识别,在本论文实验选择的是近几年来应用比较广泛的条件随机域模型。条件随机域模型是一个典型的判别式模型,能避免严格的独立性假设,也能综合利用生成模型中生成的假设,因此,判别式模型能融合大量的特征,比如语言学特征,从而更适用于序列标注。同时,我们不仅用到了同一个句子中的局部特征,也综合利用了从整个语料中提取处的全局知识特征。本文的主要研究内容包括如下三个部分:1.命名实体识别的颗粒度研究。本论文使用了两种颗粒度,基于字和基于词。通过特征模板实验,对于基于字和基于词的方法,分别选取了3个字和2个词的特征模板区间。通过验证可以发现,人名、地名因其颗粒度较小,用基于字的方法能取得更好的结果;机构名因其颗粒度较大,用基于词的方法能取得更好的结果。2.先验知识库的构建。通过加入先验知识库,能从全局的范围提取特征,从而能极大的提高命名实体识别的性能。根据实验,形成了姓氏库、人名库、地名库、左指界词库、右指界词库、地名后缀库、机构名后缀库等先验知识库词典。通过词典的加入,从全局的角度加入了大量知识库特征,避免了数据稀疏。3.特征的选取。CRF能通过事先指定的特征模板,自动地从训练语料中提取特征。根据不同的颗粒度以及不同的知识库,我们加入了不同的特征模板,如一维特征模板、词二维特征模板、知识库二维特征模板,从而生成了不同的特征。大量特征的加入,全面地提高了实验的性能,尤其提高了命名实体识别的准确率。