中文命名实体识别粒度和特征选择研究

被引量 : 0次 | 上传用户:lovewxb1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本课题来源于国家自然科学基金重点项目——国家自然科学基金重点项目“融合语言知识与统计模型的机器翻译方法研究”(60736014)、国家863计划重点项目“面向跨语言搜索的机器翻译关键技术研究”(2006AA010108)、微软亚洲研究院IFP(FY09-RES-THEME-158)。命名实体识别是众多自然语言处理的基础,近些年来有很多学者对命名实体任务进行研究。大体上,命名实体的识别过程分为两大类,规则与统计。对于不同的命名实体类别,如人名、地名、机构名等,分析其固有的规律,国内外学者也做了大量的研究,发现了很多针对性强的特征,并取得了很好的效果。本论文尝试回答中文命名实体识别中的两个问题:1.怎样选择中文命名实体识别的粒度,以字还是以词作为处理单位?2.对不同类别的中文命名实体,什么样的特征或者特征组合最有效?本文首先将中文命名实体识别转化为序列标注问题。理论上讲,一切可以用于序列标注问题的机器学习模型,都能够用于命名实体识别,在本论文实验选择的是近几年来应用比较广泛的条件随机域模型。条件随机域模型是一个典型的判别式模型,能避免严格的独立性假设,也能综合利用生成模型中生成的假设,因此,判别式模型能融合大量的特征,比如语言学特征,从而更适用于序列标注。同时,我们不仅用到了同一个句子中的局部特征,也综合利用了从整个语料中提取处的全局知识特征。本文的主要研究内容包括如下三个部分:1.命名实体识别的颗粒度研究。本论文使用了两种颗粒度,基于字和基于词。通过特征模板实验,对于基于字和基于词的方法,分别选取了3个字和2个词的特征模板区间。通过验证可以发现,人名、地名因其颗粒度较小,用基于字的方法能取得更好的结果;机构名因其颗粒度较大,用基于词的方法能取得更好的结果。2.先验知识库的构建。通过加入先验知识库,能从全局的范围提取特征,从而能极大的提高命名实体识别的性能。根据实验,形成了姓氏库、人名库、地名库、左指界词库、右指界词库、地名后缀库、机构名后缀库等先验知识库词典。通过词典的加入,从全局的角度加入了大量知识库特征,避免了数据稀疏。3.特征的选取。CRF能通过事先指定的特征模板,自动地从训练语料中提取特征。根据不同的颗粒度以及不同的知识库,我们加入了不同的特征模板,如一维特征模板、词二维特征模板、知识库二维特征模板,从而生成了不同的特征。大量特征的加入,全面地提高了实验的性能,尤其提高了命名实体识别的准确率。
其他文献
白菜根肿病是威胁大白菜生产的一种土传性病害。为了筛选对白菜根肿病有效的杀菌剂,在室内和田间利用灌根方法测定氟啶胺对白菜根肿病的防治效果。室内药效测定结果显示氟啶
<正> 解放后召开的全国第一屆衛生会議上,党就决定了"面向工农兵"、"預防为主"、"团結中西医"、"衛生工作与羣众运动相結合"的衛生工作四大方針。几年来衛生部門是遵循着四大
期刊
~~
通过对我国2003~2005年蔬菜(含西瓜甜瓜)种子进出口贸易统计资料的分析,概括了我国蔬菜种子进出口贸易的市场结构和走势、进出口贸易的主要形式,评估了影响我国蔬菜种子进出口
<正> 右派分子薛愚在鳴放期間,与其他右派分子相呼应,發表了一系列反党、反社会主义的謬論。他把目前医院药房工作中所存在某些个別缺点妄加誇大丑化,使药学院系同学对自己的
<正> 一、选择题 选择题由题干和选项两部分组成,在“选项”中故意混入错误答案,造成干扰,通通考查学生判别正误的能力,以测定其掌握有关语文基础知识的程度和水平。解答选择
期刊
孙正义和我观点一致:如果你去研究创新公司,会发现几乎每一家都有同样的生命周期。它们颠覆了旧有格局,成为了市场领袖,然后走向成熟期,可能是因为创始人选择了新的方向,或是
目的探讨多种自身抗体联合检测在原发性胆汁性肝硬化(PBC)诊断中的价值。方法回顾性分析2011年6月-2012年12月在新疆医科大学第一附属医院住院及门诊拟诊或待排除PBC患者523
本文研究了市场需求和质量互动环境下的供应链协调契约模型.基于线性需求函数,针对四种不同的契约,文章比较了企业质量控制和供应链协调兼达时各契约模型的决策选择和收益.文
9RC-500型及9RC-500Ⅱ型秸秆揉搓粉碎机分别采用锤片式和摩擦式工作原理,采用电机或小四轮拖拉机为配套动力。分析了主要参数的选择及确定,比较了两种机型的优缺点。