基于条件随机场的藏文分词与命名实体识别研究

被引量 : 0次 | 上传用户：marsxiaozhu

【摘要】

：

藏文分词和命名实体识别是藏文自然语言处理的基础性关键问题,分词是将原始的藏文文本切分成词序列的过程,命名实体识别是识别词序列中的命名实体,并予以分类。传统的藏文分

【作者】

：

李亚超

【发表日期】

：

2013年期

【关键词】

：

藏文分词命名实体识别紧缩词识别条件随机场最大熵

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

藏文分词和命名实体识别是藏文自然语言处理的基础性关键问题,分词是将原始的藏文文本切分成词序列的过程,命名实体识别是识别词序列中的命名实体,并予以分类。传统的藏文分词方法主要是基于规则的方法,对未登录词、歧义问题处理能力较弱。藏文命名实体识别研究基础更加薄弱,主要集中在基于规则的藏文人名识别研究上。已有基于统计的藏文分词、命名实体识别方法大都作为辅助方法,采用大规模语料库机器学习方法最近三年才受到重视。本文研究了基于条件随机场的藏文分词与命名实体识别,实现了基于条件随机场的藏文分词系统,提出了最大熵与条件随机场相融合的藏文命名实体识别方法。研究内容包括：1论文提出基于统计的藏文紧缩词识别方法,并采用条件随机场模型进行实验,该方法显著降低了紧缩词识别对藏文分词效果的影响。藏文是拼音文字,由音节组成词,藏文分词过程是将连续音节序列组合成词序列的过程。紧缩词问题影响藏文音节的判断,从而降低藏文分词效果。基于统计的藏文紧缩词识别方法把紧缩词识别看成分类问题,采用机器学习方法进行分类。与基于规则方法相比,本方法不需要词典支持,并且可以方便地与基于统计的藏文分词模型结合在一起,显著地提高了分词系统性能。2找到合适的藏文音节标注方法,在已知的藏文音节标注系统中取得了最好的分词效果。基于音节标注的藏文分词方法把藏文分词问题看成判断音节在词中位置的过程,音节标注系统的选择对分词系统效果影响很大。本文提出的四字位音节标注系统“BMES”与紧缩词识别模型结合在一起,显著提高了藏文分词效果。经对比实验,该音节标注方法优于之前研究者所采用的音节标注系统。3系统地研究了基于条件随机场的藏文分词特征选择、未登录词识别。选择合适的特征是基于统计分词方法中最重要的一步,公开的关于条件随机场的藏文分词特征选择文献很少。本文系统研究了不同的特征对藏文分词效果影响。未登录词问题是影响分词系统效果的最大原因,未登录词识别能力也是评测分词系统一项很重要的指标。本文系统研究了在单一语料,交叉语料上未登录词识别,在公开语料上进行测试,并与汉语分词中未登录词识别效果进行了对比。4论文提出条件随机场和最大熵相融合的藏文命名实体识别方法,该方法平衡了两种模型对命名实体识别准确度和召回率的不足,取得了较好的识别效果。由于没有公开可用的藏文命名实体识别语料,我们对西藏日报语料进行标注,并分别实验了基于最大熵模型和基于条件随机场模型的藏文人名识别。针对两种模型中存在的问题,本文提出了最大熵和条件随机场相融合的藏文人名识别方法,取得了较好的效果。该方法在理论上也可用于藏文地名、机构名等其他的命名实体识别。

其他文献

砌体填充墙对RC框架结构抗震性能影响研究

钢筋混凝土框架结构内布置填充墙在实际生活中是非常普遍的一种进行建筑隔断、保温、隔热等常用的建筑方式。众所周知，框架中的填充墙对结构整体的刚度、强度以及延性是会产生

学位

钢筋混凝土结构结构抗震分析填充墙等效撑杆模型自振周期时程分析

初中英语听说模拟考试系统的设计与实现

随着计算机技术的突飞猛进,Internet和校园网获得了极大的发展,各类英语水平测试已经广泛使用计算机技术,国外研究人员利用计算机系统对参加口语考试的考生进行发音评分。国

学位

初中英语听说模拟考试系统集成版人机对话自动评分

泛在知识环境下社会科学信息服务模式研究

信息技术的飞速发展与网络世界的迅速膨胀使人类原有的知识传播渠道和学术交流方式发生了深刻的变革---知识网络时代已经到来。知识时代的到来,不仅加速推进了世界范围的合作

学位

信息服务模式社会科学社会科学信息泛在知识环境

游离组织瓣缺血再灌注后血管形成调节机制的研究进展

游离组织瓣修复口腔颌面部组织缺损,经历了缺血再灌注的过程。这一过程中伴随着新生血管形成,有利于恢复正常血供,改善血运循环,提高组织瓣的成活率。血管新生的机制十分复杂

期刊

游离组织瓣内皮细胞细胞因子缺血再灌注游离组织瓣移植

人民币汇率波动对中美贸易差额的影响

中美两国自1979年1月1日建交以来,在政治、经济、文化等多个领域广泛合作,取得了多项成果,尤其是双边经贸的发展,在34年的交往中硕果累累。改革开放后,美国俨然已成为中国最

学位

中美贸易失衡人民币汇率实证分析马歇尔勒纳条件

铰接连接结构动态响应与强度计算方法

针对使用铰链连接结构的曲柄连杆可动机构,分别建立其刚性多体系统和刚-柔耦合多体系统模型,并在同一运动控制规律下分析柔性构件弹性变形存在与否对运动机构动态响应和约束

期刊

铰接结构动态响应多体动力学

人民币内外价值偏离及其影响因素分析

货币也是一种商品,也有价值。单位货币的对内价值体现在它的交换价值上即它能购买到的商品和劳务,单位货币的对外价值体现在它能购买到国外商品和劳务,可以用他与外国货币的

学位

内外价值偏离人民币升值预期美元指数贸易顺差FDI资本流入

法律合同文本汉译英实践报告

随着经济与社会的发展,中国与其他国家的交流比以往任何时候都更为频繁。全球范围的交流合作对从事翻译的人才的数量及质量提出更高的要求。而培养出合格、符合社会需求的优

学位

法律文本汉译英任务描述策略

低负荷睡眠监测系统的设计与实现

多导睡眠图监测(PSG)是国际公认的进行睡眠分析的标准,且已广泛地应用到临床诊断中。但是,在实际应用中发现,PSG不仅价格昂贵、操作复杂,而且需在身上粘贴电极,给被测者带来

学位

睡眠监测生命体征参数C/S架构巴特沃斯滤波器模糊逻辑

Paget病的皮肤镜和RCM观察与临床应用

目的探讨临床上Paget病在偏振光皮肤镜(polarized light dermoscopy,PD)与反射式共聚焦激光扫描显微镜(reflectance confocal miscroscopy,RCM)下的特征。方法选取2015年1月

期刊

Paget病皮肤镜反射式共聚焦激光扫描显微镜

基于条件随机场的藏文分词与命名实体识别研究

与本文相关的学术论文