论文部分内容阅读
藏文分词和命名实体识别是藏文自然语言处理的基础性关键问题,分词是将原始的藏文文本切分成词序列的过程,命名实体识别是识别词序列中的命名实体,并予以分类。传统的藏文分词方法主要是基于规则的方法,对未登录词、歧义问题处理能力较弱。藏文命名实体识别研究基础更加薄弱,主要集中在基于规则的藏文人名识别研究上。已有基于统计的藏文分词、命名实体识别方法大都作为辅助方法,采用大规模语料库机器学习方法最近三年才受到重视。本文研究了基于条件随机场的藏文分词与命名实体识别,实现了基于条件随机场的藏文分词系统,提出了最大熵与条件随机场相融合的藏文命名实体识别方法。研究内容包括:1论文提出基于统计的藏文紧缩词识别方法,并采用条件随机场模型进行实验,该方法显著降低了紧缩词识别对藏文分词效果的影响。藏文是拼音文字,由音节组成词,藏文分词过程是将连续音节序列组合成词序列的过程。紧缩词问题影响藏文音节的判断,从而降低藏文分词效果。基于统计的藏文紧缩词识别方法把紧缩词识别看成分类问题,采用机器学习方法进行分类。与基于规则方法相比,本方法不需要词典支持,并且可以方便地与基于统计的藏文分词模型结合在一起,显著地提高了分词系统性能。2找到合适的藏文音节标注方法,在已知的藏文音节标注系统中取得了最好的分词效果。基于音节标注的藏文分词方法把藏文分词问题看成判断音节在词中位置的过程,音节标注系统的选择对分词系统效果影响很大。本文提出的四字位音节标注系统“BMES”与紧缩词识别模型结合在一起,显著提高了藏文分词效果。经对比实验,该音节标注方法优于之前研究者所采用的音节标注系统。3系统地研究了基于条件随机场的藏文分词特征选择、未登录词识别。选择合适的特征是基于统计分词方法中最重要的一步,公开的关于条件随机场的藏文分词特征选择文献很少。本文系统研究了不同的特征对藏文分词效果影响。未登录词问题是影响分词系统效果的最大原因,未登录词识别能力也是评测分词系统一项很重要的指标。本文系统研究了在单一语料,交叉语料上未登录词识别,在公开语料上进行测试,并与汉语分词中未登录词识别效果进行了对比。4论文提出条件随机场和最大熵相融合的藏文命名实体识别方法,该方法平衡了两种模型对命名实体识别准确度和召回率的不足,取得了较好的识别效果。由于没有公开可用的藏文命名实体识别语料,我们对西藏日报语料进行标注,并分别实验了基于最大熵模型和基于条件随机场模型的藏文人名识别。针对两种模型中存在的问题,本文提出了最大熵和条件随机场相融合的藏文人名识别方法,取得了较好的效果。该方法在理论上也可用于藏文地名、机构名等其他的命名实体识别。