论文部分内容阅读
藏文新词在科技、新闻和网络等领域不断出现,对藏文自动分析带来了挑战.本文将使用序列标注方法来识别藏文新词,首先用规则方式将时间词、数词、后接成份嵌入到统计模型中,然后利用统计学习的方法对包括新闻、法律、小说、诗歌、中小学教材和地名等多种题材的共15万藏文句子进行统计建模,最后对3087句(其中包含12348个新词)开放语料进行测试,实验结果表明将规则嵌入到最大熵模型比嵌入到HMM模型中的正确率、召回率、F值分别高1.772、0.3905、1.0912个百分点,对于藏文新词识别最大熵模型优于HMM模型.