论文部分内容阅读
随着藏文信息技术的发展和进步,藏文字处理技术已经日趋成熟。其中UNICODE藏文编码国际标准的公布和OPENTYPE技术在藏文字体设计上的成功应用,使得长期存在的编码不统一的问题得到了有效解决,极大地促进了藏文信息处理技术的进一步发展。随着藏文字处理技术的成熟和互联网在广大藏区的普及和推广,各种藏文电子资源如雨后春笋般涌现在互联网上,这些电子资源为藏文信息处理技术的发展奠定了数据基础。因此现在越来越多的研究人员开始投入到藏文词处理、短语处理和句法处理技术中,并倾向于使用机器学习方法来处理藏文自然语言的各种任务。由于各种因素的制约,藏文信息处理技术还不能达到英语、汉语等大语种的处理水平,还存在许多有待进一步解决的问题。本文针对藏文信息处理技术中现阶段需要亟待解决的几个重要问题进行了讨论和研究,并提出了相应的解决方案和算法。具体内容包括:1、针对文本质量问题,研究了藏文音节拼写检查算法和藏文文本自动校对方法。(1)针对藏文音节拼写错误问题,分析了藏文拼写错误类型,研究了藏文字性组织法,建立了藏文音节规则模型,提出了藏文音节识别算法和藏文音节拼写检查算法;(2)针对藏文文本中存在的梵音转写藏文错误、接续关系错误、词语错误、语法错误等问题,研究了藏文自动校对方法,设计了藏文自动校对系统框架,提出了藏文音节检查方法、梵音转写藏文检查方法和词语检查方法,并提出了藏文接续关系检查算法。2、针对藏文文本中停用词的预处理问题,研究了词频统计、文档频数、熵计算方法的藏文停用词自动选取方法,提出了藏文虚词、特殊动词和自动处理相结合的藏文停川词选取方法,该方法可确定一个较合理的藏文停用词表,同时发现藏文词分布也满足Zipf定律,并分析了藏文虚词、特殊动词以及高频词区的分布情况。3、针对藏文文本中命名实体识别问题,研究了触发词、虚词、人名词典和指人名词后缀为特征的条件随机场(CRF)的藏文人名识别技术,提出了基于字(音节)和字位信息的人名识别方法,分析了不同特征组合与特征优化、细化不同虚词对人名识别的作用。我们还提出了一个基于深度学习的藏文人名识别方法,首先通过word2vec训练出藏文词向量,再利用深度神经网络模型识别藏文人名,该方法不仅能够产生较好的词向量,而且通过调节神经网络参数还能够达到很高的藏文人名识别效率。对上述所提出的方法和模型通过实验进行了验证。实验结果表明了其可行性和有效性,为后续藏文自动校对、信息抽取等技术的发展奠定了基础。