藏文信息处理中若干关键技术研究

来源 :西南交通大学 | 被引量 : 10次 | 上传用户:cwfml9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着藏文信息技术的发展和进步,藏文字处理技术已经日趋成熟。其中UNICODE藏文编码国际标准的公布和OPENTYPE技术在藏文字体设计上的成功应用,使得长期存在的编码不统一的问题得到了有效解决,极大地促进了藏文信息处理技术的进一步发展。随着藏文字处理技术的成熟和互联网在广大藏区的普及和推广,各种藏文电子资源如雨后春笋般涌现在互联网上,这些电子资源为藏文信息处理技术的发展奠定了数据基础。因此现在越来越多的研究人员开始投入到藏文词处理、短语处理和句法处理技术中,并倾向于使用机器学习方法来处理藏文自然语言的各种任务。由于各种因素的制约,藏文信息处理技术还不能达到英语、汉语等大语种的处理水平,还存在许多有待进一步解决的问题。本文针对藏文信息处理技术中现阶段需要亟待解决的几个重要问题进行了讨论和研究,并提出了相应的解决方案和算法。具体内容包括:1、针对文本质量问题,研究了藏文音节拼写检查算法和藏文文本自动校对方法。(1)针对藏文音节拼写错误问题,分析了藏文拼写错误类型,研究了藏文字性组织法,建立了藏文音节规则模型,提出了藏文音节识别算法和藏文音节拼写检查算法;(2)针对藏文文本中存在的梵音转写藏文错误、接续关系错误、词语错误、语法错误等问题,研究了藏文自动校对方法,设计了藏文自动校对系统框架,提出了藏文音节检查方法、梵音转写藏文检查方法和词语检查方法,并提出了藏文接续关系检查算法。2、针对藏文文本中停用词的预处理问题,研究了词频统计、文档频数、熵计算方法的藏文停用词自动选取方法,提出了藏文虚词、特殊动词和自动处理相结合的藏文停川词选取方法,该方法可确定一个较合理的藏文停用词表,同时发现藏文词分布也满足Zipf定律,并分析了藏文虚词、特殊动词以及高频词区的分布情况。3、针对藏文文本中命名实体识别问题,研究了触发词、虚词、人名词典和指人名词后缀为特征的条件随机场(CRF)的藏文人名识别技术,提出了基于字(音节)和字位信息的人名识别方法,分析了不同特征组合与特征优化、细化不同虚词对人名识别的作用。我们还提出了一个基于深度学习的藏文人名识别方法,首先通过word2vec训练出藏文词向量,再利用深度神经网络模型识别藏文人名,该方法不仅能够产生较好的词向量,而且通过调节神经网络参数还能够达到很高的藏文人名识别效率。对上述所提出的方法和模型通过实验进行了验证。实验结果表明了其可行性和有效性,为后续藏文自动校对、信息抽取等技术的发展奠定了基础。
其他文献
<正> 粮食供应直到近代都是经济史上的一个基本问题,“在通常条件下,世界粮食仍处于紧缺状态”。总的说来,虽然自工业革命及随后的机械运输条件改进后,对西方某些国家来说,粮
目的探讨脑力静联合氟桂利嗪胶囊治疗基底动脉供血不足的临床效果。方法将我院神经内科治疗的102例基底动脉供血不足患者随机分为对照组和观察组,各51例。对照组给予氟桂利嗪
今年是反法西斯战争胜利60周年,回顾这场20世纪最重要的战争,人们会发现许多个性鲜明的面孔,富兰克林&#183;罗斯福和温斯顿&#183;丘吉尔便是其中最重要的两位。
目的:探讨磷酸肌酸钠治疗小儿病毒性心肌炎的临床疗效。方法:将100例病毒性心肌炎患儿随机分为观察组50例和对照组50例,观察组采用磷酸肌酸钠及常规治疗,对照组采用常规治疗,
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
高校实验室的资源是教学和科研工作的基础,资源的有限性和差异性已是高校资源有效利用面临的核心问题。"互联网+"作为一种新网络发展形态,将其引入高校实验室管理和建设,能充
提取(量化)特征是DNA甲基化状态预测中的一个关键步骤,然而不同的方法所使用的特征并不相同,特征量化的具体过程计算繁琐。本文集成文献中的重要特征,设计并实现了DNA序列的特
目的探讨复方樟柳碱注射液对于眼底病患者血液流变学方面的影响。方法选取我院2015年6月至2017年3月收治的152例眼底病患者,根据患者的致病因素分为四组,各38例,其中糖尿病性
在艺术史论课中讲授徽派美术的知识,应当注意做到灵活化、情境化并积极吸收学术界相关科研成果、改变命题试卷这种单一的期末考核方式这几点。而且徽派美术的内涵和“传统”
创意产业(Creatlve Industries)的产生和兴起,跨越了以往文化与工业之间鲜明的壁垒。在法兰克福学派那里,“文化工业”是适合大众消费的单文化生产,基于古典理念中“艺术批判而独