藏文文字识别系统中的数字图像预处理方法研究

来源 :第十二届全国少数民族语言文字信息处理学术研讨会 | 被引量 : 0次 | 上传用户:zhenghao_w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文从二值化、去除噪音、倾斜矫正几个方面重点分析了藏文文字识别系统中预处理过程遇到的难点和特征点,在提高藏文字识别率方面起到了很大的作用。
其他文献
谜语在蒙古族民族语言文学宝库中占据着重要地位。本文首先探讨了达日罕谜语系统的设计的工作内容、意义和宗旨,旨在完善操作系统,提高儿童学习蒙古语兴趣。
本文立足于传统语言学的基础之上,结合现代语音学研究的方法,分析拉萨话文读辅音韵尾的声学特征,对文读语音单位做出理论上的定性描述和声学的定量分析。
本文介绍了一种少数民族文字处理的硬件产品-藏汉英电子词典在藏语语音处理中的应用,将待播放的藏文文本拆分为字,并按输入顺序排列,根据字与藏语语音文件的对照表,按照排列顺序依次调取各字的藏语语音文件并播放,从而达到将藏文文本实现为藏语语音的效果。
为了缩小语料库的容量,本文以音节作为维吾尔语语音合成系统的基本合成单元,采用聚类分析的方法,研究维吾尔语音节音高的声学特征。
虚词在藏语和英语中的语言形式、结构、功能、来源和使用情况等不完全一致。本文拟从三个方面论述藏英虚词的语法功能、使用特点以及藏英语源和藏英虚词在语法功能上的异同。
藏文n元语法模型系统TibetanLM包含了三个模块:词频统计、模型训练和模型评估,实现了三种数据平滑方法。本文实验通过计算模型和测试语料的困惑度对由训练语料训练生成的藏文三元语法模型进行了评估和比较。
本文结合传统的词汇链构建算法的思想,将词汇链的构建看成是一个聚类问题,并引入了语篇中词汇之间的句法关系、基于HowNet的词义相似度计算、基于语料库的词义相关度计算三种聚类特征,探讨中文词汇链的构建算法。
蒙古语音节自动切分是蒙古语自然语言处理研究的重要内容之一,首先分析了斯拉夫蒙古文的构词规律,然后探讨了自动切分算法,对推动机器合成、语音识别、机器翻译技术发展具有重要意义。
本文探讨藏文自动分词技术的指标,并以搜索引擎、机器翻译、语音合成、自动文摘和词频统计为例来说明藏文分词在藏文信息处理系统中的应用。
机器翻译是语言信息处理技术竞争的核心。本文首先介绍了班智达汉藏机器翻译系统的设计原则和体系结构,然后对其工作流程和系统规模做了详细的介绍。