基于数学形态学维吾尔文版面分析

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:xxhaizi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文是基于数学形态学的版面分析方法。以维吾尔报纸版面为测试样本,首先对于报纸版面图像进行了预处理,通过阈值变换、中值滤波和图像平滑将其换成一幅适应形态学方法的二值化图像;再根据维吾尔文版面自身的特点,选室合适的膨胀系数,完成连通域的合并,并对连通域进行边缘提取和处接矩形化,得到了在逻辑意义上独立的版面分割结果;最后通过投影分析确定版面中的文本行与图片,完成了版面的分析,到达了预期的效果。
其他文献
语义角色研究在信息检索、机器翻译等计算语义学诸多领域有着广阔的应用空间和发展前景,而且对语言语义研究具有强大的解释力。本文充分观察和分析维吾尔语真实语料的基础上对现代维吾尔语框架语义知识库框架元素的语义角色进行描述和分类,为维吾尔语框架语义知识库句法语义识别和分析莫定了良好的基础。
本文叙述了维吾尔语源语言的框架语义网描述内容和组成,基于阿拉伯字符的维吾尔文如何在数据库中存储的必要的条件,如何定义数据库的数据类型,高级语盲与数据库如何交换维吾尔文信息等技术性领域做了探讨。根据维吾尔语框架语义网的描述内容、组成结构、实体之间的联系和框架语义网自身的特点,初步设计了维吾尔语框架网的数据库结构。论文提出的方法和思路对对维吾尔语框架语义网的研究领域有一定的指导和参考价值。
本文在传统搜索引擎基础上,结合网页自动分类技术,对基于分类的维、哈、柯多语种信息检索进行了研究。文中提出了一种改进的特征选择算法,并建立了一个维吾尔文网页分类系统,搜集了大量的维文语料进行分类实验。结果表明,使用改进的特征选择方法能够有效提高分类的准确度。最后,将网页分类技术运用到维、哈、柯文搜索引擎中,实现了具有自动分类功能的多语种信息检索系统。
基于文本的图片检索是图片检索技术中最常用的方法,其中,图片相关文本的提取是基于文本的图片检索技术的关键。图片相关文本提取技术的好坏直接影响查全率和查准率。本文以维吾尔文网页为例,首先分析基于文本的图片检索技术相关知识和图片相关文本提取方法,然后进一步研究启发式图片相关文本提取算法,提出启发式算法的不足及改进方案。对维吾尔文网页进行的实验结果表明,使用改进的图片相关文本提取方法能够有效的提高图片检索
文本摘要是对文本内容进行的概括,在文本检索中发挥着重要的作用。本文对文本摘要技术进行探讨,并以哈萨克文文本为例,对哈萨克文文本进行自动文本摘要技术进行研究。
描述了利用电话录音的汉维平行语料库构建了一个基于短语的统计机器翻译系统。我们对词级的语料库进行了切分,得到了词素级的语料库,进行了词一级的实验和词素级的实验,实验表明,词素级的实验能得到更好的效果。
本文首先对机器翻译、平行语料库等相关知识做了简单论述,然后以获取双语平行网页的四个步骤为主线,对各个阶段所采取的研究方法做了全面而详细的介绍并加入一些个人的想法,接着对现有的六大典型系统做了简单介绍并加以分析比较,最后提出可以将已有的研究成果用于汉维平行网页的获取上,但需根据汉维语的具体特征做进一步研究。
本文利用声学语音学的理论方法对蒙古语肃北土语单词(双音节词和三音节词)进行声学分析,探讨了音高、音长、音强等三个声学参数在该土语单词中的分布模式,并与蒙古语标准音(察哈尔土语)进行简单比较从而得出了肃北土语单词的音高与蒙古语标准音有明显区别,而音长、音强基本相同的结论。
本文以实验语音学的方法分析了郭尔罗斯蒙古话短元音的声学特性,并把得到的结论与科尔沁、巴林土语的短元音进行对比研究,认为郭尔罗斯蒙古话词首音节有等8个短元音,非词首音节有2个短元音并认为非词首音节短元音只有一个音位是的不同条件下的变体的舌位比巴林和科尔沁的靠后。舌位高低上除了的舌位高低基本相同之外其余的都比巴林的高、比科尔沁的低,非词首短元音的央化现象比巴林和科尔沁更突出。
笔迹鉴别是一种行为特征识别的方法。笔迹容易获取并且不同的人有不同的笔迹,因此基于笔迹的身份验证在安全领域、金融领域均有广阔的应用前景。本文主要针对离线手写体维吾尔文字笔迹鉴别方法展开研究,重点主要集中在笔迹图像预处理。研究目的主要是为维吾尔文字笔迹鉴别中涉及到各种主要算法和技术进行有效性分析和实现,为计算机笔迹鉴别系统的实现提供技术支持,推动笔迹鉴别自动化的进程。