基于多策略的维吾尔文网页识别方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:zhangyili164958807
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法
其他文献
近年来,越来越多的研究关注事件时序关系,但大多数工作集中于提高事件关系分类器的性能,忽略了分类器错误所造成的事件关系间不一致的问题。该文利用了一个全局优化的推理模
你依然 如我的想象 人生的你 总是活在 快乐的最前排 如果有天
作为文章内容的浓缩表达,摘要蕴含着文章关键的发现和结论。自动分析挖掘摘要内容,对于充分利用快速增长的科技文献具有重要意义。该文以Medline生物医学文章的摘要为对象,对
彝族文化为彝剧创作中的喜剧形式表现提供了丰富的素材,深刻地体现了彝族的民族风情以及自然宗教特点.研究彝剧的喜剧形式,对于我们深入了解彝族宗教、文化等有着极大的帮助.
中国是一个多民族聚集的国家,各个民族相互融合、相互影响,虽然很多方面存在差异,但是他们各具特色的民间音乐文化构成了中华民族绚丽多彩的音乐文化宝库.地方高校教育是我国
朝鲜语自动分写问题类似于中文分词问题,属于朝鲜语自然语言处理中的基本问题。首先,针对传统的朝鲜语自动分写方法中依赖人工特征的问题,该文提出一种朝鲜语分写增强字符向
我想留下 留下天涯的路 让旅途 永久的遥远 当累了的时候 梦就生成
曲剧最初来源于明清时期一种叫做“踩高跷”的民间艺术,每到过年期间演出,表演形式由早期的随走随唱发展到将演出场地搬到固定的舞台上.南阳曲剧前期以洛阳小调为主要音乐素
本文通过对江西民间采茶戏班经营管理模式进行探析,提出加大政府引导与扶持力度并进行相关专业的指导,可更好的促进江西民间采茶戏的传承与发展.
本研究旨在了解本地区丙型肝炎病毒(Hepatitis Cvirus,HCV)基因型构成的前提下,分析1b型丙型肝炎病毒包膜2(second envelope glycoprotein E2)区的变异和种系进化,并研究其准种变异