基于多策略的维吾尔文网页识别方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：zhangyili164958807

【摘要】

：

经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的

【作者】

：

阿力木·木拉提艾孜尔古丽杨雅婷李晓

【机构】

：

中国科学院新疆理化技术研究所,新疆民族语音语言信息处理重点实验室,中国科学院大学,新疆师范大学计算机科学技术学院

【出处】

：

中文信息学报

【发表日期】

：

2017年1期

【关键词】

：

维吾尔文网页识别 N-Gram方法常用词向量空间模型 Uyghur Web-page Identification N-Gram method co

【基金项目】

：

国家自然科学基金（61662081）,新疆维吾尔自治区青年科技创新人才培养工程项目-面向维汉机器翻译的维吾尔语命名实体识别研究（2014711006）,新疆维吾尔自治区青年科技创新人才培养工程项目-维汉机器翻译模型关键技术研究（2014721032）,新疆维吾尔自治区自然科学基金-基于多特征融合的复杂形态语言建模研究（20152J18034）,中科院战略性先导科技专项-新疆少数民族信息处理（XDA

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型（Vector Space Model）。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法

其他文献

基于全局优化的中文事件时序关系推理方法

近年来,越来越多的研究关注事件时序关系,但大多数工作集中于提高事件关系分类器的性能,忽略了分类器错误所造成的事件关系间不一致的问题。该文利用了一个全局优化的推理模

期刊

事件时序关系推理event temporal relation inference

等待重生

你依然如我的想象人生的你总是活在快乐的最前排如果有天

期刊

诗歌文学作品现代文学诗集

长度分布约束下的摘要文本无监督分割算法

作为文章内容的浓缩表达,摘要蕴含着文章关键的发现和结论。自动分析挖掘摘要内容,对于充分利用快速增长的科技文献具有重要意义。该文以Medline生物医学文章的摘要为对象,对

期刊

文本分割无监督动态规划生物医学摘要文本text segmentation unsupervised dynamic programming bi

论彝剧创作的喜剧形式表现

彝族文化为彝剧创作中的喜剧形式表现提供了丰富的素材,深刻地体现了彝族的民族风情以及自然宗教特点.研究彝剧的喜剧形式,对于我们深入了解彝族宗教、文化等有着极大的帮助.

期刊

彝剧创作喜剧形式表现

如何提高地方高校对当地音乐文化的保护——以贵州省黔东南凯里学院为例

中国是一个多民族聚集的国家,各个民族相互融合、相互影响,虽然很多方面存在差异,但是他们各具特色的民间音乐文化构成了中华民族绚丽多彩的音乐文化宝库.地方高校教育是我国

期刊

黔东南地方高校保护特色音乐文化

基于分写增强字符向量和LSTM-CRF的朝鲜语自动分写方法

朝鲜语自动分写问题类似于中文分词问题,属于朝鲜语自然语言处理中的基本问题。首先,针对传统的朝鲜语自动分写方法中依赖人工特征的问题,该文提出一种朝鲜语分写增强字符向

期刊

朝鲜语自动分写分写增强字符向量LSTM-CRFKorean automatic word spacing spacing-enhanced char

回荡

我想留下留下天涯的路让旅途永久的遥远当累了的时候梦就生成

期刊

诗歌文学作品现代文学诗集

刍议南阳曲剧发展之现状

曲剧最初来源于明清时期一种叫做“踩高跷”的民间艺术,每到过年期间演出,表演形式由早期的随走随唱发展到将演出场地搬到固定的舞台上.南阳曲剧前期以洛阳小调为主要音乐素

期刊

踩高跷小调子大调曲南阳派

江西民间采茶戏班经营管理模式探析

本文通过对江西民间采茶戏班经营管理模式进行探析,提出加大政府引导与扶持力度并进行相关专业的指导,可更好的促进江西民间采茶戏的传承与发展.

期刊

民间采茶戏班管理模式扶持

苏南地区1b型丙型肝炎病毒包膜区变异进化研究

本研究旨在了解本地区丙型肝炎病毒（Hepatitis Cvirus,HCV）基因型构成的前提下，分析1b型丙型肝炎病毒包膜2（second envelope glycoprotein E2）区的变异和种系进化，并研究其准种变异

期刊

丙型肝炎病毒包膜区2进化树准种丙氨酸转氨酶Hepatitis C virus E2 Phylogenetic tree Quasispecies

基于多策略的维吾尔文网页识别方法

与本文相关的学术论文