基于统计专用字符的维、哈、柯文文种识别研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：liongliong503

【摘要】

：

在Unicode编码方案中维、哈、柯文字符安排在阿拉伯字符区域，三种语言中共享字符比较多，跟阿拉伯字符区域混在一起，没有专用的语言ID。在信息检索和自然语言处理领域对维、哈、

【作者】

：

买买提依明·哈斯木吾守尔·斯拉木维尼

【机构】

：

新疆大学信息科学与工程学院、新疆多语种重点实验室,和田师范专科学校、计算机科学系

【出处】

：

中文信息学报

【发表日期】

：

2015年2期

【关键词】

：

文种识别专用字符复合字符维文哈文柯文 UNICODE language identification unique characters comp

【基金项目】

：

国家“973”重点基础研究计划（2014CB340506）,国家自然科学基金（61262063,61363063）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在Unicode编码方案中维、哈、柯文字符安排在阿拉伯字符区域，三种语言中共享字符比较多，跟阿拉伯字符区域混在一起，没有专用的语言ID。在信息检索和自然语言处理领域对维、哈、柯文的识别、处理带来不便。该文首先分析并总结了维、哈、柯文三种语言中的专用字符、复合字符、某些字符在某种语言中出现形势的独特性等特征，然后在此基础上设计了维、哈、柯文种识别算法。实验结果表明该文提出的文种识别算法的正确率在文本多于70词时达到96．67％以上。

其他文献

赤羽病病毒核蛋白基因克隆和序列分析

参考GeneBank发表的赤羽病病毒(Akabane virus,AKAV)的核蛋白基因(SmRNA)序列,设计合成一对引物,从分离自牛体的AKAV BHK21细胞培养物中提取总RNA,对AKAV核蛋白基因进行RT-PC

期刊

赤羽病病毒核蛋白基因克隆序列分析Akabane virus N gene Cloning Sequence analysis

用套式PCR方法检出腹泻及健康犬粪中的犬冠状病毒

自2003年夏至2004年初的8个月内收集犬粪样112份,其中南京地区家庭单养的腹泻犬粪便43份,某养犬场群养健康犬粪便30份,沈阳地区某养犬基地群养健康犬粪便39份,用套式PCR方法

期刊

健康犬犬冠状病毒群养单养粪便粪样养犬场腹泻套式PCR阳性Canine coronavirus type Ⅱ CCVnested-PCR.

具有蛋白酶及解旋酶活性的HCV-NS3重组蛋白的纯化及活性分析

为深入探讨HCV-NS3蛋白的酶动力学性质,制备了具有蛋白酶及解旋酶活性的HCV NS3重组蛋白.利用PCR扩增HCV非结构基因NS3,插入pPIC9,测序分析.携带NS3基因的重组质粒(pPIC9-NS3

期刊

丙型肝炎病毒非结构蛋白3纯化酶活性重组蛋白Hepatitis C virus (HCV)Non structure protein 3Purifi

汉语篇章级小句关系的标注体系

句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整

期刊

句际关系小句关系语料库标注discourse relation Intra-Sentence Relationship corpus annotati

问鼎美业，其赢天下第九届华山论剑总冠名企业——新加坡丝琳·妮尔

或许，现在每个人对美的定义已经模糊，有着五花八门的解析；唯当健康遇见美丽，真正做到由内而外散发才可长久问鼎美业。或许，当选择面临诱惑，将天方夜谭的炒作式美企置之于外；抉择你由

期刊

新加坡企业华山

结合信任度与社会网络关系分析的微博推荐方法研究

随着微博网络的盛行,越来越多的微博信息困扰用户无法快速定位自己感兴趣的博文。为了解决微博信息过载问题,信息过滤、推荐和搜索等技术被应用于微博研究中。该文提出了一个

期刊

信任度社会网络矩阵分解微博LDAtrust social networks matrix factorization blog LDA

传染病预防控制国家重点实验室

传染病预防控制国家重点实验室（State Key Laboratory for Infectious Diseases Prevention and Control．SKLID）依托于中国疾病预防控制中心（Chinese Center for Disease Prevent

期刊

中国疾病预防控制中心国家重点实验室传染病预防CENTERfor科技部

猪瘟兔化弱毒株E2基因的原核表达及间接ELISA的初步建立

猪瘟病毒E2蛋白C端含有一段30多个疏水性氨基酸组成的跨膜区域(Transmembrane region,TMR),用RT-PCR和巢式PCR分别扩增了含不同长度TMR的猪瘟兔化弱毒E2基因,并克隆入pGEX-4T

期刊

猪瘟免化弱毒E2基因原核表达间接ELISAHog cholera lapinised virus E2 gene Prokaryotic Expre

伪狂犬病病毒ul24基因表达蛋白的胞内定位研究

根据GenBank已发表的PrVul24基因序列（NC006151），设计并合成一对引物，PCR扩增出ul24基因编码区，克隆于pEGFP—N1载体，得到重组质粒pUL24-GFP。酶切鉴定，测序及Western Blot验证重组

期刊

伪狂犬病病毒PCRul24GFPPseudorabies virus PCR ul24 GFP

面向普通未登录词理解的二字词语义构词研究

把词素作为基本资源,从语义上寻找他们组合成词的规律,可以辅助自然语言理解.该文首先参照《现代汉语词典》和知网标注了二字词的词素意义,继而从意合结构、意根分布、意指方

期刊

自然语言处理二字词语义构词词素意义词化意义

基于统计专用字符的维、哈、柯文文种识别研究

与本文相关的学术论文