基于统计专用字符的维、哈、柯文文种识别研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:liongliong503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Unicode编码方案中维、哈、柯文字符安排在阿拉伯字符区域,三种语言中共享字符比较多,跟阿拉伯字符区域混在一起,没有专用的语言ID。在信息检索和自然语言处理领域对维、哈、柯文的识别、处理带来不便。该文首先分析并总结了维、哈、柯文三种语言中的专用字符、复合字符、某些字符在某种语言中出现形势的独特性等特征,然后在此基础上设计了维、哈、柯文种识别算法。实验结果表明该文提出的文种识别算法的正确率在文本多于70词时达到96.67%以上。
其他文献
参考GeneBank发表的赤羽病病毒(Akabane virus,AKAV)的核蛋白基因(SmRNA)序列,设计合成一对引物,从分离自牛体的AKAV BHK21细胞培养物中提取总RNA,对AKAV核蛋白基因进行RT-PC
自2003年夏至2004年初的8个月内收集犬粪样112份,其中南京地区家庭单养的腹泻犬粪便43份,某养犬场群养健康犬粪便30份,沈阳地区某养犬基地群养健康犬粪便39份,用套式PCR方法
为深入探讨HCV-NS3蛋白的酶动力学性质,制备了具有蛋白酶及解旋酶活性的HCV NS3重组蛋白.利用PCR扩增HCV非结构基因NS3,插入pPIC9,测序分析.携带NS3基因的重组质粒(pPIC9-NS3
句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整
或许,现在每个人对美的定义已经模糊,有着五花八门的解析;唯当健康遇见美丽,真正做到由内而外散发才可长久问鼎美业。或许,当选择面临诱惑,将天方夜谭的炒作式美企置之于外;抉择你由
随着微博网络的盛行,越来越多的微博信息困扰用户无法快速定位自己感兴趣的博文。为了解决微博信息过载问题,信息过滤、推荐和搜索等技术被应用于微博研究中。该文提出了一个
传染病预防控制国家重点实验室(State Key Laboratory for Infectious Diseases Prevention and Control.SKLID)依托于中国疾病预防控制中心(Chinese Center for Disease Prevent
猪瘟病毒E2蛋白C端含有一段30多个疏水性氨基酸组成的跨膜区域(Transmembrane region,TMR),用RT-PCR和巢式PCR分别扩增了含不同长度TMR的猪瘟兔化弱毒E2基因,并克隆入pGEX-4T
根据GenBank已发表的PrVul24基因序列(NC006151),设计并合成一对引物,PCR扩增出ul24基因编码区,克隆于pEGFP—N1载体,得到重组质粒pUL24-GFP。酶切鉴定,测序及Western Blot验证重组
把词素作为基本资源,从语义上寻找他们组合成词的规律,可以辅助自然语言理解.该文首先参照《现代汉语词典》和知网标注了二字词的词素意义,继而从意合结构、意根分布、意指方