基于模糊匹配与音字转换的维吾尔语人名识别

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:mingxing020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维吾尔语是属于阿尔泰语系的黏着性语言,构词特点比较复杂,尤其是维吾尔语中的人名,由于来源差别巨大,识别难度很高,到目前为止,还未出现成熟的维吾尔语人名识别工具。大量维吾尔语文本中的人名统计发现,维吾尔族人名和汉族人名共占据了约83%,因此该文分别针对维吾尔语文本中出现的维吾尔族人名和汉族人名提出相应的识别方法。针对维吾尔族人名,提出基于字母的模糊匹配识别方法;针对汉族人名,借助机器翻译思想提出基于音字转换的识别方法。实验结果表明:所提方法识别维吾尔族人名F1值能够达到91.84%,识别汉族人名F1值能够达到95.86%。
其他文献
将受贿罪置于实质解释论的视野中,具有论理和适用上的妥当性。受贿罪的法益应界定为公众对公务员身份及职务公正的合理信赖。在判断职务关联性时,必须坚持受贿者对行贿者具有
函数极限是高等数学中非常重要的内容,是学习导数,微分,积分的基础,而极限的求法又比较灵活,本文对于求函数极限方法做一个总结,以供参考。
传奇剧是莎士比亚后期创作的主要成果,其作品充满了神秘色彩,往往借助幻象来匡正现实,有一种悲剧的色彩。其代表作有《辛白林》、《冬天的故事》、《暴风雨》等。
塔里木盆地库车坳陷与塔西南坳陷的白垩系沉积厚度大 ,岩石类型多 ,既有碎屑岩 ,又有蒸发岩和碳酸盐岩。沉积相类型丰富 ,包括海相、海陆交互相和陆相 ,并以陆相碎屑岩沉积为
在全媒体融合传播的新语境下,作为地市党报,滁州日报立足独特的地域优势,深挖地方元素,破解报道难点,在一系列重大主题报道中注重接上"天线"、连上"地线"、融合互动,在很大程
本文是《中国早寒武世岩相古地理》的继续。本文的基础是笔者等的华北地区、华南地区和西北地区寒武纪和奥陶纪定量岩相古地理研究及编图的成果。定量 ,即每个古地理单元的划
关于离婚时知识产权期待利益的归属,理论上主要存在"共同财产说"和"个人财产说",两种观点在理论依据、逻辑推论、利益衡平及实践操作方面都存在或多或少的问题。完善知识产权
近年来,随着化石燃料资源过度开采和不可再生资源日益减少,纤维素这种可再生资源引起了化学工作者的关注。纤维素是地球上最丰富的可再生资源,具有价廉、可降解和不污染环境等优
在后金融危机时代,针对业界对金融教育"注重金融理论而不重实务,重视金融知识而不重道德"的批评,很多高校将CFA引入大学教育。南京财经大学金融学院在本科及研究生教育阶段都
清代黄六鸿的《福惠全书》是一部详细介绍州县官理政经验的官箴书,涉及大量的清代衙门内部或衙门之间使用的公文。有9种文体不见于秦国经先生的《清代文书简介》一文,分别是