面向维汉机器翻译的维语命名实体的识别与翻译

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:myloft9h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维吾尔语命名实体识别和翻译是维汉机器翻译的基础任务,也是信息检索、信息抽取、智能问答等技术的基础,研究并实现有效的维吾尔语命名实体识别与翻译系统是本文的主要研究内容。维吾尔语命名实体包括数词类和实体类,其中数词类包括时间、日期、货币、百分比,实体类包括地名、机构名、人名。  当期中英文命名实体识别与翻译已经取得可实用的效果,而维吾尔语命名实体正处于初步研究阶段。维吾尔语命名实体有着特有的语法语义特点,汉语和英语中广泛实用的理论、模型和系统不能简单移植过来,需要结合语言特性做相应处理。  本文工作包括三部分:  基于维汉平行语料的维吾尔语数词类命名实体的识别与翻译:通过有限自动机结合触发词识别并翻译维语基本数词,从平行语料中自动抽取出翻译模板,匹配模板并实现翻译。实验表明,维吾尔语数词类命名实体的翻译F值达到了91%。  基于规则的维吾尔语地名识别和翻译:总结了维吾尔语地名内部结构特征和相邻词信息,手动建立了地名词典库、首词库、中间词库和尾词库,实现了维吾尔语地名识别算法。实验表明,维吾尔语地名的翻译F值达到了76%。  基于统计的维吾尔语机构名识别:将机构名识别问题转换为序列标注的问题来解决,利用条件随机场模型充分利用上下文信息和外部特征,实现对机构名的识别。实验表明,维吾尔语机构名识别的F值达到了82%。
其他文献
告警管理系统是IP网络管理的一个重要功能模块,是网管人员监控网络并发现网络故障的有效工具.告警管理系统在对网络告警事件进行处理时,需要依据网管人员设定的处理规则进行,
数据分发管理(DDM)作为HLA接口规范所定义的一种服务,采用基于值的过滤机制在对象实例属性层次上进一步增强联盟成员表达兴趣、精简数据的能力,从而减少盟员间的无关数据通信
网络在现实的生活中使用越来越广泛,但是安全问题却越来越突出,如何保证安全性已经成为首要解决的问题.目前公钥基础设施PKI(Public Key Infrastructure)被广泛地应用在科研
基于IP网络的通话技术(VoIP)取得了很大的成就,并且在向可视电话方向发展.IP电话包的丢包和传输延时会影响到IP电话的呼叫过程、连接控制及通话质量.对网络中的IP电话包进行
并联机器人运动学和力控制是机器人智能研究领域的两个重要课题,它的研究对于推动和扩大并联机器人在工业生产中的应用有重要的意义.文章首先将人工神经网络应用于并联机器人
当前的网络测量基础设施大都采用基于被动监测模式的体系结构,主要提供对所属网络或授权网络的性能监测支持,对互联网上日益增多的应用系统的测量所提供的支持不足,项目组提
随着网络技术的发展和信息应用水平的不断提高,企业业务的开展越来越依赖于通畅、稳定的网络环境.如何提高网络管理软件的开发效率和解决通用性与适用性之间的矛盾已经成为摆
随着网络技术的飞速发展,XML逐渐成为互联网上半结构化数据的统一标准.越来越多的应用程度使用XML文档来交换数据.在进行数据交换时,每个应用程序都从文档中提取自己需要的数
Web服务技术的发展加速了现有应用的集成,方便了企业与企业之间的互操作,成为下一代软件服务的基础.Web服务解决了机器与机器之间的互操作问题,但是它本身不包括任何用户交互
静态图像压缩的关键在于充分利用象素间的相关信息.在小波图像压缩中,相关信息体现为小波变换系数的邻居、父子和兄弟等相关性,典型的小波图像压缩算法如EZW、SPIHT和JPEG200