统计机器翻译译文错误检测方法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:ssskstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着统计机器翻译(SMT)的快速发展,SMT系统开始应用于各大软件公司。高质量的译文对于进一步促进SMT实用化至关重要,然而,到目前为止,面向工业界应用的SMT系统生成的译文质量仍然无法真正满足用户要求。因此,为了提高机器翻译译文质量,自动对译文进行错误预测与分类成为SMT技术发展和应用的重要研究内容之一。  本文基于机器学习策略,将机器翻译译文错误检测问题作为一个监督分类问题,即给定一组候选译文,从已标注分类类别的数据集中抽取多个置信度特征,通过监督学习策略学习一个分类模型,然后将测试数据候选译文中的单词分为“正确”与“错误”两类。  本文首先抽取了3种典型的用于翻译错误检测和分类的单词后验概率特征,即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的后验概率;之后从语言学和源端信息出发,抽取了三种语言学特征(词性、词及由LG句法分析器抽取的句法特征)和一个源端单词特征。然后分别采用最大熵分类器和SVM分类器对以上特征及特征组合进行了错误分类实验,并进行了评价。在NIST汉英机器翻译数据集的实验结果表明,基于灵活对齐位置的单词后验概率表现要优于固定位置的单词后验概率,而且,语言学特征、源端单词特征对于进一步降低分类错误率是有效的,多特征组合可以显著降低分类错误率,提高译文错误预测能力。同时,实验也验证了无论是在独立特征实验还是组合特征实验中,SVM分类器都要优于最大熵分类器,其分类效果更好。  在独立分类器实验基础上,本文也提出了基于乘性组合的多分类器组合方法,将最大熵分类器和SVM分类器进行组合,并利用以上特征进行了实验。实验结果表明多分类器组合方法可以更显著降低分类错误率,提高错误预测性能。
其他文献
近年来,虚拟轧制技术已成为冷轧生产行业中改进控制技术、预测系统性能及研究工艺过程的前沿性技术。  本文基于虚拟轧制技术,以1200mm六辊冷轧机组为研究对象,应用三维实体造
储粮环境是一个由多种因素构成的复杂系统,粮情状况与环境中的微生物活性、温度、湿度和CO2浓度等因素密切相关,常规粮情监控装置和预测方法已经很难满足当代储粮监控的高度
在数字图像的获取过程中,由于成像器件采样频率的限制会导致欠采样,大气扰动、对焦不准会导致图像模糊,存储传输过程还会引入噪声污染,因而实际获得的图像分辨率往往不能满足视觉
近年来,由于现代工业的快速发展以及控制规模的不断扩大,传统的点对点控制方式已经不能满足日趋复杂的系统控制过程要求。网络控制系统由于其可靠性高、便于开发维护、信息智
微弱信号检测的目的是增强、提取和恢复有用信号,提高信噪比。传统的线性检测方法主要集中在抑制噪声方面,在抑制噪声的同时有用信号可能受到干扰。与传统检测方法相比,随机共振
随着我国电力系统事业的不断发展,遍布于城乡山区的小水电发电综合自动化程度需要不断提高。这就需要对小水电发电系统进行全面的监控和管理,针对这样的需求,本文从实际应用角度
基于光栅投影的三维形貌测量技术是一种非接触式的物体三维形貌测量方法。相比于接触式的三维测量方法,非接触式的三维测量具有全场性、快速性、无破坏性及精度高等优点。广泛
永磁同步电机以其结构简单、体积小、效率高等优点,在高性能的伺服系统中得到了广泛的应用。传统的带有机械传感器的控制系统存在体积大、价格高、难以维护等缺点,无速度传感器
在交流调速系统中,永磁同步电机因其具有体积小、重量轻、结构简单、运行可靠、维护保养方便、高效节能等优点得到了广泛的应用。随着电力电子技术和现代控制理论的发展,使得高
目前双馈型电机是风力发电机的理想发电机,本文围绕双馈风力发电系统励磁装置的控制技术与功率动态解耦问题进行相关研究。  首先,分别对风力发电所采用的几种励磁装置进行对