论文部分内容阅读
随着对协商理论研究的不断深入,基于Agent的自动协商技术被运用到各类领域中,解决实际问题。文字,作为人与计算机交互的主要信息载体,对用户与计算机的交互体验有着直接影响。中文输入法是大多数中文用户使用计算机的必备程序。在类型众多的中文输入法中,拼音输入法具有简单易学、多场景适用等诸多优点,因此,拼音输入法成为了当前中文输入法领域的主流。在机器翻译领域,近年来,计算机辅助人类译员进行翻译逐渐成为该领域的研究热点。辅助翻译的研究专注于如何有效地利用计算机帮助人类译员高效地完成翻译任务、提高翻译质量。受Agent协商的启发,本文将辅助翻译中文拼音输入法的应用场景,抽象为协商域,利用Agent协商,完成拼音向汉字的解码任务。本文提出了一种基于Agent协商的智能拼音输入法(以下称智能输入法)。该输入法面向英译中的翻译环境,专注于译员在对原文进行翻译的过程中,如何通过已输入的拼音序列有效地预测译员实际想要输入的中文片段。实验结果证明,该输入法能够有效地利用Agent协商技术将机器翻译上下文信息融合到中文拼音输入法中,在译员专注于翻译任务的过程中,准确地预测译员想要输入的中文片段,减少译员击键次数,提高输入效率。本论文主要完成的工作如下:(1)将辅助翻译拼音输入法的应用场景抽象为基于Agent协商的协商域。基于Agent的协商总是面向特定的场景或者抽象的协商域。利用中文拼音输入法进行输入的整个过程本质是从拼音序列(源端,Source)到中文片段序列(目标端,Target)的解码过程。本文将辅助翻译中文拼音输入法(翻译拼音输入法)抽象为类似打分投票游戏(Voting Game)的协商域;并基于普通拼音输入法、机器翻译上下文环境提取出多个关键特征,作为协商过程中各协商方Agent的关注点;各个Agent将利用自己的解码器对拼音序列进行解码,输出候选的中文片段列表(提案,offer);最后,协商解码系统整合各Agent的提案,决定最终的协商结果,即解码结果;协商结束,即完成一次拼音序列到中文片段的解码,系统将最终的提案(中文候选片段列表)输出给用户。(2)构建关注点的特征函数,并利用对数线性模型进行特征融合,构建解码过程中的打分器模型。基于对数线性模型融合各个特征的打分器模型,是各Agent进行提案的关键,同时也是基于协商系统、根据译员输入的拼音序列进行有效解码、输出中文候选的重要环节。针对不同特征,本文利用了不同的方法构建对应的特征函数,这些方法包括:基于语言模型(Language Model)的打分度量方法和文本相似性度量方法。(3)模型的有效性验证并求解各协商Agent的参数(权重向量),优化协商解码的输出结果,为译员输出更优质的中文片段。利用Agent协商技术构建中文拼音输入法解码器的目标是有效地融合输入法的各个特征,使输入法更智能的输出用户想要的中文片段。基于对数线性模型融合的特征函数打分器模型是协商解码的关键。本文利用样本数据,设计对比实验,对实验结果进行多维度分析,验证了提出的解码器模型的有效性;并利用最小错误率训练框架,求解得最优的模型参数。