基于特征融合的单语词对齐方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gyqg1q
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复述是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。复述研究的对象主要是短语或者句子的同义现象。复述技术已经被成功的应用到信息检索、自动问答、信息抽取、自动文摘以及机器翻译等多个领域,有效地提高了这些系统的性能。词对齐技术在复述的两个基本任务:复述识别和复述生成中都起着非常重要的作用。面向复述的词对齐相比于传统面向机器翻译的词对齐有以下几方面的特点:首先是语料规模受限。相对于双语平行语料,我们所能获得的单语平行语料非常之少,而传统基于统计学的词对齐方法在语料规模方面又有着较高的要求。其次,由于本文所讨论的对齐是面向复述的单语词对齐,具有双语问题不具备的一些特征,这些特征同时也是无法比拟的优势。比如,单语平行句对通常具有相似的句法结构,而目前,句法分析工具也获得了可接受的应用性能。再如,单语问题有着较为丰富的语言学资源,HowNet、WordNet都能在语言学知识上为我们的对齐提供帮助。综上,如何克服小规模语料的限制,充分利用单语问题的特点,提高自动对齐的表现成为本文研究的重点。本文提出使用特征融合的方法来解决这些问题。我们采用了线性模型来融合特征,这是一种简单而又行之有效的特征融合方法,易于进行各种特征的合并和拓展。我们选取的四大类特征分别是:词典特征、统计特征、位置特征和上下文特征。这些特征从语言学、统计学等多个方面刻画描述对齐特点;我们采用感知器学习算法进行参数训练。此外,为了提高解码效率,本文选择了模拟退火解码算法。实验数据表明,我们选取的各类特征在词对齐问题上都有着不同程度的贡献,参数训练方法可行有效,准确率和召回率方面相对于单纯的基于统计的方法有着明显的提高。应用全部特征时达到了最佳实验效果,准确率和召回率较基准分别提高了3.55%和10.16%;综合指标F值达到81.74%,提高3.83%。
其他文献
近年来,随着数据库和网络技术的发展,XML已经成为Internet上数据表示和交换的标准。随着XML技术的不断普及,Internet上以XML技术作为载体的数据越来越多,从而对这些XML数据的有效
随着计算机技术的飞速发展,人们的需求开始对数据处理环境有了许多全新的变化,最显著的特点是对数据处理环境提出移动性要求。传统的数据库技术已经无法满足这种移动环境下的
上世纪九十年代以来,时空数据库领域的研究取得了极大的进展,其中,移动对象轨迹数据管理引起了人们的广泛兴趣,并逐渐形成了专门管理移动对象及其位置的数据库——移动对象数据库
网格被喻为第三代Internet,是一种新型的网络计算平台,目的是为用户提供一种全面共享各种资源的基础设施。网格把地理位置上分散的资源集成起来,通过网格,用户不需要了解网格上资
软件测试作为保证软件质量的重要手段,测试用例的设计对软件测试的成败起着至关重要的作用。然而由于软件测试用例的设计在很大程度上依赖于测试人员的个人经验,测试用例的编写
随着计算机通信技术的发展,网络已经深入到人们日常生活之中。但是,人们在欣然享受其带来的欢乐和便捷的同时,也在为其带来的安全问题而担忧。目前出台的一些安全解决方案,都
最近几年,随着信息技术的发展,移动互联网时代的到来,智能手机已成为人们日常生活中不可或缺的一部分,给人们的生活方式带来了很大的改变,不仅使人们之间的沟通更加方便,同时
多计算机系统作为当今最流行的并行计算机,具有广泛的应用领域。Mesh网络拓扑是迄今为止并行计算机系统研究中最重要和最有吸引力的网络拓扑结构之一,随着计算机互联网络规模的
虚拟人在娱乐、虚拟现实等应用领域有着非常广泛的应用。而虚拟人的逼真变形也是一个非常重要的方面,既是一个热点,也是一个难点。在三维游戏等实时应用领域中,对人体变形的逼真
随着传统的数据库技术日趋成熟、计算机网络技术的飞速发展,集中式数据库开始向分布化方向发展。而传统意义上的分布式数据库由于全局数据模式很难设计、管理、扩充和修改等原