基于加权二部图的汉日词对齐

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:Okira_lacusO
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高效的自动词对齐技术是词对齐语料库建设的关键所在。当前很多词对齐方法存在以下不足:未登录词问题、灵活翻译问题和全局最优匹配问题。针对以上不足,该文提出加权二部图最大匹配词对齐模型,利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词问的相似度,利用加权二部图最大匹配获得最终对齐结果。在汉日词语对齐上的实验表明,该方法在一定程度上解决了以上三.点不足,F—Score为80%,优于GI-ZA++的72%。
其他文献
幼儿时期作为孩子的启蒙时期,有着至关重要的作用。在这一年龄阶段,游戏无疑是幼儿最感兴趣的事情。把游戏和学习相结合,通过游戏教育激发起幼儿对更多事物的兴趣,促进幼儿全
本文介绍了汉语语音合成语料库TH-CoSS的建设和分析。本语料库包括男女声朗读语句约2万个。语料库分为四个部分:TTS系统建库用语句、TTS系统测试用语句、特殊语调语句和特殊音节组。语料设计考虑了语料的平衡和音段、韵律信息的丰富。语料库中除了文本、语音数据外,还带有音段切分标志,标注文件采用XML格式。为了方便语音分析与开发,特研制了标注软件。本文还给出了语境特征对语音韵律影响的分析结果。
英语原声电影以画面感强、灵活性强、富有感染力等特征,成为初中生学习英语口语、词汇、语法的绝佳素材,并能够在初中英语教学中展现出极大的魅力。随着初中院校教学设备的完
介绍了采用基于实例的方法和基于规则的方法在面向奥运的汉英机器翻译系统的最新进展。揭示了二者不同的翻译处理过程和翻译知识学习机制。通过2003年和2005年两次863汉英测
<正>S4机芯彩电是福日公司最新设计开发的一种大屏幕彩电机芯。目前主要产品有HFC-25S10、HFC-29S10、HFC-29S16等机型,还派生出HFC-25S11、HFC-25S15、HFC-29S12等机型,该机
期刊
对模式识别系统而言,不同的训练样本在建立模式类模型时所起的作用不同,因此必须对训练样本进行选择。而在训练样本中,边界样本的判定方式以及训练样本中包含边界样本数量的
显像管管座早期失效,对于生产厂家和用户来讲,算不算大问题?生产产品无人买,买回家中看不了,本文通过对显像管管座失效机理的分析,提出了一系列的改进措施。
目的评价屏气三维快速平衡稳态进动序列在冠状动脉磁共振成像的临床应用价值。方法42例受检者,采用外周门控屏气三维快速平衡稳态进动序列(3D-FIESTA),呼气末屏气扫描。对扫描
为了有效翻译体育领域文本,特别是文本中的长句,本文提出了一种面向体育领域的句子主干翻译方法.该方法采用模板来表示句子主干,主要包括句法主干分析、模板转换和句子主干译