汉英短语翻译对的自动抽取

来源 :计算机应用与软件 | 被引量 : 6次 | 上传用户:shulang198851
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介绍从平行语料库中如何抽取双语短语翻译对。首先用统计模型正则期望从汉语专利语料库中抽取汉语短语。抽取的短语利用统计知识和语言学知识来过滤,使得过滤后汉语短语的正确率较高;其次,利用词对齐工具Giza++从汉英平行语料库中抽取词汇对齐,在词汇对齐的基础上利用开源工具Moses抽取汉英短语对齐,根据短语对齐与抽取出的高质量汉语短语的交集来抽取候选的汉英互译的源语言短语;接着使用停用词、对数似然估计法LLR和上下文熵来对英语短语翻译进行过滤。实验结果表明,过滤后,抽取的汉语短语准确率为97.6%,汉英短语
其他文献
社会性别理论将人的自然性别和社会性别加以区别,强调性别的社会建构性,认为社会对两性角色和行为的期待往往是对两性生物性别规定的延伸,人们现在的性别观念是社会化的产物,
近年来,随着移动通信技术的飞速发展,智能终端的日益强大,手机已趋向于成为人们日常出行所携带的唯一电子产品。2016年11月工信部公布显示截止10月末我国4G用户总数达到7.14
Web应用环境复杂,传统基于故障测量的方法不能很好地满足系统可靠性度量的需求。充分考虑用户对系统的使用情况,从Web服务器日志中获取用户点击数、传输字节数、用户数和用户会话数,提出基于这四个指标的工作量测量法,并与传统的故障测量法结合,采用Nelson模型进行系统可靠性评估。通过实验比较工作量测量的四种方法与故障测量方法的优劣。结果验证了基于工作量测量的方法能更稳定地评估Web应用的可靠性。
本刊讯 新的无线802.11n标准将要颁布的消息,使得2008年的无线网络市场备受瞩目。这样的热点必然引发各大厂商的动作,据悉,在国内网络厂商中,在IP网络市场深耕多年的H3C就对此关注
为有效解决电子政务系统数据交换和共享问题,研究、设计和描述一种信息资源集成平台的技术解决方案。系统结构由管理监控中心、交换中心和数据接入端组成,能够实现异构系统之间的数据交换和服务集成,提供全面监控功能,具有良好的可扩展性和适应性应用特征。
在许多重要的工业应用中,常常遇到工件厚度测量问题.例如,核反应燃料棒包覆层,飞机机翼厚度以及化工容器的厚度等.厚度测量视对象不同,常采用超声、射线、电磁涡流等不同方法
基于Penn Discourse TreeBank(简称PDTB)语料中的隐式篇章关系类型,提出一种无指导的识别方法。主要依据显式与隐式平行论元对之间的映射关系实现显式到隐式关系的推理,即利用显式论元对的篇章关系,推理与之平行的隐式论元对的篇章关系。推理过程主要包括:基于大规模语料库以及基于搜索引擎的平行语料挖掘,平行语料中显式连接词映射到篇章关系过程的消歧。与传统基于监督学习的分类方法相比,基于
上期的“中国四大”你都记住了吗?在头脑里找找答案,看你是否足够聪明。落下哪个了?对照一下瞧瞧:四大国粹(京剧、中医、国画、武术);四大才艺(琴、棋、画、书);四大发明(造纸术、印刷术、指南针、火药);四大发明家(張衡、蔡伦、毕升、杜诗)。这期,咱们就来继续了解祖国的传统文化,要开始喽!
最近辅导学生,被问到这样一道题:
2017—2019年在福建省寿宁县开展不同栽培基质、上盆时间、移植户外时间对催花牡丹花后植株成活率和开花率的影响试验。结果表明,栽培基质以废菌渣+菜园土(1∶1)最佳,植株平