汉英双向时间数字和数量词的识别与翻译技术

被引量 : 0次 | 上传用户:vanechin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别与翻译是机器翻译的重要组成部分。本文使用基于语料库的方法,挖掘提取语料库中数字、时间日期、数量词的表达模式,并由此转换为规则,实现了中英数字、时间日期、数量词这几种命名实体的识别与双向翻译。本文的研究内容主要包括四部分:(1)介绍了自动机理论,为后文的规则提取与利用作理论铺垫,并阐述了有限状态自动机、非有限状态自动机和正则表达式之间在正则语言表达上的等价关系。本文先从大量的语料中挖掘出中英命名实体的表达模式,再将这些表达模式转化为规则,也就是以正则表达式的形式给出。(2)采用同步上下文无关文法来解析和翻译时间日期。同步上下文无关文法在上下文无关文法的基础上,给每条文法增加翻译文法规则,从而把解析的过程与翻译的过程同步起来。而对于同步上下文无关文法的解析,采用了CYK+算法。(3)本文将数量词定义为:数字+量词+名词。“数字”部分直接将前面数字的识别与翻译系统作为这里的一个模块,量词则使用语言学家总结的量词表,对于名词部分,则采用数据挖掘的策略,从大语料的phrase-table中来抽取中英数量词翻译对。(4)将中英数字、时间日期、数量词的识别与翻译规范进行了详细阐述并给出了实验结果与分析。实验表明具有较高的识别F-measure值和翻译准确率。
其他文献
媒介生态直接影响诗歌生态。大众传播时代,娱乐狂欢是受众一个主要的审美和消费心理。受众趣味影响着媒介和诗歌的生态,在受众、媒介、诗人等的合力下,恶搞诗歌成为一大媒介
越南炼油工业快速发展,成品油供应能力不断增强,未来几年,越南成品油将供过于求,富余的成品油或将出口。
先天性水平骶椎是引起腰腿痛的原因之一,女性多见.在正常情况下第1骶椎上缘平面和水平线所形成的角度,不应超过40~50°,达到60~70°者称水平骶椎.有水平骶椎者,腰椎生
随着我国建筑工程的项目越来越多,施工安全事故却也随之增加,一直以来施工的安全管理都是建筑工程的重点,如何有效的进行安全管理,减少施工事故一直以来都是施工企业以及建筑
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
《1974年贸易改革法》(the Trade Reform Act of 1974)是美国现代贸易法规体系中的关键性法律,集中反映了二战后美国对外贸易战略方针的变化。本文试图从宏观的视角整体性探
新时代中国特色社会主义事业总体布局是"五位一体",到本世纪中叶,我国将建成富强民主文明和谐美丽的社会主义现代化强国,实现国家治理体系和治理能力现代化。阐述了现代社会治
针对目前国内室内定位领域的需求,提出一种基于UWB的室内定位系统实现方案,充分利用UWB带宽大、定位精度高的优点,实现室内三维定位和追踪。系统通过TOA方法,测量UWB标签与多
<正>针灸推拿康复科建科近60余年,名医辈出,曾先后涌现出李少亭、谭春涛、郭命三、方云鹏、刘平定等一批在国内享有盛誉的针灸名家。上世纪70年代,针灸推拿康复科曾作为西安