基于双语平行语料的中文缩略语识别研究

被引量 : 0次 | 上传用户:lhbneil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文缩略语在现代汉语中被广泛使用,是未登录词的主要来源之一,其研究对于中文信息处理有着重要意义。然而,当前的缩略语研究却面临着缩略语词典资源稀缺的问题。因此,缩略语的自动识别成为一个重要的研究方向。传统的缩略语识别方法着眼于从单语(中文)生语料中抽取出,构成候选缩略语-源短语对。由于可以利用的信息较少,抽取出的候选缩略语与源短语之间没有很好的语义对应,导致最终结果的准确率不高。本文基于双语(中英)平行语料库,展开中文缩略语识别的研究。论文的主要工作如下:1、提出了一种基于双语语料库的中文缩略语抽取方法。该方法从汉英平行语料库中抽取出中英文短语翻译对,以英文翻译为桥梁,获得具有较好语义对应的候选缩略语-源短语对,然后根据一些中文缩略语与源短语对应的规则,从中提取出中文缩略语-源短语对。实验表明,这种方法抽取出的缩略语对具有较高的准确率,可以作为一种自动抽取缩略语词典的有效方法。2、针对统计机器翻译,利用从训练语料中抽取的缩略语词典,提出了一个还原未登录词中缩略语的方法,使得还原后的词语能够被翻译系统识别,从而提高系统的翻译质量。为了避免还原错误,同时确保还原后的词语能够被翻译系统识别,我们通过匹配未登录词中的字在缩略语词典中的还原模式,得到未登录词还原的约束信息,并根据这些信息从翻译系统的短语表中搜索相应的源短语。实验表明,这种还原方法具有较高的准确率,并且对机器翻译系统翻译效果的提升有一定帮助。
其他文献
<正>56集电视剧《平凡的世界》引起了收视热潮。这很让人意外,又让人感动。一20多年前,路遥的这部长篇小说曾经引起轰动,获得了茅盾文学奖。但是20多年来,随着文学的发展,人
"相和歌"的称名到刘宋时期才出现,是特指魏晋时期"丝竹更相和"的"十三曲"清商曲。清商三调是在相和歌基础上进一步发展的结果,其音乐渊源与相和歌一样,皆出于清商曲。其歌辞
本文以英国作家菲利普·普尔曼的奇幻儿童文学作品《黑暗物质三部曲》为中心,从宏大深刻的主题、层次丰富的表现形式、独特鲜明的儿童文学观等三个方面入手,试图探讨普尔曼的
从广州市某发生水华的人工湖底泥中筛选出1株能够降解低浓度微囊藻毒素-LR(MC-LR)的菌种JM13,经鉴定为恶臭假单胞菌(Pseudomonas putida)。从外加碳源、氮源、重金属、微生物菌龄
在提出知识的四种基本类型的基础上,进一步探讨了SECI框架下以知识共享和知识应用为目的的层级间知识转化和基于个体学习和组织学习的组织间知识转化,并对企业的知识管理实践
<正>近年来各国文化产业蓬勃发展,在文化产业研究的各个领域,对文化产业业态结构的理论描述与分类一直都是大家关注的焦点和重点。本文在归纳、分析现有相关分类的基础上,对
网络安全风险分析,是计算机网络管理领域中最具挑战的研究课题之一。网络安全风险分析过程通常是由网络安全专家完成。对于网络安全风险分析,人们可以利用很多工具,比如扫描
钢筋混凝土桥墩是桥梁的主要支撑结构,当遭遇爆炸袭击时可能会引起桥梁的致命性破坏。认识桥墩受到爆炸荷载作用的破坏机理非常重要,这是今后桥梁抗爆设计的依据,也是桥梁遭遇爆
视频监控技术因具有直观、便利、信息内容全面等特点,使其无论是在军事领域还是在民用领域,都有着重大的作用和广阔的应用市场及研究前景。而现场可编程门阵列FPGA(Filed Progra