基于语料库的无词典英汉名词对齐

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:X446873887
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消歧和跨语言信息检索也具有重要价值。   在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。   据统计有百分之五十的短语是现有词典资源上查不到的,其中大部分是名词短语,包括一些专业术语,这部分短语更新也较快,因此名词短语的双语对应显得更为重要。   本文提出了一种在汉英双语语料库句子对齐的基础上,基于语料库的无双语词典的汉英名词短语划分和对应的方法。它把自然语言的句子形式化地表示为集合,通过集合的交运算和差运算实现单词对齐,同时还考虑了词序和重复词的影响。该模型不仅能对齐高频单词,而且能对齐低频单词,对未登录词和汉语分词错误具有兼容能力。该模型几乎不需要任何语言学知识和语言学资源,使语料库方法可独立应用。实验表明,同质语料规模越大,词对齐的正确率和召回率越高;分词效果越好,正确率和召回率越高。   此外,由于分词效果会直接影响对齐效果,所以,本文也实现了一个N-最短路径分词方法。
其他文献
随着社会的信息化发展,人们可以通过网络获得大量的信息资源和服务,人类进入信息化社会,这使得社会的开发程度进一步加大,与之俱来的是信息安全问题,信息安全已成为人们在信
国际可信计算组织TCG(TrustedComputingGroup)推出了以可信平台模块TPM(TrustedPlatformModule)为核心的可信计算平台规范。TPM是一种具有密码功能、实现可信存储、防篡改的
学位
基于核的学习算法是一种新兴的重要的分类技术,近年来己被广泛研究,并且成功应用于模式识别.图像处理等等相关领域。传统的核方法通常仅使用标准的核函数,如线性核和RBF核,因此
学位
蛋白质的三维结构决定其生物功能,折叠模式是蛋白质空间拓扑的一种分类表达。自然界中的蛋白质结构约十多万种而折叠模式的总数约一千多种。因此,蛋白质折叠模式预测研究具有
近年来,由于XML具有良好的结构性和可扩展性,并且允许用户根据自己的需要定义自己的标记,XML逐渐成为网上数据表示和交换的主要格式。在Internet应用中,存在大量的XML文档,如
学位
对分布式数据流的分析与挖掘正与日俱增地在众多领域变得十分重要,如网络流分析和金融交易分析等。在分布式环境中,将所有数据都传输到一个节点进行处理是不现实的;更加合理
学位
无线局域网(Wireless Local Area Network, WLAN)是20世纪90年代计算机网络技术与移动通信技术相结合的产物,在现实生活中得到广泛应用,满足了人们对于宽带无线接入网络的迫
随着计算机网络技术的不断发展以及多媒体的迅速普及,多媒体应用已经深入到生活的各个领域。在开放的网络环境中,涉密的多媒体信息在传输和存储中的安全是政府部门、企业和个
学位
随着互联网络的快速发展,人类的生活方式正发生着巨大的改变。博客、微博、QQ、社区网站、门户网站等等这些互联网上的新事务让我们能获取更多的信息,学会更多的交流,离开了这些
智能交通系统(Intelligent Transportation System,简称ITS)是目前世界交通运输领域的前沿研究课题,其核心是针对日益严重的交通需求和环境保护压力,采用信息技术、通信技术、计算
学位