ISCAS机器翻译和系统融合评测系统介绍

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:cathy1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文给出了参加第四届全国机器翻译研讨会(CWMT2008)评测的系统介绍,包括基于短语的统计机器翻译模型,和句子级融合的系统融合模型。翻译系统首先对训练语料进行预处理,构造了一个基本系统,然后利用大小写敏感的3元语言模型恢复英文的大小写。预处理部分使用了规则的方法,对翻译中的数字进行了单独处理,系统融合模型统计n-gram的频率,利用投票的方法选择最优的翻译。
其他文献
从目前标注词性的现代汉语语文辞书中选取了较有代表性的五部语文词典,我们建成了,基于该真实语料库我们对这五部词典的词性标注差异进行了详细地考察和比较.针对标注现状,本文指出了具备一定客观性和真实性的词性标注的几项基本原则,以及词典词性标注还要保持动态的开放性.
词频估计在NLP的各个领域中都有着重要的应用,中文的特点使得中文词频估计对我们来说依然是一个严峻的挑战.其中一个主要因素就是缺少一个供我们作词频估计的"完美的"语料库.我们现有的语料库有:规模可以任意大的生语料库;由生语料库通过自动分词得到的已切分语料库;一些规模较小,由不同机构根据不同的分词标准开发的熟语料库.基于以上所有因素及已有的语料库,本文提出了一种基于折中的思想,综合利用已有信息来进行中
话题跟踪是一种基于事件的信息组织技术,实现对新闻信息中已有话题的动态跟踪.虽然传统的基于内容计算的话题跟踪方法也可以应用于Web话题跟踪,但它并没有利用Web的页面特征.文章提出了一种利用内容计算和链接分析相结合来进行Web话题跟踪的方法.实验证明这种方法是有效的.
全面、系统地研究语义角色与句法成分的对应机制,总结语义成分映射为句子成分的规律,是从事自然语言理解研究的学者们追求的主要目标.在大规模标注语料库的基础上进行研究,可以如实反映现代汉语语言现致全貌.在标注过程中遇到许多值得研究的问题,如有些成分不属于某种典型的语义成分,也没有在其他相关论著中出现过,究竟如何为它定性、确定归属是一个难点;"有"字句等特殊句式中主客体之间复杂的语义关系和对同一介词引导的
论文以19世纪初期到20世纪中期约一百三十年问的粤语选择问句为研究对象,其中包括选择问句的句式及语法词的研究。论文根据16种早期粤语文献,建立早期粤语疑问句语料库。利用语料库的查询、筛选、排序和统计功能,从共时的角度描写早期粤语的选择问句系统,描写的对象包括选择问句的句式、语气助词和析取连词;另一方面,引入层次的概念,通过对有关的语法词和句式进行历时层次分析,从中窥探粤语选择问句一百多年来的演变。
优选论在20世纪90年代初诞生于音系学领域,很快地风靡了整个语言学界,在语言教学、语言习得等边缘领域也获得了广泛的应用。本文运用优选论来分析英语词汇借入香港粤语的语音折合行为,尝试解决传统音系理论难以概括的例外现象。文中针对纯音译借词作讨论,“纯音译”借词意指其使用的汉字或有音无字的音节,只表现了外语原词的语音,而没有表意的功能。
现代香港粤语舌根音节[ku-]、[k‘u]后接[c]元音时其介音[u]的丢失对一部分人来说确实是客观事实,但我们的调查研究证明,近五十年来,这种变异(u介音丢失)并未形成不可逆转的大势,相反,在新一代香港人的口语中,该组音节中的[u]介音有重拾的趋势,这是本文研究的新发现。此外,说话人的性别显示出女性恢复介音[u]的速度比男性快。研究表明,近二十年来,香港粤语介音[u]的重拾与香港社会的发展及香港
本文对部分粤方言声母系统中三个送气清塞音声母的擦音化现象,即ph>h、th>h、kh>h/f在粤方言中的地理分布和音韵分布加以考察,并从方言史和语言接触的角度讨论分析上述音变的性质和动因。
在现代广州话口语中,“喺”有以下几种用法:(A)[~L]喺房处。(B)[~LV]喺香港住。(C1)[VO~L]放啪嚼啄台上面。(C2)[V~L]坐喺张沙发处。但在19世纪初的粤语文献中,上述用法中的“喺”都用“在”来表示。那么,“喺”是什么时候、从哪一种用法开始使用的呢?本文拟通过对32部早期粤语文献的分析,来详细描述“在”被“喺”取代的过程,并尝试对该现象作一初步的解释。其结论为:在“在”具有的
在过去就单音节名词字高升变调的研究中,笔者一直察觉到同音冲突回避倾向的重要性。为全面探讨高升变调与同音冲突回避倾向之间的关系,笔者尝试将以往摘出的391个单音节名词字全部分配到音节表上,然后,根据每个声韵母音节内出现的名词字的数目及同音冲突状况分类,再分析各冲突状况类别音节内名词字的变调情况。调查结果显示,同音冲突回避倾向与高升变调情况确有一定程度上的关系。但变调与否还与词义、音韵因素、辨别功能以