论文部分内容阅读
在平行语料库构建中,比较常见和成熟的对应单位自动识别与对齐的软件主要集中在段落和句子对齐的层面,而基于多词序列对齐的对应单位(本文简称为:词序列对应单位)的自动识别与对齐软件较少见到,使该类型平行语料库的构建速度和规模都受到极大影响。为改变这种状况,我们把设计和开发词序列对应单位的自动识别与对齐软件(CURecognizer)作为本研究的最终目标。本研究以意义单位、翻译单位、对应单位等理论为指导,利用网络数据挖掘(Webdata mining)技术,通过对英语文本中名词序列的自动识别,进而实现英汉对应文本中的对应单位自动识别与对齐。以实现中国政治新闻英汉平行语料库中名词性对应单位的自动识别与对齐为研究对象,开发和利用网络数据挖掘技术对中国日报网站(www.ChinaDaily.com.cn)上的政治新闻报道进行实时下载和提取,由软件自动构建作为辅助英语名词短语自动识别判断的参考语料库;在语法规则与概率统计相结合的方法原则下,设计开发基于POS赋码的英语文本中名词序列自动识别软件(NSRecongnizer);利用Google和Bing的在线翻译工具获得英语文本中名词短语的汉语翻译列表,以该列表为桥梁在汉语文本确定的范围内(由软件根据英、汉两个对应文本的句子数及英语名词短语在英文文本中的位置来按照给定的算法公式自动获得)进行汉语对应词序列的检索和匹配,从而达到英汉文本中名词性对应单位的自动识别,并一步实现对应单位在两个模式(分别为:基于颜色对的外部视觉模式和基于数据库的内部数据模式)下的自动对齐。由于受CLAWS赋码正确性和网络在线翻译丰富性的影响,基于本研究对应单位识别系统CURecognizer的执行效果并不是非常理想,但通过本研究我们发现:将网络数据挖掘技术应用于语料库开发和研究将是语料库语言学发展的一个新途径。