论文部分内容阅读
现今国内已出版的汉英词典多达数百部,但由于存在诸多的问题而广受批评,究其原因除了理论研究的不足之外,还与滞后的词典研编方法密切相关。在词典编纂中使用语料库的方法在国内外都已行之有年,但真正利用平行语料库编纂汉英双语词典至今还没有产品问世。我国的语料库建设离国外还有一段距离,平行语料库的建设和运用更是如此。如何建设适合汉英双语词典编纂的英汉平行语料库,如何使用英汉平行语料库编写汉英双语词典,如何开发基于英汉平行语料库的检索软件等都是全新的课题。
对于汉英双语词典编纂自动化来说,目前主要存在两大问题:(1)没有为双语词典编纂而设计和建设的英汉双语平行语料库;(2)没有可供英汉双语检索使用的检索软件。
虽然我国已经有一些机构开始了英汉平行语料库的建设和研究,但至今还没有真正进行基于平行语料库的词典编纂的研究、以及相关软件的开发和使用。有学者指出:加强面向词典编纂的语料库开发与建设是辞书工作者在21世纪所面临的主要任务。
CpsDict汉英双语词典编纂系统正是在这种背景下研制的,它具有下列一些特点:(1)开放式的英汉双语平行语料库;(2)内置的英汉平行语料自动切分功能;(3)适合双语词典编纂的检索和词典编写系统。
本文首先详细介绍了双语词典编纂系统(CpsDict)研制的过程和方法,在充分论证的基础上,对当前双语词典编纂系统的开发提出了以下建议:
(1)基于平行语料库的双语词典编纂系统在研制的过程中主要应该考虑为词典研编服务,同时也要考虑技术的可行性和功能的实用性;
(2)自动切分和对齐目前还有许多难点,未来的研究不但要考虑“起句词”,还要对翻译过程中的分译、合译和节译进行研究;
(3)语料暂不要进行深度加工,目前通过SQL语言实现复杂检索更为现实,对齐和篇首信息是目前平行语料库的加工规范;
(4)基于平行语料库的词典编纂系统应该将重点放在平行语料库的建设上。
在基于平行语料库的双语词典编纂系统的应用部分,作者利用cpsDict双语词典编纂系统,以全新的视角重新考量了词典立目、释义、义项的划分和排序、配例、文化局限词的处理等涉及到双语词典编纂的各方面问题。研究的重点是英汉语词汇语义的对比,因为积极型汉英词典的编写目的是为了满足跨文化交际中编码的需要,句子或者语篇的生成首先由词义开始。具体而言,研究有以下主要发现:
1.平行语料库在汉英积极型词典的立目、释义、义项的划分和排序、配例等主要环节上都具有传统的内省法无法比拟的优势。
2.研究显示词义的动态性和词类有很大的关系,同时还和词类的子类有一定的关联。由于语境对词义的影响,从理论上说,动态性强的词汇会随语境的变化而出现各种形式的“超常词义”,词典永远也无法穷尽。词典收录的应该是有代表性的词义,从词汇语义学的角度看,词典收录的是“正常义位组合”,“超常组合”由于具有个人性、临时性的特点不是词典收录的重点。但是,某些“超常组合”在语料库中具有明显的重复性,这说明该超常组合在语言中有较高的使用频率,双语词典应该适当处理这类超常组合或“动态词义”。
对于积极型汉英词典来说,不仅要考虑编码词典和解码词典对于词义研究的不同需要,还要考虑不同类别和范畴的词汇的不同处理方法(主要指释义和义项分辨),处理方法不能千篇一律。
3.汉英词汇间的对等主要表现为“一对多”的关系,即汉语的单义词或多义词的一个义项对应英语的多个词汇。词典在释义时,选择其中之一或罗列全部释义词都有不足之处。词典释义的最佳方法应该是有选择地提供几个有代表性的释义词,并进行意义区分。这样做不仅克服了选词过多过滥的弊端,使词义辨析成为可能,而且也避免了编码词汇的过分单一,兼顾了不同文体的同义词的收录。
4.研究表明词典学家所说的绝对对应词(具有双向对译关系的词汇)在英汉语言间是存在的。对于汉英积极型编码词典来说,双向对等词可以视为完全对等,词典用对应词释义就基本提供了足够的语义和语用信息,无需用法说明和例句的辅助。但是双向对等词数量有限,语料显示在英汉语言间存在大量的单向对等词。对于编码词典来说,单向对等词具有和双向对等词相同的价值,因为单向对等词也具有从源语到译语百分之百的对应关系,因此也具有高度的可插入性。从双语词典编纂的角度看,双向对等词和单向对等词都应该视为绝对对应词。
5.建立英汉语词和词之间的对应关系有时困难重重,但基于平行语料库的研究表明在比词汇更高的语言平面上建立对等关系是完全可行的,以句对齐为特征的平行语料库呈现的就是两种语言在句平面上的对等关系。平行语料库具有丰富的对应信息,甚至连文化局限词在平行语料库中也会以某种方式与目的语相对应,可以说平行语料库中不存在“零对等”。从这一点看,双语词典的对应网络也应该从交际对等出发,在大于词汇的平面上建立对等关系,作为词汇对应网络的补充。
6.在以上下义关系为代表的英汉语义场对比研究中发现:上义词空缺是普遍现象,例如英语里就没有一个像“羊”这样的上义词。上义词的空缺会使对应关系变得复杂起来,也给双语词典的释义带来了挑战,因为上义词在语义场中处于“中心词”的位置,在语言交际中的使用面比下义词要广泛得多。
基于平行语料库的研究客观地显示了在实际语言交际中上义词空缺都有哪些下义词来填补,例如“羊”不仅可用sheep来填补,也有用goat填补的情况。这也说明了它们都可以充当“羊”的释义词。研究还发现只有常用的下义词才可以用来填补上义词空缺,一般情况下,像hartebeest和duiker这样的冷僻下义词不会在实际语言交际中担当此任。
此外,语料库的统计信息还显示了各释义词的对应度。在CpsDict平行语料库中,涉及sheep的记录要明显多于goat的记录,由于sheep具有更高的使用频率,所以在人们的直觉中,它就自然成了“羊”的对应释义词。在双语词典编纂过程中,词典编者常常会给类似的上义词提供一个“直觉对应词”,平行语料库可以检验“直觉对应词”的正误,并且有助于编纂者根据对应度对多个释义词进行合理的处理和排序。
7.研究还表明语料库方法虽然对于双语词典的编纂意义重大,但是它本身也是一柄双刃剑,使用不当不仅劳而无功,而且还会在“科学、客观”的外衣下产生许多谬误。基于语料库的研究首先要确保语料库的典型性和代表性,这不仅涉及到语料库的大小,也与科学的抽样原则息息相关。平行语料库能提供大量的对齐信息,但提供的信息愈多,产生的“噪音”也愈大,有用的和冗余的信息相互混杂,给信息的选择造成了很大的困难。因此,在基于语料库的研究中,不应排斥以语言能力为基础的研究方法(如内省法),两者应该相互结合。在实际的词典编纂中,编纂人员的判断和合理干涉也非常必要。