论文部分内容阅读
智能科学的机制主义“信息-知识-智能转换”理论的提出使得与这一理论相关的许多基本概念和基本关系得到了初步的澄清,这不仅仅是一个理论研究的命题,它已经在许多应用研究中取得了可喜的进展。本文就“信息-知识-智能转换”理论在自然处理中的应用进行了下面的研究。
(1)作者参与了北京邮电大学智能研究中心在国家教育部“语信司”项目《民文语料库建设规范标准及工具软件》中承担的汉语资源库建设工具软件的开发。关于语料库的研究可以分成3个方面:工具软件的开发、语料库的标注、基于语料库的语言分析方法。采集到以后未经处理的生语料不能直接提供有关语言的各种知识,只有通过词法、句法、语义、甚至语用等多层次的加工才能使知识获取成为可能。加工的方式就是在语料中标注各种记号,标注的内容包括每个词的词性、语义项、短语结构、句型和句间关系等。这种标注的方法可以认为就是“信息-知识-智能转换”理论中“信息-知识转换”的具体实现。随着标注程度的加深语料库逐渐熟化,成为一个分布的、统计意义上的知识源。利用这个知识源可以进行许多语言分析工作,如根据从已标注语料中总结出的频度规律可以给新文本逐词标注词性,划分句子成分等。
(2)作者提出了一种汉日机器翻译的方法,这个基于实例的汉日机器翻译系统包括翻译记忆、词表层EBMT和模板层EBMq、3个引擎。从“信息-知识-智能转换”理论的观点考察,EBMT(基于实例的机器翻译)的工作原理是:“先把输入的信息进行分析,得到适当的单元(词语、短语或语句),将它们同原先已经积累的实例单元进行比较,通过类比获得翻译的知识,从而完成翻译的智能操作”。自上世纪40年代有电子计算机那天,人们就开始了对机器翻译的探索。但是50多年过去了,对于真实文本而言,其精确度仍在50~60%之间,难度是很大的。特别是汉同机器翻译系统,问题更大。汉同是两种分属不同语系的语言。汉语属于汉藏语系,而日语的谱系分类,一般来说,普遍认为至今还没有确定。汉语被认为是世界上最难学习的语言(其次是匈牙利语,第三是芬兰语)。所以可以这样理解,汉日的机器翻译的研究将给我们带来重大的挑战。
(3)提出了一种基于实例的机器辅助写作翻译方法,设计并实现了这个系统,用以辅助写作翻译过程,规范人与计算机的分工与协作。本系统已经在网上正式发布,投入了试用。该系统可以对单词、词组、以及词的搭配给出更精确的翻译解释。实际应用的结果也表明,它能有效地帮助中/英文用户更流畅地书写和翻译英/中文,保证写作翻译的效率和质量。此系统具有文本搜索、对应片段搜索和翻译记忆管理工具,文本搜索工具允许用户查询已经翻译好的文本或参考文档:对应片段搜索工具帮助用户检索出一个单词或一种表达方式在源语言和目标语言中的对应翻译结果;翻译记忆管理工具保存了文本片段的在源语言和目标语言中的对应关系。从“信息-知识-智能转换”理论的观点看,“基于实例的机器辅助写作翻译系统”和“基于实例的机器翻译”在工作原理上有异曲同工之妙:它们所利用的“信息-知识-智能转换”的原理颇为相似,但一个注重于写作外文,一个注重于翻译外文。