论文部分内容阅读
本文的研究工作建立在多元信息流输入识别与处理系统MIIRPS(Multiple Information flow Input Recognition and Processing System)的基础之上。 多元信息流输入识别与处理系统MIIRPS尝试将信息流的输入输出、识别、处理、管理、查询等技术有机地集成在一起,着重解决以下问题:①对网络信息的实时处理;②将不同的信息处理技术有机集成;③接受并识别多元信息源,包括纯文本、超文本HTML文件和扫描文本OCR以及语音输入等等;④系统自然语言人机界面的设计。 MIIRPS主要包括源信息流输入识别系统、双语信息管理系统、网络实时翻译系统、目标信息流输出处理系统以及自然语言人机接口等五大模块。其中,双语信息管理系统BLIMS主要负责完成以下工作:①将信息自动分类和索引,送机器翻译系统翻译;②自动提取信息文摘,并对文摘进行加工,以提高机器翻译系统效率;③建立双语信息库,将已翻译过的原、译文双语信息分类、加工和存储,并完成用户对信息库的检索。 BLIMS系统包括信息自动分类与关键字提取子系统、信息自动文摘子系统和双语信息库BLIB及其存储与检索子系统。其中,在信息自动分类与关键字提取系统中,本文提出了基于层次词典的信息分类和基于信息分类的关键字提取技术,有效解决了机器翻译系统信息分类问题与双语信息库的信息分类存储问题,并为系统自动文摘的设计和实现奠定了基础。 在BLIMS的自动文摘系统中,本文在充分吸收前人技术经验的同时,提出了基于语料库的文摘新方法,尝试将对文本的语言学分析与统计数据有机地结合起来,以提高文摘的可靠性和实时性。此外,本系统还提出了面向机器翻译的文摘加工思想,通过对文摘的再加