论文部分内容阅读
随着计算机技术的发展,语音交互已经成为人机交互的必要手段。让计算机发出自然流畅的语音是人们梦寐以求的事,随着语言学、语音学、计算机技术的发展这个目标离我们越来越近了。近几年虽然有一些文语转换产品问世,但是,这些产品与人们所期望的成熟产品还有相当大的差距。
本文的主要研究内容是文本分析。它是文语转换的第一个模块,目的是为文语转换系统奠定良好的基础。文本分析主要包括文档结构分析、文本规范化、语法分析、韵律建模和字音转换五个部分。本文的成果主要有:
(1)研究了常用的分词词典机制,在此基础上提出了按首字建立一级索引、按次字位号建立二级索引的分词词典的构造方法。该方法既可应用在整词二分分词词典中,也可应用在逐字二分分词词典中。实验表明使用该方法可以提高词典的查找速度。这一方案为提高分词速度奠定了基础。
(2)在对分词方法进行了对比研究之后,针对解决交叉歧义问题提出了两种方法。一种方法是无交叉叠加的方法。这一方法在使用逐字最大匹配法分词之后,对这些词语进行交叉叠加,得出词语的切分方法。无交叉叠加的方法,算法简单有效,但算法的时空性能比动态规划方法要差。二是基于组合特征的分词方法。这一方法根据交叉词语的组合特性,先找出所有可能的组合,然后筛选掉不符合条件的组合,并且可以得出歧义链长和词语组合对照表。根据对照表可直接得出词语的切分方法。这一方法实现简单,而且在算法的时空性能上比现有的分词方法都有所提高。但是,这一方法是针对解决交叉歧义问题的,不适用于解决其它的歧义问题。
(3)在介绍了几种歧义处理方法之后,考虑到本文使用组合方法得出的切分结果是一个个句子,因此,本文选择N元语法进行歧义处理。此外,为了获取N元语法中所需要的每个词语的频率,本文利用互联网的搜索引擎进行统计来获取词频。
这些研究工作为提高分词速度奠定了基础,为解决歧义问题提供了可借鉴的方法,具有一定的参考价值。