论文部分内容阅读
汉语音字转换和句子规范化处理是中文信息处理研究中的难题。本论文以汉英语音翻译系统为研究背景,对音字转换和汉语句子规范化处理问题进行了深入研究和探索。 在汉英语音翻译系统中,音字转换和句子规范化处理是介于语音信号识别和机器翻译机制之间的重要环节。研究音字转换和句子规范化处理不仅对于语音翻译系统的研究和实现具有重要意义,而且对于人机语音通讯和自然语言人机接口等相关问题的研究,都有十分重要的理论意义和实用价值。 在音字转换研究中,作者通过对目前两种主要的实现技术—基于语言知识的分析方法和基于语料库的统计方法的分析,提出了基于上下文分析的试探-回溯(TB)音字转换模型,设计并实现了基于TB模型的音字转换(PHT)算法。TB模型将拼音流切分与同音词识别一体化交叉处理,候选同音词的上下文分析结果作为拼音流切分的启发信息,从而避免了拼音流切分的盲目性,提高了拼音流切分的正确率。TB模型的处理思想对于尽早发现和废除音字转换中的非法路径,减少过多的同音词引起的组合爆炸具有积极意义。 作者在开发基于TB模型的音字转换系统(ITP)中,提出并实现了基于多知识源的同音词识别方法。该方法将SC文法的Search搜索函数应用于同音词辨析,利用词性相关信息、语义相关信息、位置相关信息、字面相关信息以及音节相关信息和词频统计信息,实现了同音词的多重相关信息综合辨析。 ITP系统中还首次提出了一般性拼音流切分与特殊音词串针对性处理相结合的处理策略。对最常用音节构成的部分高频音词串进行针对性处理,可有效地避免由于拼音流切分不当而产生的一些常见错误。 ITP系统的转换结果评估函数,不仅考虑了词频信息对转换结果的作用,而且还考虑了句法分析和上下文分析结果对候选转换结果的影响。函数计算复杂性小,评估正确率高。 ITP系统的实践证明,基于TB模型的音字转换算法和基于多知识源