音字转换与句子规范化处理研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 1次 | 上传用户:yueaimeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语音字转换和句子规范化处理是中文信息处理研究中的难题。本论文以汉英语音翻译系统为研究背景,对音字转换和汉语句子规范化处理问题进行了深入研究和探索。 在汉英语音翻译系统中,音字转换和句子规范化处理是介于语音信号识别和机器翻译机制之间的重要环节。研究音字转换和句子规范化处理不仅对于语音翻译系统的研究和实现具有重要意义,而且对于人机语音通讯和自然语言人机接口等相关问题的研究,都有十分重要的理论意义和实用价值。 在音字转换研究中,作者通过对目前两种主要的实现技术—基于语言知识的分析方法和基于语料库的统计方法的分析,提出了基于上下文分析的试探-回溯(TB)音字转换模型,设计并实现了基于TB模型的音字转换(PHT)算法。TB模型将拼音流切分与同音词识别一体化交叉处理,候选同音词的上下文分析结果作为拼音流切分的启发信息,从而避免了拼音流切分的盲目性,提高了拼音流切分的正确率。TB模型的处理思想对于尽早发现和废除音字转换中的非法路径,减少过多的同音词引起的组合爆炸具有积极意义。 作者在开发基于TB模型的音字转换系统(ITP)中,提出并实现了基于多知识源的同音词识别方法。该方法将SC文法的Search搜索函数应用于同音词辨析,利用词性相关信息、语义相关信息、位置相关信息、字面相关信息以及音节相关信息和词频统计信息,实现了同音词的多重相关信息综合辨析。 ITP系统中还首次提出了一般性拼音流切分与特殊音词串针对性处理相结合的处理策略。对最常用音节构成的部分高频音词串进行针对性处理,可有效地避免由于拼音流切分不当而产生的一些常见错误。 ITP系统的转换结果评估函数,不仅考虑了词频信息对转换结果的作用,而且还考虑了句法分析和上下文分析结果对候选转换结果的影响。函数计算复杂性小,评估正确率高。 ITP系统的实践证明,基于TB模型的音字转换算法和基于多知识源
其他文献
光网络的传输技术在近十几年得到飞速的发展,波分复用(WDM)技术能够让一根光纤承载以百计甚至以千计的波长,而且单个波长能够承载的带宽也在迅速增加。目前单根光纤可以承载T
采用水泥裹石法拌和无砂多孔混凝土,并采用静压成型工艺.实验研究了不同水灰比、浆集比、孔隙率的透水混凝土强度,在保证所需透水性能和强度的前提下确定最佳配合比参数,为多
天然气产业可持续发展是适应党和国家推动能源革命、建立现代能源体系、推进绿色低碳发展基本要求的必然途径。基于可持续发展要素系统与天然气产业系统相耦合的天然气产业可
目的了解新形势下护理人员对履行告知义务的状况,探讨各年龄段护理人员对履行告知问题的认识、告知的内容范畴及告知的方法,强化护理人员对告知制度的认知,降低患者意外事件
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
叙述了改革开放以来乡镇企业取得的民就以及在国民经济发展中的重要地位,指出阻碍乡镇企业发展的种种问题,并就此探讨了乡镇企业的发展对策 。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield