论文部分内容阅读
实现“人机口语对话系统”是多年来人们一直渴望实现的梦想,也是人工智能领域研究人员孜孜不倦追求的目标。口语对话系统的目的是在用户和计算机之间提供一种交互界面,帮助用户以一种更为自然的方式利用计算机完成任务。正如“口语对话”本身所表明那样,该系统的主要特点是以语音作为输入输出,要求系统能够理解用户输入的语音。
口语语言理解是对话系统中最核心的组成部分,其性能的好坏对口语对话系统有关键性的影响。它的任务是从口语句子中提取出语义表示。口语的特点决定了口语理解的困难,口语理解一般需要解决三种噪声形式:用户的自发性引起的“随意噪声”,不合乎语法的句子引起的“语法错误噪声”和语音识别错误引起的“语音错误噪声”。本文则主要研究这三种噪声形式的处理,主要的研究工作和研究成果包括:
1.针对口语对话系统的语言理解为语义理解的特点,采用了语义框架的表示方法。为了处理具有“随意噪声”和“语法错误噪声”的口语句子,我们提出了基于统计与规则相结合的口语理解方法。该方法首先利用统计分类器确定口语句子的任务主题,然后根据这个任务主题动态寻找相应的语义语法,利用基于文法的分析技术得到句子的语义概念。在对实际用户的语料测试中,该方法取得了1.94%任务识别错误率和5.73%语义单元理解错误率。
2.语音识别作为对话系统的输入端,其性能的好坏直接影响着对话任务是否能顺利进行?为了处理“语音错误噪声”,获得更优的语音识别性能,自然语言理解模块和语音识别模块的有效融合是一个研究趋势。为此,提出了基于全信息的N-Best语音识别结果重排算法机制。该算法需要考虑如下因素:首先语音序列要与应用领域的语法保持一致,应能被语法解释,这属于语法信息;其次,由语法解释的分析结果在语义上应真实,这属于语义信息;再次,语义分析结果应与当前的对话上下文相关,这属于语用信息;最后得到语音序列的全信息值,获得全信息值最高的语音假设即为最优。
3.设计并实现了面向奥运的多语言智能信息服务系统中的人机交互模块。该模块支持多种语言查询(英语、汉语、日语等),在体育领域内,提供应用场景为赛事信息查询的多语言智能信息服务;在城市公共领域内,提供应用场景为天气预报、公交信息查询、旅游餐饮信息查询的多语言智能信息服务,既包括面向公众用户的多语言智能信息广播和讲解,也包括面向奥运参与者个人的个性化多语言智能信息咨询。