一种通用语音接口模式的设计和实现

来源 :网友世界 | 被引量 : 0次 | 上传用户:qq251775522
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】用户的语音输入和对话系统关系密切,通用的接口风格应该能够进行灵活和有效的开发;而且应用程序接口的开发要鲁棒易于进行。本文主要针对现有的接口模式在应用中的局限,提出了一个通用的语音接口模式,适应于处理指挥所事务的对话系统[1]。并对该模式的语言以及详细的策略进行了介绍。实验表明该模式具有较好的语音识别性能、鲁棒性,而且系统开发周期较短。
  【关键词】对话系统;语音接口;鲁棒
  1.现有的语音接口模式分析
  目前基于语音的对话系统其接口模式主要三种[2]:指令和控制C&C(Command and Control),交互式语音应答IVR(Interactive Voice Response),自然语言NL(Natural Language)。C&C接口限制用户跟系统可以交谈的词汇为特定严格的命令,由于不要求复杂的语法,C&C开发容易而且语音识别的错误率低。但是,在某领域中学会的交互技巧不能应用到新的领域中去,C&C很难使用。IVR系统的词汇是由动态的分层结构化话语集合组成的。对话上下文决定了在任何特定的时刻什么话语是可理解的,在每一轮对话中,系统都会用一个可理解话语集合来提示用户,而不是要求用户记住对话内容。NL接口则尝试分析自然语言,从用户的话语中提取任务相关的信息。这一般与鲁棒分析和填槽策略有关,需要很少或不需要用户去记忆对话状态或学习。C&C接口不需要很多的训练,但是过于呆板和机械,使用起来生硬。IVR接口对于频繁的使用不太有效,而且NL接口的开发比较容易出错而且代价高。
  本文在现有的语音接口模式的基础上,提出了一个通用的用户语音接口模式Speech User Interface(SUI)。用户人员发出的语音通过人机对话接口,最终达到与系统中的设备或应用程序的交互的目的,这里人机对话接口,不仅要能识别用户的话语,而且要能使设备或应用程序使其按照用户的意图对用户提供相应的服务。
  2.SUI模式
  设计SUI的目的是给用户和简单应用程序或设备能够自然、高效的进行对话,介于C&C和NL之间:其形式比自然语言更加结构化,比等级菜单或严格的C&C更加灵活。本文的正是在研究了两个的非语音交互方式:WIMP界面[3](窗口、图标、菜单和下拉菜单)和手写识别系统[4]基础上设计的。
  2.1 相关组件
  在本文的实验中,语音识别是由科大讯飞语音识别引擎完成的,使用基于SUI应用程序的发生器模块和科大讯飞语音识别开发包。基于单元选择和有限域的语音合成使用的是科大讯飞语音合成系统。我们已经开发了一个工具包,它包含了所有建立并运行SUI信息访问应用程序的必要程序和文件。这些组件有:
  1)领域管理器访问给定应用程序或代理生成代码。
  2)语音识别产生语法文件,该文件是用来执行SUI交互模式并且和数据库内容一致。
  3)科大讯飞语音识别器产生一个和语法保持一致的语言模型及发音词典。
  4)适当联系不同对话系统中的知识,多个SUI应用程序就不会干扰其他应用程序。
  针对特定应用程序设置的变量是由扩展BNF即ABNF(Augmented Backus-Naur Form)文件插入到不同组件中去的,程序开发者可以手动构造,构造完成以后,可以用语法检查器来检查ABNF文档的正确性。如图2是SUI领域发生器的处理流程。
  2.2 SUI语言
  2.2.1 词典
  SUI应用程序词典包括两个部分:通用关键词集合和一组特定领域应用程序专用词汇。
  图1 SUI领域发生器
  特定应用程序词汇的规模和内容,是由各个应用程序的功能和复杂性决定的,通常要比SUI关键词集合要大得多。如果要成为真正的通用接口,SUI模式包含的关键词集必须是小规模的,这样才能使非技术用户感到舒服易于使用。选择的一般原则是:有简单明确的含义以及同时在自然音上相对好区分,而且做了用户调查,来研究我们选取的关键词的适合度并根据用户的建议选取替代的关键词。保持SUI关键词数量尽可能少是必要的,一方面是方便用户的学习,另一方面有利于用户的记忆,使其最小化。
  2.2.2 短语
  在SUI系统中,访问应用程序或设备,最基本的动作是查询,其基本形式是由若干“槽+值”对组成的短语。“槽+值”的短语格式使语义解析的工作变得简单并大体上遵循了自然说话的形式。当短语被用作指定一个槽值时,它的输入输出形式是“<槽>是<值>”。用户查询某个槽属性时其输入输出形式:“查询<槽>?”为了避免带给用户机械、命令式控制的感觉,SUI的输入,应该也具有自然语言的特点。例如,在合适的情况下,普通同义词会被接受(例如,在三维态势应用程序中,军标和目标是代表相同的槽)。
  2.2.3 语法
  有效的SUI用户输入语句,大都是由任意数量的“<槽>+<值>|<槽>+<值>”或者“<槽>是什么”短语组成的,其它情况还有关键词如再见、重复或帮助等,跟在<槽>+<值>短语串的最后。应用程序或设备(软硬件)的功能规范以一个ABNF文档描述。在应用程序管理器中我们建立一个应用程序树,根据对话管理结果将其每个节点按照是否可操作来分类。可操作节点被激活时,将导致一个设备后端的操作,比如被查询时系统将返回一个值。此外,在任何情况下,系统中都有一个焦点节点,一般是最近被激活的节点或查询的节点。
  2.3 ABNF文档
  ABNF文档采用了W3C的语音识别语法规范1.0标准(简称SRGS1.0)[5],并在此基础上根据系统的特点和主要的应用场景进行了部分扩展。ABNF是一种明文表示方式。ABNF文档结构包括两个部分,文档首部和文档主体。
  文档首部定义了文档的多种属性,包括ABNF文档自标识头、语言、模式、根规则、标签格式、基础URI、发音词典、元数据和标签。文档的主体则具体定义了用户说话的内容和模式。下面如图2是三维态势应用程序的ABNF文档的实例。   图2 三维态势应用程序的ABNF文档
  3.详细设计
  3.1 上下文管理
  SUI能根据单个应用程序或设备的要求来保持或丢弃上下文。如果上下文是关闭的,查询命令之后,分析后的短语会被丢掉。如果上下文被保存,从最后一次清除上下文之后的所有被分析后的短语将被用于产生一个数据库查询字符串。图3显示了一个上下文保存例子。当用户在第三句中要求显示红色指挥所坦克,上下文还没有被清除,所以系统返回了所有的两个查询(包括先前的查询中红色指挥所坦克的位置)。关键词或者个别槽重写入新值,上下文被清除。
  图3 上下文保存对话示例
  3.2 列表显示和导航
  3.2.1 列表显示
  在查询应用程序中,返回给用户的信息经常是以表的形式。根据显示尽可能多的有效消息这一原则,基本策略是输出易处理的块信息。然而,列表一次显示3项或者是4项,如果有分割就会导致形成一个项的单独块。图3中的{...}符号代表在点击块末端显示的语音图标后,列表就会在当前块之外继续显示。三次蜂鸣声信号执行{...},正像书面上的省略号(…)。最初名单块前缀的一个题头显示的是整个列表项的数量,例如,2个目标(S.2),4个目标(S.3)。如果在数据库中找不到所查数据,系统返回“对不起,没有匹配信息!”。
  3.2.2 列表导航
  表的导航包含一套关键词:更多,下一页,前一页,首页,末页和停止。更多是访问同种类型的附加信息,即同一级别信息上的下一个块。水平的更多和垂直的下一页,可以被认为是作为图形浏览一个二维表。前一页返回列表中以前的块,首页返回第一个块,末页返回表中的最后一个块。每个浏览关键词可以跟随一个整数,用于允许用户自定义,返回列表的大小。例如,末页6将返回列表尾部第6项。
  将复杂的输出信息块分成几个小信息块,不仅可以减少用户对信息认知的负担,而且使用户对自己感兴趣的小信息块使用重复关键词来进行重听。
  3.3 话轮控制和会话管理
  话轮控制一般分为用户主导,系统主导和混合主导三种方式,SUI采用混合主导方式,使系统和用户能够互相提出问题或者回答问题,具有较大的灵活性,能够较流畅的进行对话。SUI以简洁的标准化语句确认相应各用户的输入(图3中的S.2,S.4);如果有必要用户将继续他们的输入或者纠正系统的应答。系统也能够针对用户输入进行提问或回答。而且重复关键词通常都能重复系统的上一句话。
  当用户想要和系统对话时,用户首先以“HELLO!或你好!”开始,当系统识别后,系统将会有一个简短的记录型的系统介绍,有经验的用户会打断这个介绍并开始交互。当SUI识别再见后,系统会回答再见!但如输入没有被识别,系统则会继续起作用。如果用户想继续,只需再说一遍,否则系统不会响应。因为信息访问程序类似于telephone-based,通过用户呼叫系统,会话才会被开启。
  4.实验
  实验SUI模式和NL模式进行了比较,其主要目的是确定用户是喜欢高效而结构化的交互方式,还是喜欢自然但效率较低的交互方式。实验采用了主观和客观的评估方法,包括用户满意度,任务完成率,完成时间出错率等。SUI-CPoF和NL-CPoF系统都访问三个应用程序,即总线控制器,态势标绘系统,信息哨兵,其中SUI-CPoF是用SUI接口实现未来指挥所中指挥人员与应用程序的交互,而NL-CPoF是用NL接口模式的,下面将详细介绍该实验的设计和分析。
  4.1 实验设计
  本系统是用标准普通话训练的,实验者必须说普通话而且都是新手。为了使用该系统,在监督者的监督下,测试者首先要完成一个在线教程。本教程包括四个网页:说明,例子和练习,一个报警器设备和总线控制器的实例。教程涵盖了所有的关键词,会话管理,应用程序开发,设置和查询设备状态,获取帮助。由监督者检测测试者对教程的理解程度。当测试者掌握了如何与系统交互后,将给测试者提出了有关使用总线控制的四个任务,这个总线控制器是培训中使用过的产品。
  在完成总线控制的任务后,为了测试应用程序间的技术转换,测试者还需对他们以前没有交互过或训练过的信息哨兵进行操作,测试者要完成关于信息哨兵的四个任务。当完成所有的12个任务后,实验参与者还要完成一个调查表,每个题目有七个Likert式的选项。从6个方面对语音设备进行主观评价:准确率,速度,习惯性,厌恶度、认知容易度和亲和力。
  4.2 实验分组
  测试者被分成两组:第一组(n=14人),第二组(n=14人)。两组实验的过程相同。为了提高第二组的识别率,对第二组的系统进行了5处的修改:
  1)第一组使用语音自动分割技术,第二组使用手动语音输入系统。
  2)第一组解码器的语言模型是由一个概率CFG产生的60000个句子集合生成的(CFG是由设备说明书中得来的),然后使用词组数从句子集合中得到三元组。对于第二组,则是在概率CFG中通过Stolcke’s[6]方法计算出准确的三元组。
  3)CFG的概率最大熵是由第一组数据训练而来的,将在第二组中使用。
  4)第一组的解码器每帧只计算一个码字,而第二组每帧有四个码字。
  5)第一组,语法中总是同时出现的多个字将被合并成一个词组。第二组不使用该方法。
  4.3 实验分析
  12个任务中,测试者完成任务的中位数是12,首先完成任务的1/4人数的中位数是11。这样,测试者能够使用所学的交互语言来有效的控制设备。测试者平均花费34分钟来学习交互语言。指导过程是半监督的,内容包括浏览4个网页并尝试一些练习。
  4.3.1 主观分析
  图4 两组用户主观评价比较
  实验调查结果表明,两组调查统计的用户主观评价比较如图4所示。第二组对这6个方面的主观评价更加肯定,所以总体得分比第一组高1.18。两组的唯一区别是实验变量,第二组的准确率较高。准确识别对主观评价影响较大。我们得到如下结论:   1)更好的语法导致更好的识别率;
  2)更好的识别率导致更好的响应;
  3)用户的语句被系统正确理解后,将促使用户再次说出符合语法的语句;
  4)语法和识别率之间互相影响。
  4.3.2 语法出错率
  在28个测试者的4265个语句中,其中有951(22.3%)的句子不符合语法。我们将这951个句子分成24种语法错误。其中前8类的语法错误的语句占了语法错误语句总数的68.2%,如表1所示。
  出错率的中位数是22%,我们认为一大半是由于低识别率,另一小半则是由于语法不好导致的。11%的识别错误率是由于系统中使用了限制性的词汇和语法的直接结果。研究不符合语法语句的意义在于确定适当放松语法规则的限制,以便降低语句的整体出错率。
  5.小结
  本文提出了一种通用的语音接口模式,SUI模式能为用户和简单机器提供自然、高效的对话,SUI规范语言和通信协议有效的分离了对话系统和所控制的设备,支持机动的和通用的基于语音的设备控制。大量应用程序接口的开发过程和用户使用效果证明SUI接口模式是很非常有效的,这表明高质量和低成本的人-机语音接口可以在很大程度上与设备无关。这些因素使得系统更加鲁棒,比具有同等功能的自然语言语音接口产生更少的错误,能有效的增强识别和理解准确率,具有较好的鲁棒性,而且减少开发周期,可移植性较强。
  参考文献:
  [1]王鹏.未来指挥所双手触摸式自然交互技术研究[D].长沙:国防科学技术大学,2007.
  [2]Tomko,S.Speech Graffiti:Assessing the User Experience[D].Masters Thesis,Ameria:Carnegie Mellon University,2004.
  [3]Alan Dix,Janet Finlay,Gregory D.Abowd.人机交互(蔡利栋,方思行,周继鹏等)[M].北京:电子工业出版社,2006:91-95.
  [4]BLICKENSTORFER,C.H.Graffiti:Wow![J].Pen Comput.Mag,1995:30-31.
  [5]http://www.w3.org/.
  [6]Stolcke,A.and Segal,J.Precise n-gram probabilities from stochastic context-free grammars[J].Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics,1995:74-79.
  作者简介:邓红(1986—),安徽宿州人,助教,现供职于无锡机电高等职业技术学校。
其他文献
探究复方白千层精油药液的抑菌活性。通过滤纸片扩散法和正交设计试验,得出抑制白色念珠菌和金黄色葡萄球菌的最佳配比的复方白千层精油药液。抑制白色念珠菌的最佳配比是:白
中国通号集团职工健康放首位8月28日,中国通号集团公司工会来到北京大葆台项目基地开展为一线员工"送清凉"活动。据悉,中国通号集团公司工会秉承"一线员工是创新的原动力"理
本文介绍了民用2T半衡重式叉车的主要特点和主要特性,结合进箱叉车平衡重式叉车的功能要求介绍了叉车液压系统组成及简要工作原理。
多胺研究技术的应用为促进我国生物蛋白质研究工程发展的关键性流程,生物体内多胺对蛋白质影响的研究工作的开展对于我国生物活性以及蛋白质研究工程的开展的科学性的有效保
在抗日战争时期以统一战线形式创办的中共广东省委机关刊《新华南》,坚持以马克思主义斗争哲学为理论武装,讴歌抗战、团结、进步,鞭挞投降、分裂、倒退,以坚定的、不屈的、睿
音乐课堂教学,是师生围绕教学内容而进行双边活动的体现。其中,教师作为施控者对受控者一一学生,必须进行各方面的调控,以体现教师在教学过程中的主导作用,更好地提高教学效率。具
目的:探讨北京市不同级别医院患者对社区首诊和双向转诊的意愿及其影响因素分析。方法:根据北京市医疗资源分布情况,在北京市分别选取2所三级医院、3所二级医院和5家社区卫生
2003年,53岁的许振超获得了人生第一枚奖章——青岛市劳动模范奖章。这枚劳模奖章就像闪耀在夜空里的星星,照亮了他的理想之路。仅仅一年以后,凭借着刷新世界纪录的集装箱装
班级是学校教育和管理的基本单位,也是班主任进行教育工作的依靠力量和组织保证。一个良好的班集体对每个学生的健康发展有着巨大的教育作用。“清、情、菁、精、静”是青年班
《福建金融》(月刊)是由中国人民银行福州中心支行主管、福建省金融学会主办,并联合福建省内29家金融机构合办的金融学术期刊。《福建金融》立足金融、面向经济,积极宣传和诠