论文部分内容阅读
语音智能助手是指通过自然语言交互为用户提供服务的智能助手。本论文通过扩展评测指标、建立评测准则、设计并验证评测工具,建立了语音智能助手的评测框架。评测指标是评测质量的重要评估,本论文将评测指标从传统的客观绩效和主观评价,扩展到用户的认知过程,并比较了三种出声思考方法(回溯式、传统和交互式出声思考)在语音智能助手评测中获取认知过程的差异;评测准则是验证设计要素的重要依据,本论文提出了针对用户年龄分级为语音智能助手分级的准则,包括内容标签、交互行为和智能伦理三个维度,并在三种交互方式下(文本、语音及混合交互)验证了该准则;评测工具是提高成本效益的工具,本论文采用以用户为中心的设计流程,设计了语音智能助手分级工具VIARS(即Voice Intelligent Agent Rating System),并针对用户的经验差异和VIARS建议类型差异,验证了VIARS在不同指标评测中的可用性。研究结果表明:对于认知过程的获取,回溯式、传统、交互式出声思考方法各有优点,分别适合获取用户体验和原因解释类型文本、建议和预测类型文本、问题表述和建议类型文本;且回溯式和传统出声思考方法都可以获取更多的认知过程数据;评测时应根据具体的认知过程的收集目的选择对应的出声思考方法。对于分级准则,三个维度的不同指标水平均影响分级结果,准则的有效性均得到验证;且评测中混合交互方式会导致分级结果趋于宽松。基于该分级准则的VIARS设计,包含对话生成、语音转录、内容分析、结果展示和过程记录五个模块,并允许用户具有修改决策的控制权。对VIARS的可用性验证结果表明,专家分级结果具有更高的一致性,普通用户分级结果对VIARS具有强烈的依赖性;VIARS更适合评测规则型指标,而在评测经验型指标时应该将决策权交给专家;并且,在专家使用VIARS时,VIARS应多提供标准型建议而避免防御型建议。至此,本论文从评测指标(认知过程)、评测准则(分级准则)、评测工具(VIARS)三个方向,完成了对语音智能助手的评测框架建立,为未来的语音智能助手评测工作提供了理论参考。