论文部分内容阅读
智能座舱在交互技术、车载机器人和车载语音交互等领域有哪些新发展?
智能网联汽车逐渐走入人们的现实生活,汽车产品的竞争也逐步走向汽车交互设计和综合用户体验的竞争。为探索相关技术在智能网联汽车座舱领域的发展和交互设计在汽车行业的应用,6月19日上午,2021中国汽车论坛举行了主题论坛之“智能座舱创新技术论坛”。
本场主题论坛由同济大学智能汽车交互设计实验室王建民主持,中国汽车工业协会总工程师、副秘书长叶盛基,上海国际汽车城(集团)有限公司总经理潘晓红,澳门科技大学澳门系统工程研究所副教授韓子天,同济大学智能汽车交互设计实验室主任、教授由芳,华为加拿大研究中心HMI实验室人因工程高级研究员邓园,地平线副总裁、车载智能交互产品总经理张宏志,中科创达汽车事业部产品经理王志杰,科大讯飞汽车事业部高级产品总监邢猛,ANSYS Inc.声学专家李彦昊和爱数智慧创始人兼CEO张晴晴等做了主旨发言,共同探索智能座舱在交互技术、车载机器人和车载语音交互等领域的最新发展。期间,还发布了《车载智能机器人技术白皮书》。
车载机器人的两个技术方向
电动化、智能化、网联化、数据化的技术革命浪潮推动着汽车产业快速升级。人工智能、5G通信和大数据等技术的深度融合和应用,重构着汽车产业的新格局。同时,新的消费模式和服务业态蓬勃兴起。叶盛基说:“智能座舱就是汽车智能化进程中重要的技术产物,也是近两年来智能网联领域探索的热点和重点所在。智能座舱是汽车品牌实现产品差异化和升级化的首要切入点之一,有着千亿级规模的市场前景。”潘晓红也认为,智能座舱是汽车行业尤其智能网联汽车的技术集大成者,是汽车技术创新的产物。
而车载机器人就是智能座舱技术发展的重要方向之一。机器人是AI的载体,通过车上的场景呈现出来。车载机器人是交互的演进,把车载机器人从实验室带到实际量产车上是很大的创新。韩子天认为,未来车载机器人有两个重要的技术发展方向。
一是车载机器人拟人化。光有屏很难做拟人化,需要有一些形象,无论实体还是虚拟形象,而车载机器人就是这样的载体。车载机器人是服务机器人里的社交机器人,是个人交互机器人。社交机器人强调社交属性、情感属性和个人属性。它往往更需要拟人化,功能主要是提供驾驶辅助信息,提升人机交互能力。机器人是硬件,搭载了AI技术后才具有智能化属性。
一般来讲,服务机器人有视觉、语音、前端智能和环境感知三类智能。这也是人类所具有的智能,能看东西,也能讲话。搭载AI技术的目的是让它模仿和重复人类的行为,提升整体驾驶体验。而车载机器人主要是摆脱车上交互的设备感和指令感,由HMI向HRI进化。
韩子天认为,其交互的拟人化可以从五方面着手:其一,语音交互。车上大量交互、指令都是通过语音进行,所以要让语音交互更自然,和人类的语言更贴近,因此要提升其拟人化程度。其二,多通道融合,包括人脸、手势等交互。其三,智能体要拥有明确的人设。它不是机器,要有名字、性格和年龄,需要有人设。其四,要有主动交互能力。机器人不同于设备,它有主动性才能体现出机器人的性能。其五,情感判断和反馈智能。这五点是目前在技术上兑现拟人化的方法。
二是主动交互。主动交互在交互设计里比较重要,而目前很多交互都是被动的,一个指令一个回答,甚至一个指令过去都没有回答。主动交互能体现机器人的拟人化,能让人感受到它的智能。主动交互可以让车更智能,在一定程度上替代重复性工作,帮助人们解放了重复工作的场景。主动交互是未来人机交互和人工智能系统的重要发展方向,由此实现“千人千面”。
怎样兑现主动交互?韩子天认为,主动交互可以从三方面兑现:首先,给机器人增加主动打招呼问候;其次,本地语音语调可以主动学习;最后,用户习惯记忆。前两点相对容易实现,最后一点怎么实现?实现方法就是从人工智能着手。
对于智能驾驶中的人机合作与交互,由芳认为,智能座舱设计首先要安全,其次是娱乐、开会、打电话和玩游戏等。人和自动驾驶形成伙伴关系,在此基础上研究共同感知和决策。以往的HMI都要考虑功能性,现在自动化越来越先进,未来将出现自适应及智能化功能。当智能化越来越高的时候,要把机器人做得像人一样聪明。到这个阶段就需要考虑人车交互问题,考虑它的认知能力和决策能力。这是现在很多做智能算法和智能技术比较关注的。但智能座舱是一种复杂系统,需要有专门的设计方法。
智能座舱人机交互中的挑战
但是,在智能座舱中,人机交互存在不少挑战,其中重要挑战之一是文化。
目前语音交互技术在智能座舱里被广泛使用,由于语音交互具有不占据手眼资源的优势,这种交互方式得到了用户的积极肯定。随着自动驾驶技术的不断成熟和应用,驾驶员的注意力资源也得到了进一步释放,有可能进行更多非驾驶相关的娱乐性活动。
在很多生活场景中,出现了机器人交互和虚拟数字人交互等。这些交互模拟了人和人的互动过程,因此带来更加友好、自然和沉浸式的交互体验。人们也期待这样的交互体验向智能座舱迁移。而自动驾驶的应用为数字人交互和机器人交互向车内迁移提供了可能性。
但邓园认为,从语音交互转变为机器人交互可能面临文化挑战。为什么机器人交互会带来文化方面的挑战?因为机器人交互和传统人机交互最大的不同点是人和机器人交互还存在一层社会属性。有研究发现,当智能语音助手被实体化为机器人,则被视为社会存在。人们会不自然地认为机器人不仅是机器,而是可以进行社交的个体。还有研究发现,当实体机器人和没有实体的虚拟语音助手相比时,人们与实体机器人进行交互时会产生更强的情感联系,会把人和人之间的互动方式、习惯和观念等投射到与机器人交互过程中。
邓园说:“不同国家、社会、民族和群体有自己独特的交互方式、习惯和观念。这些差异会体现在与机器人的交互过程中。因此,在与机器人的交互上,文化差异是必然存在的。” 比如,中国和加拿大年轻人在这方面就存在一些共同点和差异点。如共同点之一:在语音助手的使用上都有丰富的跨场景使用语音助手的经验,包括在车内环境都使用过语音助手,对语音助手有很高的接纳度,认为语音助手是很好的生活小帮手。但双方也存在差异:如果车上配备了车载语音助手,你希望它是什么角色?他们就给出了两个不同的角色选择:一个是作为驾驶过程中的陪伴者,这是非常拟人化的角色;一个是完成驾驶相关任务的工具,这是完全没有拟人化的角色。结果显示,中国年轻人里超过七成受访者选择了陪伴者,而在加拿大的年轻人里超过九成的受访者选择了工具。
目前车载语音交互已经成为智能座舱必备的功能需求。而语音交互能力是车载机器人交互的核心,但要保证其核心功能不断优化,才能满足年轻一代对于智能座舱体验的高期待。邓园说:“当我们在考虑要不要有车载机器人以及对车载机器人如何进行产品设计和交互设计的时候,应该考虑潜在社会文化因素,包括机器人的形象、语气、用词和互动方式等。将来,当国内车厂有机会把智能座舱、车载机器人技术推广到其他国家市场的时候,要深入挖掘相关文化差异及其背后的原因,进行本地化调整非常必要。”
智能场景引擎赋能
从2020年开始,人机交互趋势发生了变革性改变,往情感化方向发展,且要求更加简单。未来人机交互是什么样?张宏志认为,从可实现性角度来讲,用户最关心的是车载AI场景应用,但场景应用需要算法,需要开发工具,需要底层计算架构支持,需要底层芯片算力支撑。
在此背景下,人们需要定义自己的智能场景,即智能场景引擎。王志杰说:“我们可以把场景分解成模块、能力和事件三部分。模块是对能力的承载,对智能座舱环境来讲包含车端模块和云端模块,也包含车内能力和云端能力。能力有属性,能力值的变化会引起关联其他能力值的变化,进而形成事件。而把三个事件串联起来,就会形成具体场景。”
因此,王志杰认为,从模块角度可以把智能场景分解成人、车和路三部分。其中“人”包括车内驾驶员、车内乘客及相关联的属性,比如账号、IoT设备等;“车”上有非常多的传感器、设备都可以关联;“路”包括路上的车辆信息和行人信息等。构建多种场景,满足个性化、情感化和场景化的用户需求。有了场景后,用户可以满足私人定制的要求,也可以满足情感化的需求,对车的互动形成用户黏性。对整车厂来讲,基于服务库形成场景库,并通过场景引擎赋能给最终用户使用。
王志杰说,设想场景引擎发展路径可分为三个级别:L1级别是传统车概念,所有功能都预先设定好,交付到最终用户手里的时候,定制化部分非常少;L2级别是现在正在经历的过程,把车机部分能力开放出来,基于车机服务能力做定制;L3级别是要把车上所有能力都开放出来,并于云端能力形成大服务能力池,基于服务能力池做非常多的定制。
智能场景引擎编好后,直接推送到车端立刻执行。如果场景有些偏差,可以修改。王志杰说:“车上的服务、云端的服务和第三方生态的服务都可以作为能力抽象出来集成,并通过场景引擎打通服务后,再从云端做好服务编排,通过脚本的方式下滑过来,可以在车端执行。场景引擎可以做成跨平台的,底下可以用Linux等都没关系,是独立的SDK方式,甚至可以布置智能家居、独立机器人。智能场景引擎可与车载虚拟机器人相结合。”
全方位声音交互提升体验
我们知道,声音有很多维度,可以给驾乘体验提供很多很好的价值。而电动汽车的特点在于非常安静,由此它能给我们创造交互声音提供更多的空间。而交互式声音首先服务驾驶员,给驾驶员提供各种各样功能交互声音,同时也给乘客和行人提供不同的声音。李彦昊说,服务不同乘客的声音可分为五个维度:车内氛围音、ADAS驾驶辅助声音、人机交互声音、SAF驾驶反馈声音和电动车低速行驶提示音。
如何做到不给乘客带来烦恼?在智能座舱,可根据用户需求,在这五个方面设计全方位声音交互。据李彦昊介绍,综合考虑这些因素,可以对声音设计流程进行设计:一是定义做什么样的声音;二是引入声音设计工程师帮助设计声音;三是对声音做主观评价;四是把评价反馈给声音设计师,并不断迭代,最后把声音改到目标需求;五是做更实际的体验,有可能在虚拟座舱中根据虚拟座舱中的驾驶环境触发不同场景的声音,体验声音是不是符合交互感覺,是不是能给驾驶员带来更好的驾驶体验;六是实车体验,连接车上的车机,根据车内实时信号触发不同声音,调试声音,知道声音是不是能在不同场景进行触发,并且带来真实体验,而不是让人听起来不舒服;七是整车集成,通过硬件、实际实施方式集成到车机里,给最终用户带来很好的声音体验。基于此环节进行完整创作,最终集成。
“语音交互最大的优势是穿透力,把简单、自然发挥到极致。”邢猛认为,从语音到多模一定是发展趋势,因为不可能依靠语音解决所有问题,因此可以建立以人-车-厂为驱动的多模。多模感知的融合一定不是单模,而是多模高感知技术的融合,同时多维数据更好地协同,目的是提升用户体验和交互体验。语音交互和声音交互座舱声音管理一定是一体化协同的。从多模态合成到多维度合成,多维度合成是情绪的面部表情表达和情绪语言表达展现在一起。
语音交互方式本身是信息的主要载体,是座舱里非常重要的落地点。张晴晴说:“围绕人机交互的场景有语音识别、语音合成和自然语言理解三个核心点,而对话式AI 数据推动着智能座舱语音交互的发展。目前这三部分在落地的时候都会有痛点。针对这种场景提供相应数据处理系统的私有化部署能力有三个数据处理平台,即语音标注审核平台、文本标注审核平台和音频/视频多模态标注审核平台。事实上,除了语音交互外,现在开始进入多模态状态,包括视觉、图像等都可以围绕多维度对用户行为进行分析,这是智能座舱很重要的发展方向。”
智能网联汽车逐渐走入人们的现实生活,汽车产品的竞争也逐步走向汽车交互设计和综合用户体验的竞争。为探索相关技术在智能网联汽车座舱领域的发展和交互设计在汽车行业的应用,6月19日上午,2021中国汽车论坛举行了主题论坛之“智能座舱创新技术论坛”。
本场主题论坛由同济大学智能汽车交互设计实验室王建民主持,中国汽车工业协会总工程师、副秘书长叶盛基,上海国际汽车城(集团)有限公司总经理潘晓红,澳门科技大学澳门系统工程研究所副教授韓子天,同济大学智能汽车交互设计实验室主任、教授由芳,华为加拿大研究中心HMI实验室人因工程高级研究员邓园,地平线副总裁、车载智能交互产品总经理张宏志,中科创达汽车事业部产品经理王志杰,科大讯飞汽车事业部高级产品总监邢猛,ANSYS Inc.声学专家李彦昊和爱数智慧创始人兼CEO张晴晴等做了主旨发言,共同探索智能座舱在交互技术、车载机器人和车载语音交互等领域的最新发展。期间,还发布了《车载智能机器人技术白皮书》。
车载机器人的两个技术方向
电动化、智能化、网联化、数据化的技术革命浪潮推动着汽车产业快速升级。人工智能、5G通信和大数据等技术的深度融合和应用,重构着汽车产业的新格局。同时,新的消费模式和服务业态蓬勃兴起。叶盛基说:“智能座舱就是汽车智能化进程中重要的技术产物,也是近两年来智能网联领域探索的热点和重点所在。智能座舱是汽车品牌实现产品差异化和升级化的首要切入点之一,有着千亿级规模的市场前景。”潘晓红也认为,智能座舱是汽车行业尤其智能网联汽车的技术集大成者,是汽车技术创新的产物。
而车载机器人就是智能座舱技术发展的重要方向之一。机器人是AI的载体,通过车上的场景呈现出来。车载机器人是交互的演进,把车载机器人从实验室带到实际量产车上是很大的创新。韩子天认为,未来车载机器人有两个重要的技术发展方向。
一是车载机器人拟人化。光有屏很难做拟人化,需要有一些形象,无论实体还是虚拟形象,而车载机器人就是这样的载体。车载机器人是服务机器人里的社交机器人,是个人交互机器人。社交机器人强调社交属性、情感属性和个人属性。它往往更需要拟人化,功能主要是提供驾驶辅助信息,提升人机交互能力。机器人是硬件,搭载了AI技术后才具有智能化属性。
一般来讲,服务机器人有视觉、语音、前端智能和环境感知三类智能。这也是人类所具有的智能,能看东西,也能讲话。搭载AI技术的目的是让它模仿和重复人类的行为,提升整体驾驶体验。而车载机器人主要是摆脱车上交互的设备感和指令感,由HMI向HRI进化。
韩子天认为,其交互的拟人化可以从五方面着手:其一,语音交互。车上大量交互、指令都是通过语音进行,所以要让语音交互更自然,和人类的语言更贴近,因此要提升其拟人化程度。其二,多通道融合,包括人脸、手势等交互。其三,智能体要拥有明确的人设。它不是机器,要有名字、性格和年龄,需要有人设。其四,要有主动交互能力。机器人不同于设备,它有主动性才能体现出机器人的性能。其五,情感判断和反馈智能。这五点是目前在技术上兑现拟人化的方法。
二是主动交互。主动交互在交互设计里比较重要,而目前很多交互都是被动的,一个指令一个回答,甚至一个指令过去都没有回答。主动交互能体现机器人的拟人化,能让人感受到它的智能。主动交互可以让车更智能,在一定程度上替代重复性工作,帮助人们解放了重复工作的场景。主动交互是未来人机交互和人工智能系统的重要发展方向,由此实现“千人千面”。
怎样兑现主动交互?韩子天认为,主动交互可以从三方面兑现:首先,给机器人增加主动打招呼问候;其次,本地语音语调可以主动学习;最后,用户习惯记忆。前两点相对容易实现,最后一点怎么实现?实现方法就是从人工智能着手。
对于智能驾驶中的人机合作与交互,由芳认为,智能座舱设计首先要安全,其次是娱乐、开会、打电话和玩游戏等。人和自动驾驶形成伙伴关系,在此基础上研究共同感知和决策。以往的HMI都要考虑功能性,现在自动化越来越先进,未来将出现自适应及智能化功能。当智能化越来越高的时候,要把机器人做得像人一样聪明。到这个阶段就需要考虑人车交互问题,考虑它的认知能力和决策能力。这是现在很多做智能算法和智能技术比较关注的。但智能座舱是一种复杂系统,需要有专门的设计方法。
智能座舱人机交互中的挑战
但是,在智能座舱中,人机交互存在不少挑战,其中重要挑战之一是文化。
目前语音交互技术在智能座舱里被广泛使用,由于语音交互具有不占据手眼资源的优势,这种交互方式得到了用户的积极肯定。随着自动驾驶技术的不断成熟和应用,驾驶员的注意力资源也得到了进一步释放,有可能进行更多非驾驶相关的娱乐性活动。
在很多生活场景中,出现了机器人交互和虚拟数字人交互等。这些交互模拟了人和人的互动过程,因此带来更加友好、自然和沉浸式的交互体验。人们也期待这样的交互体验向智能座舱迁移。而自动驾驶的应用为数字人交互和机器人交互向车内迁移提供了可能性。
但邓园认为,从语音交互转变为机器人交互可能面临文化挑战。为什么机器人交互会带来文化方面的挑战?因为机器人交互和传统人机交互最大的不同点是人和机器人交互还存在一层社会属性。有研究发现,当智能语音助手被实体化为机器人,则被视为社会存在。人们会不自然地认为机器人不仅是机器,而是可以进行社交的个体。还有研究发现,当实体机器人和没有实体的虚拟语音助手相比时,人们与实体机器人进行交互时会产生更强的情感联系,会把人和人之间的互动方式、习惯和观念等投射到与机器人交互过程中。
邓园说:“不同国家、社会、民族和群体有自己独特的交互方式、习惯和观念。这些差异会体现在与机器人的交互过程中。因此,在与机器人的交互上,文化差异是必然存在的。” 比如,中国和加拿大年轻人在这方面就存在一些共同点和差异点。如共同点之一:在语音助手的使用上都有丰富的跨场景使用语音助手的经验,包括在车内环境都使用过语音助手,对语音助手有很高的接纳度,认为语音助手是很好的生活小帮手。但双方也存在差异:如果车上配备了车载语音助手,你希望它是什么角色?他们就给出了两个不同的角色选择:一个是作为驾驶过程中的陪伴者,这是非常拟人化的角色;一个是完成驾驶相关任务的工具,这是完全没有拟人化的角色。结果显示,中国年轻人里超过七成受访者选择了陪伴者,而在加拿大的年轻人里超过九成的受访者选择了工具。
目前车载语音交互已经成为智能座舱必备的功能需求。而语音交互能力是车载机器人交互的核心,但要保证其核心功能不断优化,才能满足年轻一代对于智能座舱体验的高期待。邓园说:“当我们在考虑要不要有车载机器人以及对车载机器人如何进行产品设计和交互设计的时候,应该考虑潜在社会文化因素,包括机器人的形象、语气、用词和互动方式等。将来,当国内车厂有机会把智能座舱、车载机器人技术推广到其他国家市场的时候,要深入挖掘相关文化差异及其背后的原因,进行本地化调整非常必要。”
智能场景引擎赋能
从2020年开始,人机交互趋势发生了变革性改变,往情感化方向发展,且要求更加简单。未来人机交互是什么样?张宏志认为,从可实现性角度来讲,用户最关心的是车载AI场景应用,但场景应用需要算法,需要开发工具,需要底层计算架构支持,需要底层芯片算力支撑。
在此背景下,人们需要定义自己的智能场景,即智能场景引擎。王志杰说:“我们可以把场景分解成模块、能力和事件三部分。模块是对能力的承载,对智能座舱环境来讲包含车端模块和云端模块,也包含车内能力和云端能力。能力有属性,能力值的变化会引起关联其他能力值的变化,进而形成事件。而把三个事件串联起来,就会形成具体场景。”
因此,王志杰认为,从模块角度可以把智能场景分解成人、车和路三部分。其中“人”包括车内驾驶员、车内乘客及相关联的属性,比如账号、IoT设备等;“车”上有非常多的传感器、设备都可以关联;“路”包括路上的车辆信息和行人信息等。构建多种场景,满足个性化、情感化和场景化的用户需求。有了场景后,用户可以满足私人定制的要求,也可以满足情感化的需求,对车的互动形成用户黏性。对整车厂来讲,基于服务库形成场景库,并通过场景引擎赋能给最终用户使用。
王志杰说,设想场景引擎发展路径可分为三个级别:L1级别是传统车概念,所有功能都预先设定好,交付到最终用户手里的时候,定制化部分非常少;L2级别是现在正在经历的过程,把车机部分能力开放出来,基于车机服务能力做定制;L3级别是要把车上所有能力都开放出来,并于云端能力形成大服务能力池,基于服务能力池做非常多的定制。
智能场景引擎编好后,直接推送到车端立刻执行。如果场景有些偏差,可以修改。王志杰说:“车上的服务、云端的服务和第三方生态的服务都可以作为能力抽象出来集成,并通过场景引擎打通服务后,再从云端做好服务编排,通过脚本的方式下滑过来,可以在车端执行。场景引擎可以做成跨平台的,底下可以用Linux等都没关系,是独立的SDK方式,甚至可以布置智能家居、独立机器人。智能场景引擎可与车载虚拟机器人相结合。”
全方位声音交互提升体验
我们知道,声音有很多维度,可以给驾乘体验提供很多很好的价值。而电动汽车的特点在于非常安静,由此它能给我们创造交互声音提供更多的空间。而交互式声音首先服务驾驶员,给驾驶员提供各种各样功能交互声音,同时也给乘客和行人提供不同的声音。李彦昊说,服务不同乘客的声音可分为五个维度:车内氛围音、ADAS驾驶辅助声音、人机交互声音、SAF驾驶反馈声音和电动车低速行驶提示音。
如何做到不给乘客带来烦恼?在智能座舱,可根据用户需求,在这五个方面设计全方位声音交互。据李彦昊介绍,综合考虑这些因素,可以对声音设计流程进行设计:一是定义做什么样的声音;二是引入声音设计工程师帮助设计声音;三是对声音做主观评价;四是把评价反馈给声音设计师,并不断迭代,最后把声音改到目标需求;五是做更实际的体验,有可能在虚拟座舱中根据虚拟座舱中的驾驶环境触发不同场景的声音,体验声音是不是符合交互感覺,是不是能给驾驶员带来更好的驾驶体验;六是实车体验,连接车上的车机,根据车内实时信号触发不同声音,调试声音,知道声音是不是能在不同场景进行触发,并且带来真实体验,而不是让人听起来不舒服;七是整车集成,通过硬件、实际实施方式集成到车机里,给最终用户带来很好的声音体验。基于此环节进行完整创作,最终集成。
“语音交互最大的优势是穿透力,把简单、自然发挥到极致。”邢猛认为,从语音到多模一定是发展趋势,因为不可能依靠语音解决所有问题,因此可以建立以人-车-厂为驱动的多模。多模感知的融合一定不是单模,而是多模高感知技术的融合,同时多维数据更好地协同,目的是提升用户体验和交互体验。语音交互和声音交互座舱声音管理一定是一体化协同的。从多模态合成到多维度合成,多维度合成是情绪的面部表情表达和情绪语言表达展现在一起。
语音交互方式本身是信息的主要载体,是座舱里非常重要的落地点。张晴晴说:“围绕人机交互的场景有语音识别、语音合成和自然语言理解三个核心点,而对话式AI 数据推动着智能座舱语音交互的发展。目前这三部分在落地的时候都会有痛点。针对这种场景提供相应数据处理系统的私有化部署能力有三个数据处理平台,即语音标注审核平台、文本标注审核平台和音频/视频多模态标注审核平台。事实上,除了语音交互外,现在开始进入多模态状态,包括视觉、图像等都可以围绕多维度对用户行为进行分析,这是智能座舱很重要的发展方向。”