论文部分内容阅读
吴晓波说过,2014年到2016年是中国最好的创业时代。声智科技(SoundAI)联合创始人常乐算是抓住了这一“时代”尾巴的一拨人之一。2016年创办声智科技,专注于声学与人工智能融合方向的技术研发,包括她在内的4名创始成员都来自中国科学院声学所。
常乐告诉创业邦,人和机器的交互方式在不断演变,从旋钮和键盘、鼠标、触摸屏演变到第4代以语音为代表的远场语音交互手段。语音已经成为最重要的人机交互入口,这是一个国内外同步创新、争夺科技制高点与未来产业重构的新机遇。
而远场语音交互市场的兴起还要归功于美国电商巨头亚马逊推出的智能音箱Echo,其带来的显著变化就是把语音交互方式从近场升级为远场。以北美市场为首,围绕人工智能远场语音交互技术的产品已经开始落地,但彼时,国内大多数产品还停留在近场语音交互阶段。常乐预判“未来国内的发展模式一定会往远场语音交互方式过渡”,因此,创业初期声智科技决定由该市场切入。
此前,常乐的师兄,现在的声智科技创始成员,与常乐一起同在中科院声学所从事相关技术的研发,创立声智科技则意味着把技术做商业化落地。由此组成的创始团队构成了声智科技的竞争力之一。常乐解释,声学是物理学科的二级学科,很多高校本科并不开设这个专业,到了研究生阶段才有一些高校、研究所开设,相关人才稀缺。同时国内专注在声学领域研究的人才很少。
在目前200人的团队中,除创始团队外,声智科技還引进了包括中国科学院、清华大学、北京大学、中国科技大学、北京航空航天大学、中国传媒大学、MIT等名校毕业生以及Google、Broadcom、Dolby、腾讯、百度等精英。
常乐提到,2010年由于深度学习技术的出现和应用,人工智能开始在商业领域展现其价值。智能语音在国内是从1956年中科院声学所的第一套电子管语音识别系统开始,直到2011年语音技术才真正获得市场认同,这个时候语音识别技术开始快速迭代,2016年机器语音识别率终于在2016年达到了一般人类的水平。但是这个结果还存在非常大的边界约束,因为没有考虑到真实环境的物理因素干扰,其真实效果还是不能满足实际应用的要求。商业化落地需要构建真实的场景下的远场语音交互,比如在嘈杂的餐馆、迎风行驶的车上等。首先声智科技要解决的是空间物理环境声场的影响,也就是构建一个灵敏的“耳朵”,提升体验感。“有了灵敏的耳朵,就能采集到更好的数据集,训练出更好的机器学习的模型,反哺整个交互过程。”
其次,声智科技基于底层声学技术生成完整的软硬件方案,构建基于声智科技人工智能操作系统搭建的人工智能交互平台。完整的语音交互过程包括从听到声音到大脑解析成文字再到最终说出来,其中包括了多项技术,声学处理主要是仿真人类的耳朵,保证机器能够听得准真实环境下的人的声音;语音识别则是要把听到的人声翻译成文字;语义理解则分析这些文字的意义;语音合成就把机器要表达的文字翻译成语音。再融合知识图谱、人工智能大数据分析和解析、智能搜索推荐、智能决策等技术,形成完整的人工交互链条,声智科技再开始在此基础之上迭代产品和服务。
常乐介绍,声智科技推出人工智能操作系统的目标用户群体主要分为两大方向。第一为内容和服务提供方,声智科技可以满足他们在不同设备、载体嵌入服务和内容的需求。“未来用户可能会在智能音箱、智能屏、智能汽车等新一代智能终端设备上使用传统服务,通过我们的人工智能操作系统构建服务平台,帮助这类目标客户将服务、内容提供给第三方,类似于在手机上安装他们的App。”第二是传统硬件厂商,通过安装声智科技的人工智能操作系统,为硬件升级进行智能化赋能,打造具有人工智能交互能力的新型设备产品。
现在声智科技已研发出人工智能操作系统Azero、人工智能开放平台Babel和融合感知算法引擎Cimon,以及深度结合应用场景的AI硬件设备、AI营销客服、AI语音助手、AI虚拟数字人、AI音视频会议等产品和行业综合解决方案。
初期,声智科技率先落地在消费电子品这类用户使用量较大的场景,声智科技占据中国70%的远场语音交互市场。现逐步向传统金融、安防以及医疗、交通等领域开始新的探索。在此次疫情期间,声智科技也有所行动,推出了AI数字人红外测温设备、可视化AI语音电梯等非接触式抗疫解决方案。常乐介绍,AI数字人红外测温仪可实现1~6米范围内、0.2秒内完成多个目标的高精度测温,支持实时AI语音合成播报,自动上传预警信息。
目前声智科技已在安徽、广州、青岛、成都、北京等全国18个省市的学校、办公大厅、写字楼落地。AI语音电梯整体解决方案无须下载任何App或小程序,只需要一句话“小易小易,上楼/下楼”就可以实现电梯呼叫。现在已在北京市海淀医院正式投入使用,北医三院也即将落地使用。
回顾人机交互技术的发展史,相较于近场语音交互,远场语音交互技术的出现成功解决了真实场景下的复杂声学问题。但当前还只是人机自然交互的发展初期,即便智能语音交互也还任重而道远。在声智科技看来,所有的AI产品仍没有达到理想的状态,在不断优化过程中,声智科技始终注重的是用户体验,“语音识别率超过99%这个数字对于用户来说,意义不大,相反,交互体验对他来说更为重要,也就是推荐的产品是不是他想要的,听到的是不是够准确。”
为了更好地实现AI从感知智能进入认知智能的阶段,需要针对不同场景,在语义理解方面建立不同知识图谱库,不断进行学习和迭代。常乐表示,现阶段,智能家居等领域的语音识别率已经相对较高,而在一些智能交通、智能医疗领域、安防司法等专业性较强领域,还需要针对自然语义理解方面收集更多的语料库和数据集进一步的迭代,这是声智科技今年重点的发力方向。
同时常乐预判,未来的人机交互,也将实现更加多传感融合的多模态人机交互手段,使可交互信息的理解度和可靠性更高,会是融合交互将成为人类和机器相互学习的关键手段。这也是声智科技下一步优化迭代的方向。
从长远来看,能快速把技术落地应用到相应业务领域,得益于声智科技团队的落地能力和营销能力。在常乐看来,初期已有声学技术储备到逐步建立了多模态交互技术,能达到这一技术壁垒的企业在国内寥寥可数。
声智科技现有客户数约500家,包括华为、小米、百度、腾讯、阿里巴巴、中国移动、中国联通、中央人民广播电台、联想、创维、宝洁、万科、奇虎360、金蝶、浪潮、国美、坚果等企业。常乐提到,成立初期国内市场的相关需求特别强烈,声智科技占据了先发优势,前期的种子客户也都是互联网巨头公司,像小米的首台智能音箱、奇虎360打造的第一款具有语音交互功能的安防摄像头、阿里天猫精灵魔盒都应用了声智科技的技术。
据悉,声智科技现有商业模式主要围绕软件授权,芯片、模组和整体产品方案,以及服务费。去年销售额达3亿元,已在上海、苏州、青岛等地落地分公司。
2016年获得由洪泰基金领投,峰瑞资本跟投的1600万人元民币Pre-A轮融资;
2017年获得由洪泰基金、百度、蓝港互动等投资的近亿元A轮融资;
2018年12月,声智科技已完成2亿元人民币B轮融资,由毅达资本领投,峰瑞资本、正居资本跟投, 中关村银行、InnoVen Capital联合参与。
常乐告诉创业邦,人和机器的交互方式在不断演变,从旋钮和键盘、鼠标、触摸屏演变到第4代以语音为代表的远场语音交互手段。语音已经成为最重要的人机交互入口,这是一个国内外同步创新、争夺科技制高点与未来产业重构的新机遇。
而远场语音交互市场的兴起还要归功于美国电商巨头亚马逊推出的智能音箱Echo,其带来的显著变化就是把语音交互方式从近场升级为远场。以北美市场为首,围绕人工智能远场语音交互技术的产品已经开始落地,但彼时,国内大多数产品还停留在近场语音交互阶段。常乐预判“未来国内的发展模式一定会往远场语音交互方式过渡”,因此,创业初期声智科技决定由该市场切入。
将技术做商业化落地
此前,常乐的师兄,现在的声智科技创始成员,与常乐一起同在中科院声学所从事相关技术的研发,创立声智科技则意味着把技术做商业化落地。由此组成的创始团队构成了声智科技的竞争力之一。常乐解释,声学是物理学科的二级学科,很多高校本科并不开设这个专业,到了研究生阶段才有一些高校、研究所开设,相关人才稀缺。同时国内专注在声学领域研究的人才很少。
人和机器的交互方式在不断演变,语音已经成为最重要的人机交互入口,这是一个国内外同步创新、争夺科技制高点与未来产业重构的新机遇。
在目前200人的团队中,除创始团队外,声智科技還引进了包括中国科学院、清华大学、北京大学、中国科技大学、北京航空航天大学、中国传媒大学、MIT等名校毕业生以及Google、Broadcom、Dolby、腾讯、百度等精英。
常乐提到,2010年由于深度学习技术的出现和应用,人工智能开始在商业领域展现其价值。智能语音在国内是从1956年中科院声学所的第一套电子管语音识别系统开始,直到2011年语音技术才真正获得市场认同,这个时候语音识别技术开始快速迭代,2016年机器语音识别率终于在2016年达到了一般人类的水平。但是这个结果还存在非常大的边界约束,因为没有考虑到真实环境的物理因素干扰,其真实效果还是不能满足实际应用的要求。商业化落地需要构建真实的场景下的远场语音交互,比如在嘈杂的餐馆、迎风行驶的车上等。首先声智科技要解决的是空间物理环境声场的影响,也就是构建一个灵敏的“耳朵”,提升体验感。“有了灵敏的耳朵,就能采集到更好的数据集,训练出更好的机器学习的模型,反哺整个交互过程。”
其次,声智科技基于底层声学技术生成完整的软硬件方案,构建基于声智科技人工智能操作系统搭建的人工智能交互平台。完整的语音交互过程包括从听到声音到大脑解析成文字再到最终说出来,其中包括了多项技术,声学处理主要是仿真人类的耳朵,保证机器能够听得准真实环境下的人的声音;语音识别则是要把听到的人声翻译成文字;语义理解则分析这些文字的意义;语音合成就把机器要表达的文字翻译成语音。再融合知识图谱、人工智能大数据分析和解析、智能搜索推荐、智能决策等技术,形成完整的人工交互链条,声智科技再开始在此基础之上迭代产品和服务。
常乐介绍,声智科技推出人工智能操作系统的目标用户群体主要分为两大方向。第一为内容和服务提供方,声智科技可以满足他们在不同设备、载体嵌入服务和内容的需求。“未来用户可能会在智能音箱、智能屏、智能汽车等新一代智能终端设备上使用传统服务,通过我们的人工智能操作系统构建服务平台,帮助这类目标客户将服务、内容提供给第三方,类似于在手机上安装他们的App。”第二是传统硬件厂商,通过安装声智科技的人工智能操作系统,为硬件升级进行智能化赋能,打造具有人工智能交互能力的新型设备产品。
从感知智能进入认知智能
现在声智科技已研发出人工智能操作系统Azero、人工智能开放平台Babel和融合感知算法引擎Cimon,以及深度结合应用场景的AI硬件设备、AI营销客服、AI语音助手、AI虚拟数字人、AI音视频会议等产品和行业综合解决方案。
初期,声智科技率先落地在消费电子品这类用户使用量较大的场景,声智科技占据中国70%的远场语音交互市场。现逐步向传统金融、安防以及医疗、交通等领域开始新的探索。在此次疫情期间,声智科技也有所行动,推出了AI数字人红外测温设备、可视化AI语音电梯等非接触式抗疫解决方案。常乐介绍,AI数字人红外测温仪可实现1~6米范围内、0.2秒内完成多个目标的高精度测温,支持实时AI语音合成播报,自动上传预警信息。
目前声智科技已在安徽、广州、青岛、成都、北京等全国18个省市的学校、办公大厅、写字楼落地。AI语音电梯整体解决方案无须下载任何App或小程序,只需要一句话“小易小易,上楼/下楼”就可以实现电梯呼叫。现在已在北京市海淀医院正式投入使用,北医三院也即将落地使用。
回顾人机交互技术的发展史,相较于近场语音交互,远场语音交互技术的出现成功解决了真实场景下的复杂声学问题。但当前还只是人机自然交互的发展初期,即便智能语音交互也还任重而道远。在声智科技看来,所有的AI产品仍没有达到理想的状态,在不断优化过程中,声智科技始终注重的是用户体验,“语音识别率超过99%这个数字对于用户来说,意义不大,相反,交互体验对他来说更为重要,也就是推荐的产品是不是他想要的,听到的是不是够准确。”
为了更好地实现AI从感知智能进入认知智能的阶段,需要针对不同场景,在语义理解方面建立不同知识图谱库,不断进行学习和迭代。常乐表示,现阶段,智能家居等领域的语音识别率已经相对较高,而在一些智能交通、智能医疗领域、安防司法等专业性较强领域,还需要针对自然语义理解方面收集更多的语料库和数据集进一步的迭代,这是声智科技今年重点的发力方向。
同时常乐预判,未来的人机交互,也将实现更加多传感融合的多模态人机交互手段,使可交互信息的理解度和可靠性更高,会是融合交互将成为人类和机器相互学习的关键手段。这也是声智科技下一步优化迭代的方向。
从长远来看,能快速把技术落地应用到相应业务领域,得益于声智科技团队的落地能力和营销能力。在常乐看来,初期已有声学技术储备到逐步建立了多模态交互技术,能达到这一技术壁垒的企业在国内寥寥可数。
声智科技现有客户数约500家,包括华为、小米、百度、腾讯、阿里巴巴、中国移动、中国联通、中央人民广播电台、联想、创维、宝洁、万科、奇虎360、金蝶、浪潮、国美、坚果等企业。常乐提到,成立初期国内市场的相关需求特别强烈,声智科技占据了先发优势,前期的种子客户也都是互联网巨头公司,像小米的首台智能音箱、奇虎360打造的第一款具有语音交互功能的安防摄像头、阿里天猫精灵魔盒都应用了声智科技的技术。
据悉,声智科技现有商业模式主要围绕软件授权,芯片、模组和整体产品方案,以及服务费。去年销售额达3亿元,已在上海、苏州、青岛等地落地分公司。
声智科技融资信息
2016年获得由洪泰基金领投,峰瑞资本跟投的1600万人元民币Pre-A轮融资;
2017年获得由洪泰基金、百度、蓝港互动等投资的近亿元A轮融资;
2018年12月,声智科技已完成2亿元人民币B轮融资,由毅达资本领投,峰瑞资本、正居资本跟投, 中关村银行、InnoVen Capital联合参与。