论文部分内容阅读
“喂!救命!”
“冷静点,你怎么了?”
“我的游艇故障,发动机损坏,我被困在海上了。”
了解情况后,美国海岸警卫队立刻组织人手进行搜救,事故海域被他们搜寻了一遍,数小时后,仍然不见事故游艇以及报警人的身影,数次回拨电话也无人接听。
美国海岸警卫队意识到:这又是一次假警报。
一通昂贵的“求助”电话
对,“又”。据美国海岸警卫队公开的数据显示,他们每年要处理的求助电话约16000个,而其中有1%都是假的。160在这个数据时代看上去是个不起眼的小数字,但却已经造成了不小的问题。
要知道海岸警卫队的hc-130飞机运营成本约为15000美元/小时;一架搜救直升机可以花费10000美元/小时;而他们的搜救行动一般会持续两天……粗略估算,一次假警报就会花费约50万美元的巨款。除此之外,假警报还会占用真正需要救助的人的资源,这对海岸警卫队来说,是最不可忍受的。
而且在最近一段时间,他们接到假警报的频率陡然上升,这不得不让人怀疑有人在故意浪费国家资源。他们必须要行动起来,打击这样的犯罪行为。但报警通话时长过短,无法定位,更不可能有什么指纹、DNA,唯一的线索只有一段犯罪嫌疑人的录音,如何才能抓住他?美国海岸警卫队决定向Rita Singh求助。
Rita Singh是音频分析领域的顶尖科学家,工作于卡内基·梅隆大学的语言技术研究所。作为计算机语音识别和语音处理算法方面的专家,Singh在这一领域研究了20年。
当美国海岸警卫队把报假警电话发给Singh的时候,美国海岸警卫队找到Singh后问:“告诉我们,(拿到这段音频)你可以干什么?”
“这启发了我,我开始思考,除了音频信号,我还可以用这个分析来做些什么?我可以给海岸警卫队多少关于这个报假警的人的有效信息?”Singh在接受采访时说。
你的声音会“出卖”你
Singh和她的同事所研发的这套音频分析技术,可以找出人都听不出来的细微差别。为了实现这一点,Singh的算法着眼于语音和语音的微观特性(在几分之一秒内做出的测量)。
他们把音频切成毫秒的片段,然后用AI技术来梳理处理这些片段以寻找独特的标识。通过电话录音,他们可以准确地预测出打电话人的所有物理特征,包括身高、体重、年龄、面部特征等,甚至连对方的社会经济背景、收入水平、生理和精神健康都能判断出来。
Singh的团队一直在使用机器学习算法来衡量这些微观特征,而且每天都在不断地发现新的特征,比如最近解锁的新技能——仅仅根据音频,就能预判罪犯的面部画像。Singh表示:“目前这个研究还在进行中,但是我们正在发现如何在语音和语音的這些方面进行研究,从而使我们能够从关于人的特点的声音中做出可靠和准确的估计。”过去虽然一直有人在进行这样的研究,但直到今天才有技术来精确地提取这些信息。
比如说,你的声音可以透露环境的信息。当你说话的时候,AI可以预测出你所在房间的大小,房间是否有窗户,墙体是什么材质的。
如果你受到胁迫,AI也能分析出来。你无法改变你的肌肉运动速度、声道惯性、肺容量、骨骼结构,而这所有的一切都会影响到语音,一旦你说话的语气、习惯、呼吸与往常不同,AI就能借此分析你的心理状态:恐惧、快乐、兴奋等等。
更不可思议的是,AI还可以根据当地电网的电压波动,判断出打电话的人的物理位置,以及是一天当中什么时间段打出的电话。
凭借语音算法,Singh成功帮海岸警卫队分析出了来电者的信息:一名35至40岁的白人男性,身高5英尺10英寸(约1.78米)至6英尺(1.83米),体重190磅(约172.4斤),具有东海岸或东南海岸口音。
借此,警卫队快速准确地锁定了罪犯,被抓到的罪犯在审讯过程中,所提供的信息和语音算法判断的结果高度吻合。
现在这名罪犯很快就要面临庭审。AI技术的引入,对于那些总是爱报假警的人来说是个坏消息。要知道,在美国报假警触犯了联邦法律,处罚很重,最高可判监禁六年,罚款25000美元。
语音AI诊疗帕金森
AI技术的发展速度都是指数级别的,在帮助美国海岸警卫队后,人们很快发现了这项技术的新应用。
帕金森病是一种常见的、年龄相关性的神经退行性疾病,药物治疗是主要的治疗方法,可以改善运动症状,但对帕金森病的许多其他症状意义不大,同时药物一般都有副作用。
近些年来,大量研究者提出了各种非侵入性的方式来检测帕金森病的早期症状。后来发现几乎所有的帕金森患者由于并发症引起的声带损失,都患有不同程度的语言障碍。在患病早期,语言障碍的程度不高,人耳很难察觉,但语音分析算法却能轻易分辨,将来有望成为帮助诊断帕金森病等特定疾病的指标。
随着研究人员向计算机提供越来越多的数据(声音剪辑),数学模型随着时间的推移而更为精确。目前,大约60%的分析是由计算机完成的, 其余的是由人类科学家完成的。 但是,Singh认为未来的AI语音分析能够通过声音生成一个全息图像,所有的人物信息都会立体地呈现出来,因此她称之为“超人的能力”。
不过,现在他们还需要更努力,才能让大众接受音频分析得到的结果。目前,大家对音频分析依然存在很多质疑,所以音频无法作为可靠的证据。“现在,就像是1987年美国首个因DNA定罪的审判时期一样,经过时间的检验,声音也会成为独一无二的决定性证据。”
百度研究院新增两大实验室三位AI大牛加盟
美国时间1月18日,百度研究院在硅谷召开全员大会,宣布设立商业智能实验室(Business Intelligence Lab,BIL)和机器人与自动驾驶实验室(Robotics and Autonomous Driving Lab,RAL),同时三位人工智能领域科学家Kenneth Ward Church、浣军、熊辉加盟百度研究院。
其中,商业智能实验室将聚焦用于新兴数据密集型应用的高效数据分析技术;而机器人与自动驾驶实验室则重点关注机器人技术,尤其是在自动驾驶领域夯实百度无人驾驶基础技术。
新加盟的科学家中,Kenneth Ward Church曾在IBM、微软、AT&T等实验室任职,是自然语言处理领域的专家;浣军是大数据专家,曾担任堪萨斯大学计算机科学教授;熊辉是罗格斯大学教授,其研究聚焦数据工程。
菜鸟进军无人驾驶卡车领域:在北京杭州招人
1月22日,知情人士透露,阿里投资的菜鸟网络正在进行无人驾驶大卡车的相关测试。在阿里巴巴公开的招聘网站上看到,菜鸟招聘无人驾驶方向的人才超过 30 人。职位包括:无人驾驶视觉系统研发专家、无人驾驶 SLAM 与导航算法专家、无人驾驶系统平台研发工程师/专家等,工作地点在北京和杭州。
据悉,菜鸟网络自 2016 年 9 月左右便发布了首款无人配送机器人。这种机器人定位在小区,速度不快,但从技术上来讲,其实就是无人驾驶技术。2017 年双 11 之后,菜鸟网络发布了该无人配送机器人的升级版,同时又发布了一款新的更大的无人配送机器人基普拉斯,与第一代机器人相比,这一款机器人更大速度更快,从结构上来看,也已经是车辆结构。
“冷静点,你怎么了?”
“我的游艇故障,发动机损坏,我被困在海上了。”
了解情况后,美国海岸警卫队立刻组织人手进行搜救,事故海域被他们搜寻了一遍,数小时后,仍然不见事故游艇以及报警人的身影,数次回拨电话也无人接听。
美国海岸警卫队意识到:这又是一次假警报。
一通昂贵的“求助”电话
对,“又”。据美国海岸警卫队公开的数据显示,他们每年要处理的求助电话约16000个,而其中有1%都是假的。160在这个数据时代看上去是个不起眼的小数字,但却已经造成了不小的问题。
要知道海岸警卫队的hc-130飞机运营成本约为15000美元/小时;一架搜救直升机可以花费10000美元/小时;而他们的搜救行动一般会持续两天……粗略估算,一次假警报就会花费约50万美元的巨款。除此之外,假警报还会占用真正需要救助的人的资源,这对海岸警卫队来说,是最不可忍受的。
而且在最近一段时间,他们接到假警报的频率陡然上升,这不得不让人怀疑有人在故意浪费国家资源。他们必须要行动起来,打击这样的犯罪行为。但报警通话时长过短,无法定位,更不可能有什么指纹、DNA,唯一的线索只有一段犯罪嫌疑人的录音,如何才能抓住他?美国海岸警卫队决定向Rita Singh求助。
Rita Singh是音频分析领域的顶尖科学家,工作于卡内基·梅隆大学的语言技术研究所。作为计算机语音识别和语音处理算法方面的专家,Singh在这一领域研究了20年。
当美国海岸警卫队把报假警电话发给Singh的时候,美国海岸警卫队找到Singh后问:“告诉我们,(拿到这段音频)你可以干什么?”
“这启发了我,我开始思考,除了音频信号,我还可以用这个分析来做些什么?我可以给海岸警卫队多少关于这个报假警的人的有效信息?”Singh在接受采访时说。
你的声音会“出卖”你
Singh和她的同事所研发的这套音频分析技术,可以找出人都听不出来的细微差别。为了实现这一点,Singh的算法着眼于语音和语音的微观特性(在几分之一秒内做出的测量)。
他们把音频切成毫秒的片段,然后用AI技术来梳理处理这些片段以寻找独特的标识。通过电话录音,他们可以准确地预测出打电话人的所有物理特征,包括身高、体重、年龄、面部特征等,甚至连对方的社会经济背景、收入水平、生理和精神健康都能判断出来。
Singh的团队一直在使用机器学习算法来衡量这些微观特征,而且每天都在不断地发现新的特征,比如最近解锁的新技能——仅仅根据音频,就能预判罪犯的面部画像。Singh表示:“目前这个研究还在进行中,但是我们正在发现如何在语音和语音的這些方面进行研究,从而使我们能够从关于人的特点的声音中做出可靠和准确的估计。”过去虽然一直有人在进行这样的研究,但直到今天才有技术来精确地提取这些信息。
比如说,你的声音可以透露环境的信息。当你说话的时候,AI可以预测出你所在房间的大小,房间是否有窗户,墙体是什么材质的。
如果你受到胁迫,AI也能分析出来。你无法改变你的肌肉运动速度、声道惯性、肺容量、骨骼结构,而这所有的一切都会影响到语音,一旦你说话的语气、习惯、呼吸与往常不同,AI就能借此分析你的心理状态:恐惧、快乐、兴奋等等。
更不可思议的是,AI还可以根据当地电网的电压波动,判断出打电话的人的物理位置,以及是一天当中什么时间段打出的电话。
凭借语音算法,Singh成功帮海岸警卫队分析出了来电者的信息:一名35至40岁的白人男性,身高5英尺10英寸(约1.78米)至6英尺(1.83米),体重190磅(约172.4斤),具有东海岸或东南海岸口音。
借此,警卫队快速准确地锁定了罪犯,被抓到的罪犯在审讯过程中,所提供的信息和语音算法判断的结果高度吻合。
现在这名罪犯很快就要面临庭审。AI技术的引入,对于那些总是爱报假警的人来说是个坏消息。要知道,在美国报假警触犯了联邦法律,处罚很重,最高可判监禁六年,罚款25000美元。
语音AI诊疗帕金森
AI技术的发展速度都是指数级别的,在帮助美国海岸警卫队后,人们很快发现了这项技术的新应用。
帕金森病是一种常见的、年龄相关性的神经退行性疾病,药物治疗是主要的治疗方法,可以改善运动症状,但对帕金森病的许多其他症状意义不大,同时药物一般都有副作用。
近些年来,大量研究者提出了各种非侵入性的方式来检测帕金森病的早期症状。后来发现几乎所有的帕金森患者由于并发症引起的声带损失,都患有不同程度的语言障碍。在患病早期,语言障碍的程度不高,人耳很难察觉,但语音分析算法却能轻易分辨,将来有望成为帮助诊断帕金森病等特定疾病的指标。
随着研究人员向计算机提供越来越多的数据(声音剪辑),数学模型随着时间的推移而更为精确。目前,大约60%的分析是由计算机完成的, 其余的是由人类科学家完成的。 但是,Singh认为未来的AI语音分析能够通过声音生成一个全息图像,所有的人物信息都会立体地呈现出来,因此她称之为“超人的能力”。
不过,现在他们还需要更努力,才能让大众接受音频分析得到的结果。目前,大家对音频分析依然存在很多质疑,所以音频无法作为可靠的证据。“现在,就像是1987年美国首个因DNA定罪的审判时期一样,经过时间的检验,声音也会成为独一无二的决定性证据。”
百度研究院新增两大实验室三位AI大牛加盟
美国时间1月18日,百度研究院在硅谷召开全员大会,宣布设立商业智能实验室(Business Intelligence Lab,BIL)和机器人与自动驾驶实验室(Robotics and Autonomous Driving Lab,RAL),同时三位人工智能领域科学家Kenneth Ward Church、浣军、熊辉加盟百度研究院。
其中,商业智能实验室将聚焦用于新兴数据密集型应用的高效数据分析技术;而机器人与自动驾驶实验室则重点关注机器人技术,尤其是在自动驾驶领域夯实百度无人驾驶基础技术。
新加盟的科学家中,Kenneth Ward Church曾在IBM、微软、AT&T等实验室任职,是自然语言处理领域的专家;浣军是大数据专家,曾担任堪萨斯大学计算机科学教授;熊辉是罗格斯大学教授,其研究聚焦数据工程。
菜鸟进军无人驾驶卡车领域:在北京杭州招人
1月22日,知情人士透露,阿里投资的菜鸟网络正在进行无人驾驶大卡车的相关测试。在阿里巴巴公开的招聘网站上看到,菜鸟招聘无人驾驶方向的人才超过 30 人。职位包括:无人驾驶视觉系统研发专家、无人驾驶 SLAM 与导航算法专家、无人驾驶系统平台研发工程师/专家等,工作地点在北京和杭州。
据悉,菜鸟网络自 2016 年 9 月左右便发布了首款无人配送机器人。这种机器人定位在小区,速度不快,但从技术上来讲,其实就是无人驾驶技术。2017 年双 11 之后,菜鸟网络发布了该无人配送机器人的升级版,同时又发布了一款新的更大的无人配送机器人基普拉斯,与第一代机器人相比,这一款机器人更大速度更快,从结构上来看,也已经是车辆结构。