【摘 要】
:
语音关键词检测是人机交互中的重要技术,它关注语音流中一小部分区域,通常作为设备的智能启动接口,只有当用户发出特定的指令或词汇,对应的模块才会被唤醒然后进行相应处理,这使得设备能够以低功耗的待机状态长时间运行。近年来,随着深度学习的快速发展,语音关键词检测的性能获得了较大提升,但是,语音关键词检测任务仍然面临众多挑战,如样本不平衡问题、样本使用效率低、以及训练慢等。本文针对这些问题展开研究,具体贡献
论文部分内容阅读
语音关键词检测是人机交互中的重要技术,它关注语音流中一小部分区域,通常作为设备的智能启动接口,只有当用户发出特定的指令或词汇,对应的模块才会被唤醒然后进行相应处理,这使得设备能够以低功耗的待机状态长时间运行。近年来,随着深度学习的快速发展,语音关键词检测的性能获得了较大提升,但是,语音关键词检测任务仍然面临众多挑战,如样本不平衡问题、样本使用效率低、以及训练慢等。本文针对这些问题展开研究,具体贡献如下:1.基于样本错误频次加权损失函数,降低样本不平衡的影响。语音关键词检测的正样本收集成本较高,而为了减少虚警的产生,需要数量众多且类型丰富的负样本参与训练,所以语音关键词检测模型的训练不可避免地面临样本不平衡问题。在训练阶段,大量容易训练的负样本将占主体地位,“淹没”正样本的贡献,导致次优模型。为了解决这一问题,本文基于样本重要性加权方法,提出了一种由样本检测错误频次指导的加权损失函数。它利用训练过程中样本产生检测错误的次数来评估样本的重要性,自动削弱“容易样本”(其中大多数是负样本)的贡献,使训练集中在那些需要更多关注的样本上。该方法可以在有效利用所有可用数据情况下自然地缓解样本不平衡问题。基于公开数据集AISHELL-1和AISHELL-2的多组关键词评估实验表明,当关键词虚警为0.5次/小时,本文所提方法使漏检率相对降低了16%—38%。2.基于类不确定性的高效训练样本使用方法,提高深度学习的学习效率。在深度学习的常规训练模式中,所有样本以均等机会全程参与训练而不管其样本分布如何,这并不是一个有效的过程,因为在不同的训练阶段,训练样本的“学习难度”对模型而言是变化的。大量已经可以被模型轻易识别的“容易样本”不加限制地参与训练,造成计算资源的巨大浪费。为了提升训练的效率,和人类学习过程中“只有在‘学习区’中学习才可以更快获得成长”的“认知三区”理念类似,本文提出了模型训练过程中着重使用“学习区”样本的有效学习机制。通过反馈式地基于模型输出信息构建样本参与训练的概率,该方法着重使用决策边界附近且未训练好的样本,同时在模型训练中后期去除大量对于当前模型来说相对没有学习意义的样本,即使用样本子集进行训练,提高训练针对性。在谷歌命令词数据集上进行的多个语音关键词检测实验表明,该方法使训练时间减少了59.47%—64.86%,而模型准确率仅相对下降1%左右。基于CIFAR-10数据集的图像分类任务实验进一步验证了算法的有效性,在准确率仅相对降低0.85%情况下,有效学习使训练时间减少了65.07%。
其他文献
物联网、区块链、人工智能等新兴技术的发展对边缘数据中心服务器的运算性能提出更高要求,而服务器散热问题是制约其性能提升的关键因素,因此本文面向边缘数据中心服务器散热,设计了一种一体式间接液冷系统,提高服务器的散热性能及边缘算力部署灵活性,并通过实验和数值仿真方法研究其性能变化规律。主要研究内容如下:(1)通过热设计、结构设计及部件选型参考的指导,制造了分别应用安装于服务器内部及外部的两套一体式间接液
中国是一个拥有悠久历史的文明古国,孕育着各具特色的古代城市,具有丰富内涵的城市营建史。古代城市各具特色,与当地民俗文化特色相融合,相地严谨、结构清晰、具有成熟的形式美学,这些营建历史、营建特征是值得去重新梳理和研究的。茶陵,作为一个湘东边际的山地小城,早在六千多年以前就有人类的活动,自汉高祖五年(前202年)置县,共经历了两千多年的发展,于2013年被评为湖南省省级历史文化古城之一。目前,有关其古
由于人口老龄化加深且跌倒会对老年人造成严重的健康问题,智能跌倒检测系统的开发受到越来越多的关注。应用跌倒防护装置实施准确而快速的跌倒检测及跌倒保护能够大幅降低跌倒损伤,对易跌倒人群的人身安全具有重要的意义。本文针对穿戴式跌倒防护装置展开研究,在分析国内外跌倒检测技术研究现状的基础上,提出了基于机器学习的跌倒检测方法,并开发了跌倒检测控制器及其物联网系统。本研究主要工作如下:(1)首先针对跌倒检测问
随着文化产业在世界各国的重视下不断发展,艺术品市场作为文化产业的重要组成部分,也出现了空前的繁荣发展时期。现阶段我国艺术品市场的发展处于关键阶段,艺术品的定价问题受到广泛关注。然而我国艺术品的价值评估过分依赖专家的主观判断,难以得到一个客观合理的价格;同时艺术品市场存在严重的信息不对称的问题,导致艺术品价格常常严重偏离艺术品价值,使艺术品市场在发展上形成一定的阻碍。因此,为了推动国内绘画艺术品市场
在全球经济一体化的背景下,各国企业为了开拓更大的国际市场,纷纷以多种形式实施跨国经营。中国作为一个发展中大国,拥有丰富的物质原料和相对低廉的劳动力,众多外国企业决定在中国进行投资,就形成了外资企业。外资企业在经营发展中难以避免中外企业文化间的差异,在企业管理理念、管理制度、行为方式等方面存在文化冲突,进而产生一系列经营管理问题。企业如何解决文化差异难题并克服文化冲突?学界的共识是跨文化融合是根本性
相控阵可根据需要,改变高增益波束方向或形成特定波束形状,对毫米波通信(包括5G/6G)、雷达、成像和探测等系统都有重要价值。相控阵最大扫描角是相控阵天线最重要的指标之一,它决定了天线的覆盖扫描范围。由于毫米波频段天线加工工艺的限制,设计宽角扫描相控阵较为困难,故需要引入新的设计方法来提高相控阵扫描能力。本文首先在使用平面电路工艺的前提下,基于波导缝隙天线结构,分别通过介质谐振腔及“弯折形”缝隙等结
随着科技的不断进步,人工照明技术也得以迅速发展,为照明条件带来了巨大的改变。但近视的发病率也随之迅速增加,尤为严重的是,中小学生的近视率持续上升,学生近视已成为关系民族和国家未来的重大问题。教室作为学生主要学习场所,其光环境质量的好坏会对学生的视力健康、学习效率和生理节律等产生影响。教室光线主要来源于人工照明和天然采光,天然光有着人工照明不可比拟的优势。然而我国教室多采用侧窗采光,易造成照度不均和
无线体域网(Wireless Body Area Networks,WBANs)在医疗健康系统中发挥重要作用,其通常由若干个传感器和一个协调器构成。由于WBAN中传感器能量和服务要求等限制,提高数据传输的可靠性尤为重要。然而,信号会因人体形态阻挡、组织吸收等因素产生各种衰落,这会降低数据传输的可靠性。介质接入控制(Medium Access Control,MAC)协议作为通信协议的组成部分,对网
教育建筑的建设与发展与城市化以及现代化密不可分,人们对教育建筑的综合性能要求在不断提高。学生一天中在校时间较长,且有绝大部分时间均在教室内度过,教室的天然采光与热舒适环境与学生的成长发育、身心健康、学习效率等均有着密切的联系,因此对教室的天然采光及热舒适进行评价与设计探究有及其重大的意义。本篇首先阐述教育建筑天然采光的发展历史,重点介绍了“露天教室(学校)”的发展缘起、过程以及对后续教育建筑的设计
元宝枫油(ATSO)作为一种中国的新资源食品,由于富含4%~6%的神经酸(顺-15-二十四碳烯酸,NA),在防治阿尔兹海默病等神经退化类疾病方面具有巨大潜力,因此,近年来受到广大消费者追捧。然而,元宝枫油含有90%以上的不饱和脂肪酸对其储藏环境提出了更高的要求,另外,长链不饱和脂肪酸的生物可及性也限制了元宝枫油更好地发挥其营养功效。油脂凝胶可以通过凝胶因子及其结构化机制的选择从而调控液态油的质地和