声音事件识别FPGA设计与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:helloMrFat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音包含发声物体的相关信息,这些信息被称为声音事件。对声音事件进行分类识别是感知环境的重要手段。随着人工智能算法的兴起,声音事件识别得到了飞速的发展。在工程应用研究中,现场可编程门阵列(Field Programmable Gate Array,FPGA)以其结构可重构、开发周期短、运行功耗低等特点,成为算法加速器研究的首选平台。因此,研究如何在FPGA上实现声音事件识别算法具有重要的应用价值和现实意义。本文采用基于卷积神经网络(Convolutional Neural Network,CNN)的声音事件识别算法实现了对ESC-10环境声音数据集的十种典型环境声音的分类识别。该算法首先用快速傅里叶变换(Fast Fourier Transform,FFT)将特定长度的声音片段处理成声谱图,然后用CNN对声谱图进行图像分类识别,从而实现声音事件识别。针对算法中的FFT部分,本文在FPGA上进行了设计实现与优化。如果直接采用原始的蝶形计算和复数计算实现FFT,会消耗大量的计算资源。本文先通过采用改进的蝶形计算,实现了计算资源的复用,节省了计算资源。然后,本文通过采用CORDIC算法,只需要加法和移位计算就实现了FFT中的复数乘法和复数取模计算,省去了功耗较高且资源消耗较大的乘法计算。同时,由于使用低位宽数据进行计算会发生数据溢出导致计算错误,而使用高位宽数据会增加功耗和资源消耗。因此,本文通过采用Welch1方法,使得FFT使用低位宽数据也能正确计算。针对算法中的CNN部分,本文在FPGA上也进行了设计实现与优化。相较于图像和视频等高数据吞吐率的应用场景,声音事件识别领域的数据吞吐率需求很低。因此,将传统的高度并行计算的CNN实现方法应用在声音事件识别算法中,不光功耗高,同时将造成算力和计算资源的浪费。基于此,本文通过将CNN中的大量并行计算结构改为串行结构,在满足性能需求和保持高能效比的前提下,在FPGA上实现了低功耗和低资源消耗的CNN计算。同时,与FFT计算一样,CNN计算使用低位宽数据也会发生数据溢出而导致计算错误。本文通过实现一种进位计算器,使得CNN使用低位宽数据进行计算也不会发生数据溢出。完成了FFT和CNN的设计实现与优化后,本文在FPGA上实现了声音事件识别系统,并使用ESC-10环境声音数据集对系统进行了测试。测试结果表明,在FPGA上实现的声音事件识别系统的识别准确率达到了85.37%。
其他文献
随着人类社会化进程加快,大量的污染物伴随着工农业的发展被排放到环境中,还可能通过各种途径残留在食物中,造成的环境和食品安全问题威胁着人们的健康。因此,对各种复杂基质样品中污染物的测定就成为人们关注的重点。然而,由于样品基质复杂,分析物的含量往往较低,在仪器检测前进行分离、净化、提取和富集的样品预处理技术至关重要,可提高分析检测的灵敏度和准确性。采用生物相容性高的绿色萃取溶剂或选择性高的萃取材料开发
学位
二肽因其特殊功能广泛应用于食品、医药、保健品和化妆品等领域。化学合成法合成二肽,反应步骤繁琐、环境不友好,因此近些年利用生物酶催化法生产二肽的研究逐渐兴起。L-氨基酸连接酶(L-amino acid ligase,EC 6.3.2)能以氨基酸直接作为底物合成二肽,但该反应是ATP依赖型,需要外源补充ATP。本研究以大肠杆菌作为宿主,通过构建L-氨基酸连接酶偶联聚磷酸激酶表达系统,无需体外补充ATP
学位
随着环境破坏和化石能源短缺问题的日益严重,燃料乙醇作为一种可再生的清洁能源受到了广泛关注。在燃料乙醇生产过程中,酵母菌的抗逆性尤其对高浓度乙醇和高温的抵抗能力制约着发酵成本的降低,成为了当前的研究热点。本研究发现稻壳有助于提高酵母菌的抗逆性尤其对高浓度乙醇和高温的抵抗能力,其作用机制为酵母成团吸附在稻壳表面,形成了生物膜。本研究还分别用改进的Logistic模型和LuedekingPiret模型描
学位
微弧氧化(MAO)过程中合金元素及其氧化物与电解质的交互作用对涂层的结构和成分起着决定性作用。通过调节电解液种类或浓度可以对MAO涂层结构及成分进行调控。目前,由于MAO过程电解质与合金元素及氧化物交互作用机理不够明确,涂层的定量调控较为困难,更倾向于定性调控涂层。本文选取不同含Al量的Ti-Al二元合金,在0.1M Na2B4O7电解液中改变KOH浓度进行微弧氧化,考察合金成分和电解液成分对二元
学位
在污染问题日趋严重的大背景下,人们对于自己生活和工作的环境质量有了更高的要求,气体检测系统因此受到了广泛的关注。金属氧化物半导体(Metal Oxide Semiconductor,MOS)材料得益于其成本低、灵敏度高的特点成为了制备检测系统核心——气体传感器的热门候选。当前使用MOS传感器进行的气体检测需要将大量时间浪费在对于检测没有价值的解吸附过程上,这极大限制了MOS传感器在实际生活中的应用
学位
脑影像模板是基于大量脑影像构建生成的数字化图谱,代表了人群中大脑解剖结构和影像学特征,为脑影像分析和病情诊断提供了参考标准。目前的脑模板多为基于高加索人种的核磁共振影像(Magnetic Resonance Imaging,MRI)制作,有丰富的结构信息,却缺乏代谢信息,而且诸多研究表明不同人种之间脑的结构和功能存在明显的差异。正电子发射断层扫描(Positron Emission Tomogra
学位
呼吸是人类的基本生理特征,例如:吸入的氧气浓度会影响人体健康,呼出的氢气浓度可以反映人体肠胃健康状况。随着大健康产业的兴起,通过检测吸气和呼气来进行健康管理和疾病预防成为发展趋势。目前商用的氧气和氢气传感器均为电化学传感器,具有体积大、功耗高、寿命短、价格昂贵的缺点,而且易于产生电火花,存在安全隐患。相比之下,半导体气体传感器有易集成、稳定性好、灵敏度高、寿命长的优点,但通常也需要加热至150-5
学位
贵金属纳米颗粒介导光热治疗,是将纳米颗粒输送到肿瘤所在区域,利用贵金属纳米颗粒的局域表面等离子体共振(Localized Surface Plasmon Resonance,LSPR)特性,对特定频率的入射光产生强烈吸收,并将光能转化为热能,进而杀死肿瘤细胞的一种医学治疗手段,具有精准高效的优势,应用前景广阔。目前,纳米颗粒介导光热治疗已经应用于临床实验,但因治疗效果受多因素影响,存在着难以直接选
学位
视觉是人类感知世界最为重要的方式,占据人类接受外界信息的80%以上,并且能够影响人们的认知、决策、情感甚至潜意识活动。因此当视觉出现损伤或病变后,会极大的影响人们的日常生活。如今很多基于神经电刺激的视觉治疗和康复方法正在获得越来越多的研究和应用,但其需要诱发的视网膜和视神经响应模式还不明确,与视觉信息对应的编码机制和模式仍不完全清楚,这在一定程度上制约了电刺激方法在视觉康复领域的进一步应用。另一方
学位
在PET/CT(Positron Emission Tomography/Computed Tomography,正电子发射型断层扫描/计算机断层扫描)影像的计算机辅助分析过程中,人体多器官检测是关键的先行步骤。现有卷积神经网络(Convolutional Neural Network,CNN)检测算法缺乏对器官间相对解剖学位置关系的利用,也未能借助PET与CT的双模态互补信息,因此检测精度有限。
学位