基于内容的音频分类与识别

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:bingyuziqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、网络技术和通讯技术的不断发展,音频、图像和视频等多媒体数据约占互联网信息高速公路上所传送的数据的70%,其中声音媒体是除视觉媒体外最重要的媒体形式,各行各业对声音媒体的使用越来越广泛。因此,基于内容的音频处理和分类已成为多媒体处理、信息检索及数据管理研究领域的重要课题之一。本文在认真分析和总结前人研究成果的基础上,重点解决了音频结构分析、音频信号预处理、特征分析和提取、音频聚类、基于SVM的音频分类及基于BP网络的音频分类等问题。   本文的工作主要包括以下内容:   (1)对原始的音频信号进行基本处理,包括对音频信号进行分帧、加窗和端点检测等预处理工作。   (2)分析了语音、音乐和噪声的声学特性,抽取了各类音频的时域及频域特征的相关特征,其中包括短时过零率、平均短时能量、频谱能量、频谱质心、美尔倒谱系数等,并对部分帧特征值进行了统计,得出了高过零率比例、低短时能量比率、静音帧比率、平滑基音帧比率等特征。   (3)设计并实现了多种分类算法。本文分析了支持向量机的数学模型,设计了用于音频分类的支持向量机,并对样本库中的语音、音乐、带音乐的语音及噪音等音频数据进行了分类实验。本文还研究了另一种常用的模式分类器BP神经网络,分析了BP网络的训练及识别过程,并设计了具有一个隐含层的三层前馈网络,重点对音频样本库中语音、音乐和噪声做了分类实验。   (4)实现了有关汉语普通话声调识别的实验。分析了汉语的声调特征,提取了能体现声调特性的相应特征,采用支持向量机及BP神经网络作为分类器,对连续汉语语音做了声调识别实验,并对结果进行了比较。   实验表明,本文提取的音频特征基本有效,分类效果良好。随着后期研究的深入,所取得的成果将具有一定的应用价值。
其他文献
随着工业制造企业生产水平的提高,设备的种类和功能越来越繁多,自动化程度也越来越高,以机器设备为主体进行生产的工业制造企业设备管理水平将直接影响到企业生产发展。随着企业
近年来频发的自然灾害对电力系统的影响引发了社会对电网容灾抗灾能力的关注。因此从整体预防的角度出发,在电网规划阶段采用差异化规划的方法,提高部分骨干变电站和线路的设计标准及重视重要负荷的保供电对提高电网整体的坚强性和抗灾性、降低大停电事故及自然灾害对电网的破坏程度有着非常重要的意义。可信的负荷评估与预测是差异化规划的基础。本文提出了以负荷停电损失、成本补偿投资回报率、负荷节点中心接近度、专家评定等级
随着智能电网规模不断的扩大,维持系统安全所需的数据获取难度增加,对数据采集提出更高的要求。传统的数据采集与监控系统(Supervisory Control And Data Acquisition,SCADA)难以满足电网动态监控的要求,基于同步相量测量单元(Phasor Measurement Unit,PMU)的广域测量系统(Wide Area Measurement System,WAMS)
学位
超市倒闭遍地,百货关门频频,在中国经济进入新常态和电商的冲击下,实体商业遭遇前所未有的危机,购物中心也不例外。目前,中国有购物中心近4000家,是美国的3倍之多。从现在到2
超导磁体储能系统(Superconducting Magnets Energy Storage System, SMES)中的变流器,是连接超导储能线圈和电网的桥梁,是SMES应用的核心部件之一。SMES通过变流器能够独立快速地与电网交换有功功率,在解决现有电力系统动态稳定性问题,提高电网电能质量和供电可靠性上有着不可替代的作用。本文提出了一种可用于SMES变流器的监控系统设计方法。基于微控制器(
伺服系统是数控系统的重要组成部分,其性能优劣直接决定了数控系统的定位精度和静态、动态性能,从而直接影响机床的加工精度和产品的质量。交流伺服系统以其稳定、快速、高精度
双级矩阵变换器(TSMC)具有优良的输入输出性能、能量传输可逆、结构紧凑、换流易于实现、钳位电路简单等特点,其在航空、汽车、工业、发电等领域是一种具有发展潜力的新一代功率变换器。这些领域对功率变换器的可靠性提出了较高的要求。而对TSMC进行的在线故障诊断是一种提高系统可靠性的有效措施。本文主要内容是TSMC的故障诊断方法研究。本文主要内容如下:首先,本文介绍了矩阵变换器故障诊断方法的研究背景与意义
感应电动机作为工业企业里应用最广泛的拖动机构,当其发生故障后直接影响生产线的正常运行,而轴承故障是电机故障中发生机率最高的,因此本文主要研究感应电动机轴承故障的检测方法。目前基于电流特征分析法(Motor Current Signature Analysis, MCSA)诊断电机故障得到了比较广泛的关注,该方法将电机的常见故障与定子电流的频率特征量建立了函数关系,通过对特征频率的识别,可以检测出电
伴随着世界各国对煤矿行业的安全问题的关注,特别是对大型煤矿电机的状态监测技术,正呈现出迅速发展的强劲势头。在煤炭行业里,电动机主要应用于驱动破碎机、水泵、螺旋分级筛、筛分机、刮板机、振动筛以及皮带机等大型设备机上。三相大型旋转机械在我们的大型企业应用当中起着不可估量的贡献。工业中使用的大电机的工频为50Hz,它们的正常运转保证了正常生产的进行,保证了各个生产环节的安全。因此,对煤矿业来说,安装更加