基于特征融合的深度语谱特征的鼾声分类方法

来源 :天津大学 | 被引量 : 0次 | 上传用户:zy657592895zy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
阻塞性睡眠呼吸暂停(OSA)是一种常见的睡眠障碍,是心血管疾病的危险因素之一。打鼾是阻塞性睡眠呼吸暂停综合征患者的典型症状。上气道阻塞和振动的位置,决定了打鼾和阻塞性睡眠呼吸暂停综合征的手术方案的选择。为了寻找一种能够替代药物诱导睡眠内窥镜检查(DISE)的非侵入式的方法,实现对打鼾时上气道阻塞和振动位置的准确定位,本文提出了一种基于特征融合的深度语谱特征的鼾声分类方法。本文使用的数据是Munich-Passau鼾声语料库(MPSSC)中阻塞性睡眠呼吸暂停患者在DISE检查期间的被采集的鼾声音频信号,由于该语料库已经对数据进行了预处理,包括对有声段与静音段的切割、分段;对鼾声段与有声段的识别;对鼾声段在打鼾时上气道阻塞和振动位置的标记。语料库中的数据为219名受试者的828个鼾声音频和对应的阻塞和振动位置的标记,每个音频的时长在0.73秒到2.75秒之间,分为训练集、开发集、测试集三个子集。本文对每一段鼾声分别进行短时傅里叶变换(STFT)和常数Q变换(CQT),得到基于STFT的语谱图和基于CQT的语谱图。本文通过将得到的两种语谱图分别输入预训练的Alex Net深度卷积神经网络,提取深度语谱特征。本文尝试使用多种方法对提取后的基于STFT的深度语谱特征和基于CQT的深度语谱特征进行特征融合,并且采用竞争粒子群优化(CSO)算法对融合后的特征进行特征选择。在分类器方面,由于特征维度较高,同时样本量较少,本文选取了支持向量机(SVM)分类器,该分类器对OSA患者在打鼾时上气道阻塞与振动位置的识别,与INTERSPEECH 2017计算旁语言学挑战鼾声子挑战中的最好结果相比,在开发集上的未加权平均召回率(UAR)从50.6%提高到了53.9%,测试集上的UAR从64.2%提高到了67.5%。
其他文献
对印刷电路板(Printed Circuit Board,PCB)进行贴装作业之前,需由专门的质量检测人员对相应印刷电路图中的电子器件进行一一核对,核对的内容主要为电子器件类型、大小、方位等信息,重点是核算清楚带有极性的电子器件类型。采用人工的核对方式对于那些使用电子器件较少的PCB而言是较为可靠的,但是随着相关技术的进步,印刷电路板上可贴装的元件数量呈倍数增长,过去的人工核对方式不仅需要消耗大量
随着电子商务的发展,人们迈入了信息过载的时代。面对日趋严重的过载数据现象,推荐方法是一个很好的解决方案。它通过收集用户历史记录,挖掘用户喜好,生成相应的推荐信息。推荐系统不仅帮助用户从海量数据中发现他们感兴趣的新内容,如图书,音像,餐厅,音乐等。同时帮助运营商准确挖掘出符合用户兴趣的信息。比如京东、淘宝的商品推荐,美团的餐厅推荐,抖音、快手的短视频推荐等等。在推荐系统中,实现用户偏好的精准发现是实
品牌建设是我国由大变强的重要工作,习近平总书记关于“三个转变”的讲话、国务院办公厅《关于发挥品牌引领作用推动供需结构升级的意见》文件、国家质检总局《质量品牌提升“十三五”规划》,确定了国家的品牌战略,天津市制定的《天津品牌指数及评价方法》是天津市品牌建设工作的重要组成部分。本文基于知识图谱和问答系统技术,构建了品牌指数知识图谱,研究和开发了“品牌指数问答系统”,系统能够回答品牌指数平台相关的问题。
自然语言处理的发展离不开语言模型的发展,神经网络的出现为语言模型的研究和应用发展提供了强大动力,基于神经网络的语言模型也层出不群。然而,神经网络语言模型的研究过程中也存在一些问题,需要研究和解决。面对神经网络语言模型越做越大,参数的调整是一个重大的难题,找出一个可以度量网络表达能力的理论分析,让参数的调整变得容易变得十分重要。其中对于模型的压缩,减少模型参数量也成为一个重要的研究热点。本文主要针对
互联网和多媒体技术的快速发展使得存储、传播和复制音频文件更加容易和便捷,但同时也带来了侵犯版权和音频信息被篡改等问题。音频水印技术是解决侵权行为和信息被篡改问题的有效技术手段。音频水印技术利用音频信号自身的冗余特性和人类听觉系统的掩蔽效应,在不影响音频信号感知质量的前提下,将水印图像嵌入到载体音频中,以达到对音频版权的保护和信息完整性鉴定的目的。音频水印算法中水印的嵌入位置和嵌入强度对水印算法的不
混沌系统因具有伪随机性、不确定性、不可预测和对控制参数与初始条件的极端敏感性等特点,比较适合用于图像数据信息的加密。在图像数据信息加密中引用混沌理论的良好特征,对于图像数据的保护能够起到非常重要的作用,具有较强的实际意义。本文提出了一种改进的Logistic混沌映射,并结合梯度分解、Arnold变换、剪切波变换、矢量合成和Gyrator光学变换,提出了两种图像加密新方法。本文的具体研究内容如下:(
随着科学技术与信息产业的迅速发展,全球的信息总量正在呈爆发式增长,现有的存储设备将难以满足现阶段信息存储的需求。DNA分子作为一种存储密度高、安全稳定的信息存储介质,有望满足未来信息存储的需求。DNA合成技术作为DNA信息存储的基础层技术,开展高保真高通量DNA合成技术及仪器的相关研究对于信息存储具有重要意义。传统亚磷酰胺DNA化学合成方法,错误率较高、易产生化学污染,而酶促DNA合成在合成精准度
光照是决定水下图像质量的关键因素,水下环境因为受到水质、水深、物体遮挡等因素的影响,光照会严重不足,使得获取的水下图像存在颜色失真、亮度和对比度低、清晰度差等问题,这些问题给水下图像的实际应用带来极大的困难。本文结合图像增强和深度学习理论,针对这些问题开展研究,主要工作如下:提出一种基于白平衡和相对全变分的低光照水下图像增强算法。根据光线在水中选择性衰减的特性,首先对水下图像进行全局光照补偿以提高
近年来,随着互联网带宽的增加和计算机处理能力的提高,多媒体数据,特别是视频数据在世界范围内呈增长趋势。拥有大量的视频数据还需要有效地存储、汇总、索引和检索这些数据的技术。近年来,由于体育视频的商业性,人们越来越重视对其进行总结、索引和检索的技术。本文提出了一个将板球视频分为四个项目之一的框架,即Bowled Out、captured Behind、Catch Out和LBW Out。该框架使用每个
大脑分割对于疾病诊断和治疗的脑结构评估是个关重技术。本研究对脑分割进行了大量的研究。然而,先前的研究并没有考虑从大脑图像的背景中分离出实际的脑像素。不进行这种分离可能造成以下的結果:(a)扭曲大脑分割模型,(b)增加建模性能的开销。在这篇论文中,我们使用三维全卷积神经网络来改善脑分割的性能模特儿们婴儿和成人数据集,以及多实例丢失方法,用于从背景中分离实际的大脑像素,并应用Gabor滤波器组和K均值