改进的说话人语音分割与聚类算法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:nimadebiri
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人的语音分割与聚类是研究把一段包含多人语音的音频切分,标出各语音段对应的说话人,以获知“何人在何时说话”的技术,是语音信号处理技术走向实用化的重要环节,具有重要的理论意义与实际研究价值。近年来,语音分割与聚类算法取得了越来越大的进展,但也存在诸多问题,包括语音中包含各种各样的噪声、一般说话人数不定且缺少先验信息、部分算法的准确率还有待提高等。如何有效解决以上问题,是当前的热点研究方向,也是本文的主要研究内容。本文针对双门限端点检测分割算法、自组织神经网络聚类算法以及k-means语音聚类算法的缺陷,对其进行改进,并应用于会议录音上,取得了较好的效果。主要工作及创新如下:首先,对说话人语音分割与聚类技术的发展现状进行了综述,阐述其基本步骤,并叙述了预处理、特征提取、语音分割和聚类的基础知识。其次,针对传统的双门限端点检测分割算法抗噪性差、检测精确性低的不足,对其改进,把短时平均过零率特征替换为更优的频谱质心特征,对特征曲线进行中值滤波平滑处理,并给出了一种门限选取算法,该算法通过统计特征序列直方图的局部极大值来选取门限值。实验结果表明,此算法增强了检测的抗噪性,提升了检测精确性,并且能检测出多段语音,更适应说话人语音分割技术的要求。之后,针对k-means算法需提前给出聚类数目而且受初始聚类中心的选择影响较大的缺陷,以及自组织神经网络算法收敛慢且不能提供精确聚类信息的缺陷,设计了基于自组织神经网络的改进k-means说话人聚类算法,该算法用训练后的网络中竞争层神经元的获胜情况来预判类别数,并以网络训练后的权值作为k-means算法的初始聚类中心,再进行k-means说话人聚类。实验结果表明,此算法有效地提高了聚类准确率,并且同时弥补了 k-means算法与自组织神经网络算法的缺陷。最后,对本文所做的工作进行了总结,并指出有待进一步研究的方向。
其他文献
本文研究了 Al-5Ti-B变质剂、热处理及轧制变形对Zn-15Al合金组织性能的影响,通过金相组织观察、XRD分析、扫描电镜观察及EDS能谱分析、拉伸实验等,研究了细化温度、细化时间及变质剂添加量对合金组织性能的影响,探索出Al-5Ti-B对Zn-1 5Al合金的最佳变质方案,并分析了 Al-5Ti-B对Zn-15Al合金的细化机理。此外,对变质Zn-15Al合金进行了球化退火处理,对球化退火前
薄带连铸作为材料冶金工业的前沿技术,受到各大工业国的重视,尤其在当前全球范围内展开的关于控制碳排放量的背景下,钢铁作为高耗能的传统行业,转型升级已经是必然趋势。薄带连铸作为一种低耗能,高效率的生产方式,在过去几十年已经得到长足发展。在薄带连铸过程中,凝固壳与铸轧辊之间的界面传热影响着薄带的成形、质量,有着重要的影响,对于薄带连铸过程中的界面热流及凝固过程的研究是非常重要的。通过有限差分数值分析法对
节镍奥氏体不锈钢是作为300系列不锈钢的替代品开发出来的,目的是减少对镍的依赖。节镍型奥氏体不锈钢相对于常规奥氏体不锈钢,它更经济实惠,可以应用于一般锅具,卫浴等制品,在弱腐蚀条件下可以替代常规奥氏体不锈钢,如替代部分SUS304品种。近年来,该类不锈钢以其优良的耐腐蚀性能和机械加工性能、低廉的生产成本,受到更多的用户和生产厂的追捧,所以节镍型不锈钢的牌号和产量呈每年逐步提升。节镍奥氏体不锈钢在冷
近几年,智能家居设备越来越流行,反应了人们对生活品质的要求越来越高,与人们家居生活密切相关的家电行业需要寻求新的技术突破来满足市场的要求。课题以校企合作项目中电热水器用户行为预测作为家电智能化研究的切入点,以用户日常使用电热水器的历史行为数据作为依据,采用马尔可夫链模型和机器学习算法对用户行为进行预测,从而能够根据预测结果对以电热水器为代表的智能家电设备进行预决策性控制,提升用户体验的同时减少能源
单分子磁体是一种能够在低温下表现出缓慢弛豫现象的分子基磁性材料,这种现象与磁化量子隧穿机制相结合,为使用单一自旋制备高密度存储材料和量子计算设备拓宽了思路。因而单分子磁体的制备与磁学性质的研究成为近年来研究的热点。单核心TbPc2单分子磁体具有的磁各向异性能垒远大于其他单分子磁体。然而,由于磁化量子隧穿效应的影响,TbPc2具有非常小的剩余磁化强度和矫顽力,这限制了 TbPc2在实际应用领域的发展
原有的基于FPGA的实验教学系统采用模型的设计方法,利用MATLAB/RTW工具箱实现Simulink模型到工程的转换。利用Simulink提供的绝大部分模块在Simulink完成控制器搭建及仿真,将搭建好的控制器放置到设计的用于实际控制的Simulink模型指定位置。这种实验教学方法不利于学生学习掌握嵌入式编程和算法的编写。为了取得更好教学和实验效果,提高教学质量,使学生能够更好学习理论知识和实
钠离子电池由于资源丰富以及与锂相似的物理化学特性被视为替代锂离子电池的主要候选者。在过去的几十年里我们已经见证了钠离子电池负极材料的巨大发展,目前负极材料具有相当高的容量。然而,与负极材料相对应的金属氧化物正极材料性能却要差得多(实际容量仅为100-150 mAh/g)。由于实际电池中的正极和负极材料容量通常是相互匹配的,所以在钠离子电池中并无法实现负极材料当前已经达到的高容量优势。解决这些问题最
氧化石墨烯(GO)因其表面和边缘具有大量含氧官能团,可稳定、均一地存在于水溶液中。以GO作为增强相,利用反向脉冲电沉积技术制备氧化石墨烯增强铜基复合材料,并研究其力学行为。本研究采用改进的Hummers法制备氧化石墨烯,并将制备好的不同质量的GO掺入铜电镀液中,通过反向脉冲沉积法制备出GO/Cu复合材料。实验中采用SEM、TEM、EBSD、XRD和FTIR等对GO及GO/Cu复合材料的形貌、成分以
视觉伺服是近些年来逐渐发展起来的机器人研究领域的热点学科,吸引了越来越多的学者的研究。视觉伺服是一门交叉性的混合学科,涉及到了大量的其他学科内容。基于图像的视觉伺服控制方法是视觉伺服控制的关键组成成分之一,并且由于其无需进行复杂的二维到三维的重建,而是通过利用相机获取的无需进行任何处理的像素信息设计相应算法使得机器人工作,是相关领域研究的重点。本论文着重于对基于图像的视觉伺服的相关算法、模型等做了
镁质干式(振动)料具有周转快、施工方便、热效率高及抗渣侵蚀性强等优点,是目前应用广泛的中间包工作衬用耐火材料。但镁质干式料的使用也存在因孔隙率高、高温强度低而导致的抗渗透性和抗冲刷能力差等问题,严重影响中间包使用寿命及钢液洁净度,不适应耐火材料“更长寿、无污染”的发展趋势。针对这一问题,本研究从烧结强化的角度出发,通过研究Fe添加对干式料显微结构和性能的影响规律,形成以下主要结论:(1)氧化性气氛