音乐检测与生成的神经网络方法

来源 :四川大学 | 被引量 : 0次 | 上传用户:pankerong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机科学融合音乐学并推动音乐学自动化智能化发展催生了两个大的研究方向:音乐信息检索和音乐生成。其中,音乐检测是音乐信息检索领域的一项关键任务,它聚焦于研究如何从音频中检测出音乐事件及发生的位置;音乐生成是人工智能在艺术创作方面的一项探索,它关注于研究能让计算机自动进行音乐创作的算法。随着数字音乐数量的与日俱增,神经网络方法善于学习海量数据以及具备强大建模能力的特点使其成为近年来音乐检测和音乐生成的主流方法。主流的音乐检测神经网络方法通常先将问题转换为类似图像分类或序列标注的方式然后采用卷积神经网络或循环神经网络等模型来求解,然而现有的神经网络方法在解决音乐检测任务时忽略了音乐相对响度估计子任务并且忽略了音乐数据内在时序性。主流的音乐生成神经网络方法通常先将音乐表示成类图像或类语言的数据形式然后采用变分自编码器或Transformer等模型来建模,然而现有的音乐生成神经网络方法尚未很好地解决钢琴卷表示的音乐数据带来的离散不可微问题和可控音乐生成任务中的控制域和生成乐器种类仍然有限等问题。本文针对以上问题展开研究,取得的创新研究成果和主要贡献包括:(1)提出了针对音乐检测与音乐相对响度估计联合任务的层级约束迭代神经网络方法,解决了联合任务中对时序性和层级性建模的缺失问题,显著提高了音乐检测与音乐相对响度估计在分段级和事件级评估上的性能表现。现有的音乐检测工作中往往忽略了音乐相对响度估计这一子任务,因而本文重点研究音乐检测和音乐相对响度估计联合任务。然而现有的解决联合任务的神经网络方法忽略了对时序关系和层级关系进行建模。本文将联合任务重新定义和构造为层级事件检测与定位问题,并提出层级约束迭代网络用以解决该问题。通过在公开数据集OpenBMAT上进行多种实验,本文证明了所提出的层级约束迭代网络在分段级和事件级评价指标上均能够表现出较优的性能。(2)提出了基于二元正则化耦合隐变量模型的神经网络方法,解决了流行音乐音轨内和音轨间的分布建模问题,此外也解决了使用钢琴卷表示的符号音乐数据带来的离散不可微问题,在定量评价和人工评价上都取得较优的性能。流行音乐是当今热度最高受众最广的音乐类型,因而研究针对流行音乐的生成具有一定的应用价值。然而流行音乐通常包含多个音轨,这使得流行音乐的生成具有一定的挑战性。此外,在使用神经网络方法处理音乐数据之前,一种通用的做法是将音乐表示成类图像数据的形式。区别于连续的图像数据,使用类图像表示方式(即钢琴卷表示)的音乐数据是离散的且是二值化的,这会导致出现不可微分的问题。本文提出一种新的神经网络方法,即带二元正则化的耦合隐变量模型,用以解决上述问题。针对流行音乐的即兴伴奏生成任务,通过在Lakh钢琴卷数据集上进行实验,本文验证了该模型与一些现有模型相比在定量评价和人工评价上表现出较优的性能。(3)提出了基于Transformer的可控多乐器音乐生成神经网络方法,拓展了控制域的种类和范围,同时解决了现有工作不能生成任意数量的乐器种类的问题,在定量评价、可视化评价和人工评价方面均表现出较优的性能。现有的音乐生成研究只能控制生成样本具有固定的某个特征或类型,如和弦或风格。此外这些研究方法所能够建模的乐器种类也较为有限。为解决这两个问题,本文提出一个针对多乐器复调音乐的可控音乐生成神经网络模型。通过在所收集的MIDICN数据集上进行多组实验,本文验证了所提出模型的有效性,实验结果表明该模型在负对数似然值、困惑度、音乐性衡量、域相似度分析和人工评价这几个方面都取得了较好的表现。
其他文献
背景:慢性肾脏疾病(Chronic kidney disease,CKD)的发病率和死亡率高,使之成为世界性公共卫生问题,给国家造成了沉重的负担。CKD患者肾功能持续恶化将发展为终末期肾病(end-stage renal disease,ESRD),并接受终身替代治疗。目前对CKD进展没有针对性治疗,患者的生存和生活均受影响。免疫功能的异常,特别是细胞免疫缺陷在CKD进展中的作用不容忽视,这一现象
学位
乳腺癌是多数国家女性人群中发病率最高的癌症,研究表明,乳腺癌的早期准确诊断并及时治疗能够大大降低其致死率。乳腺X光检查是全世界范围内使用最广泛的早期乳腺癌筛查手段之一,也是唯一被证明可以显著降低乳腺癌带致死率的医学影像学方法。使用乳腺X光进行乳腺癌筛查时,会产生一系列乳腺X光图像数据,放射医师根据这些图像数据进行良恶性诊断,而诊断结果与医生个体经验水平有着直接联系。随着计算机技术的发展,计算机辅助
新世纪以来,随着“中非合作论坛机制”的建立,中非战略合作伙伴关系的确立,尤其是中非命运共同体的构建,中国对非洲援助秉承“义利相兼”的理念,充分彰显“平等、互助、互惠、精准、包容”的援助特征,对非洲援助的力度和深度都呈现出前所未有的提升,在国际对非洲援助领域发挥着举足轻重的作用。面对国际风云变幻,中国坚守和平与发展的时代主旋律,构建中非命运共同体将成为新世纪中国对非洲援助的首要目标和行动方向。虽然国
图像和文本是当今两种主要的信息载体,其中图像具有生动形象的特点,而文本概括性强,能够以简练的形式传递信息。图像字幕生成旨在让计算机自动地使用文本对给定的图像加以描述,其在图像检索、人机对话、盲人导航、自动安防等应用中被广泛使用。本文基于深度学习对图像字幕自动生成进行研究,具体的工作包括基于全局注意力机制的图像字幕生成、基于词性先验的图像字幕生成、基于对偶学习的图像字幕生成、基于层次主题网络的故事生
人脸识别作为人工智能的典型应用之一,具有重要的实用价值和研究意义。近年来,基于深度卷积神经网络的人脸识别技术取得了突飞猛进的发展,但主要集中于二维可见光人脸识别的研究,在真实无约束场景中仍然面临许多挑战和难题。随着人脸识别应用的推广和传感器技术的发展,异质人脸识别需求应势而生且日益增大。但异质人脸图像间显著的外观变化,使现有人脸识别系统面临识别精度大幅下降的问题。本文对异质人脸识别问题及其解决方案
心音信号和心电信号作为常见的医疗时序数据,具有易采集、价格低廉、无创无损及重复性好等特点,在医学临床中被广泛应用于疾病预防、初步诊断及病情的长期监测。对这些医学时序信号进行准确处理与分析,可更好地协助医生把握病情,制定疾病预防和治疗方案,从而提升全社会的整体健康水平。经过几十年的发展,传统信号处理方法对心音信号和心电信号的分析与应用已取得长足进步,但处理该类时序数据时仍然面临诸多挑战。尤其是在面对
现代图形学应用的飞速发展对超大规模复杂场景绘制、高分辨率显示呈现、高真实感用户体验以及实时绘制效率提出了愈加严峻的挑战。尽管计算机硬件性能在近年来得到了极大提高,但仍然无法满足越来越高的需求。作为并行计算在图形学领域的具体运用,并行图形绘制系统成为解决上述问题的有效方案之一。但是多节点间的绘制任务分配一直是制约并行图形绘制系统整体性能的瓶颈,因此,研究如何实现绘制负载平衡成为影响最终绘制效果的关键
由于互联网多媒体技术的快速发展、智能手机的广泛使用以及社交网络的不断普及,人们能够随时随地在互联网上分享有趣的内容,使得互联网上不同模态的多媒体数据(如文本,图像和视频等)呈现爆炸性增长、海量性集聚的特点。如此大规模的数据标志着多媒体大数据时代的到来,同时给基于多模态学习的研究和应用带来了新的机遇和挑战。随着以深度神经网络为代表的人工智能技术的迅猛发展,如何基于深度神经网络模拟人类大脑的认知和理解
深度学习又称为深度神经网络,是人工神经网络的一种,是一种通过堆叠多层非线性变换方法对高复杂性数据进行建模的算法。在图像处理领域,深度学习主要是指深度卷积神经网络(Deep Convolutional Neural Networks,简称DCNN)。人工神经网络的概念自上个世纪四五十年代被提出以来,几经发展和沉寂,在本世纪初又开启新一轮发展热潮,展现出强大的生命力。图像目标检测的目的是判断图像中是否