基于嵌入式平台的乐谱图像识别系统

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:intaaac
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了能够自动、智能地读取纸质乐谱并演奏对应的音乐,提高音乐教学的效率,同时推动深度学习技术在光学乐谱识别的应用,本文主要开发了一套基于嵌入式平台的乐谱图像识别系统,研究并实现了基于深度学习技术的乐谱图像识别方法,实现乐谱图像识别的自动化与智能化。基于嵌入式平台的乐谱图像识别系统包括嵌入式平台以及乐谱图像识别算法两部分。嵌入式平台主要为纸质乐谱数字化提供软件运行环境与硬件支撑,乐谱图像识别算法基于深度学习技术实现乐谱图像的数字化。嵌入式平台是以NVIDIA JetsonTX2开发板作为核心硬件,配合Logitech C270摄像头、深度学习服务器、显示器以及扬声器,构成图像识别系统的硬件设施。在此基础上,搭建基于Linux系统与Caffe深度学习框架的系统软件环境。在系统输入端,使用OpenCv开源视觉库来调用摄像头,并对采集到的数字乐谱图像进行尺寸变换、亮度变换等处理。然后基于深度学习的核心算法对数字图像进行识别,并生成音频文件。在系统输出端,通过timidity解码识别音频文件,对识别结果进行播放。乐谱图像识别算法包括谱线定位、音符检测和发音基元分析三个步骤。首先使用霍夫变换技术进行谱线检测,然后融合FAST角点检测、图像金字塔、级联卷积神经网络等图像处理技术进行音符检测,再使用图像分割技术对音符进行发音基元分割,对分割后的基元进行分析与组合,重构独立音符信息。本论文的创新点如下:(1)针对印刷体音符建立了不同光照环境、不同清晰度条件的音符数据集,根据大量国内民歌与国外名曲中的音符样本,建立了乐谱图像中的乐谱行、独立音符与发音基元三级数据库,能够支持深度学习算法模型的训练和测试。(2)为了改善传统光学乐谱识别技术在图像数据适应性、鲁棒性方面的不足与局限,将传统图像处理方法与深度学习中的卷积神经网络相结合,提高了乐谱图像识别的效果,准确率达到84.6%,召回率达到94.8%。(3)通过嵌入式平台将乐谱图像识别系统的各个功能模块进行集成与优化,设计简洁的人机交互界面进行操作,实现了纸质乐谱到电子音频的转化环节的集成化、自动化与智能化。
其他文献
环丙沙星是近年来国内外研制开发的一种广谱型抗菌新药,在其生产过程产生大量有机废水。环丙沙星废水中含有抗生素成品及生产医药中间体等高浓度有机物,抑菌能力大,难于生物
采用合成酯类油邻苯二甲酸二辛酯作为基础油合成复合锂基润滑脂,并对其进行各项性能指标分析,探究其综合性能及应用。制备的润滑脂具有很高的滴点和胶体安定性及较好的低温性能
在网络发展的这个时代中,其技术已经被使用到了各个行业中。在网络平台上获取各种优质的资源,然后运用到教学中已经比较常见。高职英语在教学中,英语教师要充分地使用网络平
一个宗教或民族可能会不成比例地存在或生活在特定的社会中,如果这种不成比例伴有经常的物质和政治剥夺,而且集中在带有同质性社会身份认同的特定群体内,那么由此造成的群体
近日,在香港举行的“苏港现代服务业合作推介会”上,为贯彻落实《国家中医药管理局与香港特别行政区政府食物及卫生局关于中医药领域的合作协议》,密切江苏省和香港在中医药领域
本文从解读美国FDA植物药指南制修订情况以及最新版本指南的内容特点入手,分析了指南体现的监管思路及相关植物药审批实例对我国中药新药研发的借鉴和启示意义。
行政诉讼法第30条规定:“代理诉讼的律师,可以依照规定查阅本案有关材料,可以向有关组织和公民调查、收集证据”。这是行政诉讼法赋予律师在代理被告的诉讼中享有的调查、收
泪道阻塞或狭窄是眼科常见病,可发生在泪小管、泪小管同泪囊结合部、鼻泪管及鼻泪管出口处;除鼻泪管阻塞引起泪囊炎可施行泪囊鼻腔吻合术外,其他部位阻塞由于管道细小,目前无
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
政府诚信是社会诚信的关键,是构建和谐社会的必然要求。然而,和谐社会构建中政府诚信建设面临执政理念偏差、诚信信念缺失、信任达成困难、失信空间巨大等挑战。为此,必须通