论文部分内容阅读
1绪论
1.1研究背景及意义
在互联网信息技术高速发展的时代,随着人们的物质基础的不断提高,愈多的人开始追求更多的精神需求。音乐,就是一种人类所需要满足的一种精神需求。音乐的曲风分为很多类型,有流行音乐、古典音樂、民歌、金属乐等,现代的音乐市场一直被流行音乐、古典音乐与其他音乐类型给瓜分,且其中流行音乐的占比尤为重要,极难撼动。
但20世纪中后期因电子合成器技术的兴起,欧洲人将电子机械技术与音乐结合起来形成了新兴的电子音乐产业。电子音乐因其独特的音乐性与其文化融合的多重性迅速受到人们推崇。至此,在之后的几十年里电子音乐迅速发展,逐渐在欧洲,美洲兴起,其音乐类别逐渐占领了音乐行业的主要市场,并形成成熟的产业链。在21世纪初,电子音乐流入中国,为这历史悠久的国度增添了新的音乐色彩。因此面对现状,需对国内当前流行的电子音乐类别进行分析,并利用多种算法将流行的电子音乐类别推荐给听众,推广电子音乐。
1.2 研究现状
研究电子音乐不单单只是一个音乐类型,而是研究一个地域、国家、宗教、种族的文化。电子音乐许多是由纯音乐构成,通过音乐的纯粹透露出来的文化的魅力更让人记住与回味。
电子音乐跟传统音乐不同,电子音乐的作品主要由电子音乐制作人和电子演出者(DJ)或人声演唱(vocal)组成。研究其市场时,需要对制作人和DJ进行区别分析。在这里,本次研究内容主要针对制作人的作品类别进行分析,作品类别在一定程度上能够代表电子音乐文化的发展趋势。
现如今,电子音乐风格种类繁多,虽没有专业机构对此进行分类,但其音乐风格大体可归为EDM(电子舞曲音乐)、Electro(电子合成器音乐)、IDM(只能舞曲音乐)、Glitch(电子脉冲音乐)、Jungle(丛林音乐)、Drum&Bass(鼓打贝斯音乐)、Bass Music(贝斯音乐)、Breakbeat(破碎节拍音乐)、Trap(陷阱音乐)、Experimental Music(实验电子音乐)十个音乐风格,十种音乐风格下面还有300多种不同曲风的电子音乐类别,这些风格各异的音乐类别组成了当今多样化的电子音乐市场。
虽然国外电子音乐发早在20世纪末就已经十分成熟,但中国电子音乐在上世纪80年代末才逐渐传入中国。但尽管如此,卢旸[1][1]认为中国电子音乐起步于20世纪80年代后期,但经过三十多年发展,如今已呈现出一派生机盎然的蓬勃之势。据中国首份电音市场研究报告《2019中国电音市场洞察报告》[2]中阐述,全球电子音乐产业年产值预计2021年将达到89亿美元,年复合增长率为3.8%,中国电子音乐用户规模预计2021年将达到5.3亿人,年复合增长率为21.5%,中国电子音乐节数量预计2021年将达到300+场,年复合增长率为59.5%,中国电子音乐线上播放量预计2021年将达到4.2千亿次,年复合增长率为21.3%。由此可知,电子音乐市场在音乐市场的份额正在飞速地逐年增长。在海量的电子音乐中,受众很难精确定位自己喜爱的乐曲,因此有必要对用户进行画像,根据用户特征,利用个性化推荐算法,为受众进行个性化推荐,为受众提供更为精准和周到的服务。大众对热门电子音乐的决策偏好和喜爱度,作为此电子音乐类别为未来电子音乐发展的流行趋势。
1.3 研究内容及优势
本文研究的主要内容是对在音乐网站上热门电子音乐排行榜与热门电子音乐的类别数据集进行爬虫。用selenium webdriver web应用程序工具对带有URL参数的网页进行爬虫,用excel和mysql储存数据,把爬虫后的获取地杂乱数据进行数据预处理,对需要预处理地数据进行数据筛选及特征值的选择,并将处理后的数据分成两类数据,一部分为电子音乐排行榜数据,另一部分为电子音乐类别榜单及歌曲数据。将排行榜数据用compile()等函数将歌曲评论数进行建模分析,并用python的matplotlib包来作图,对字段进行进一步数据分析得出结果。同时将音乐类别榜单数据进行建模分析,用个性化推荐算法先利用歌曲评论中的用户id,生成20多万个用户,先获得初始化数据,通过用户名获得音乐列表,再计算两个用户之间的皮尔逊相关系数,证明其相关性,再计算公共的音乐评分,利用算法计算用户的距离,获得最临近的用户。通过遍历整个数据集,计算两个用户的相似度,并将最相似的N个用户进行降序排序输出。进行基于用户的协同过滤后,通过recommend()算法将最相近的N个用户推荐的用户音乐列表添加至推荐列表中,并对推荐的结果根据音乐评分进行降序排序,并最终输出结果体现K个相似用户的推荐音乐类别与歌曲。
本文优势主要体现在:利用selenium webdriver对URL地址进行参数爬虫;对歌曲评论数进行字段数据分析,统计出最受欢迎的歌曲及制作人;对榜单数据中的用户id随机生成,并证明N个用户的相似度,选取最相似的N个用户输出;利用基于用户的协同过滤,将最多最相近的N个用户个性化推荐给其他K个用户的推荐算法;利用了音乐数据其字段数少的特点,用最为合理有效的推荐算法来证明其分析的可信度,来达到预测的结果。通过对推荐结果的分析,进行适合的市场营销手段,通过此手段更好的利用推荐算法和营销将更好的体验推荐给用户以及电子音乐制作人们。
1.4 论文整体结构
本文共分为七个部分:
第一部分为绪论,论述电子音乐兴起的背景,阐述电子音乐兴起的原因及其行业现状,进一步提出本文研究的问题及意义。
第二部分为数据爬取,通过selenium webdriver工具对QQ音乐排行榜数据爬取并爬取作品名,作品播放时间,制作人或歌手,作品评论数,作品风格字段,在对网易云音乐歌单进行数据爬取并爬取作品专辑编号,作品专辑名,作品专辑网页URL地址,制作人或歌手,作品编号,作品名,作品网页URL地址,作品评论数,电子音乐类别,电子音乐风格类别,作品标签等字段名从而获得未处理的数据。 第三部分为数据预处理,对爬取后的数据进行描述,清洗,筛选,呈现和变换。
第四部分为电子音乐排行榜数据分析,通过对每周排行榜数据的评论数进行建模分析,从而得出近一年用户最喜爱的音乐类型及其歌手。
第五部分为基于用户的协同过滤推荐方法进行个性化推荐模型的构建,通过对电子音乐类别榜单的用户数据进行过滤及分类,选择基于用户对电子音乐歌单类别相似性,用皮尔逊相关系数对相关性验证,并构建用户相似度推荐模型,从而研究用户之间的相关性,来为接下来对用户的推荐模型做准备,建模后,将推荐后的结果通过评分降序排序后,通过对得分的结果进行模型分析,利用ROC曲线等指标来验证模型的准确性,通过其对未来的行业市场及受众预测进行分析。
第七部分为市场化营销,通过对建模分析后的结果,对此结果结合电子音乐市场,对于未来的行业的市场化营销发展进行可行性研究及有效的营销手段。
2数据爬取
音乐数据对于其他行业数据集来说,获取途径少,获取难度高,因为许多国外网站例如VFine MUSIC与Beatport等,其为了保护知识产权,进行了反爬虫手段、复杂的JavaScript渲染及境外IP封锁等原因,使得无法顺利获取数据。因此本次数据选取了国内两大音乐网站:网易云音乐与QQ音乐爬虫。
2.1 分析网页结构
在从网站中获取数据之前,需要分析网页结构。分析网页结构主要目的为了查看网页组成元素,HTML源代码,查看服务器之间的交互内容,服务器返回内容为后来的数据获取做好准备,通过分析网页结构,将获取数据所需要的信息进行汇总,为接下来的爬虫进行分析的论证基础。
通过Firefox浏览器进入QQ音乐电音排行榜页面,进入审查网页元素模式。如图2-1所示。
由图中显示可看出此网页为动态网页,并可以看到此网站的URL地址,同时点击网络中的任意方法可知道此网络请求方法为get方法。如图2-2所示。
根据图中所示,网站请求方法为get方法,通过此方法可很好地将网站中的网站源码给成功获取下来。
同理,打开网易云音乐,并使用与上述同样的方法将网站的基本结构进行分析并对网站请求方法进行获取,并得到URL地址。
根据图中所示,网易云音乐中电子音乐歌单网页的网站请求方法也为post方法,因此爬虫方法与QQ音乐数据爬虫方法不同。
因此,查询网易云音乐网页的XHR,通过浏览器与服务器之间相互发送请求来进一步分析网页结构,调用例如request等诸多类来进行网页爬虫的工作。
2.2 数据爬取
打开QQ音乐电子音乐排行榜数据榜单通过调用selenium webdriver来驱动浏览器中的程序来进行删除cookie。同时查询网页的XHR,把网页的真实URL与歌曲的地址源代码获取。随后将每个一年内所有排行榜的信息利用list给全部存储下来,通过range函数遍历近两年电音排行榜的所有榜单,并用selenium获取数据,并定位歌曲名,歌手,歌曲编号等元素,并利用循环算法将range函数中近两年排行榜中的所有歌曲的定位元素全部获取,最后将这些获取到的数据存储到Excel中形成表格。将获取到的QQ音乐电子音乐排行榜数据榜单如图2-4所示
同样打开网易云音乐电子音乐歌单网页,初始化网页地址。同时设置代理,防止本地IP地址被封。但与获取QQ音乐数据不同的是,获取网易云音乐数据需要request 表头http地址,这个地址可以通过在ntesdoor日志中找到,复制过来后即可使用。之后通过使用http.cookiejar.CookieJar()方法创建CookieJar对象实现cookie的获取与存储,并使用HTTPCookieProcessor创建cookie处理器,并以其为参数构建opener对象。在获取数据之前先创建代理IP对象,定制一个opener对象,并将opener安装为全局,设置多个参数。设置这些参数可以有效把opener变成url代理opener,并且可以有效地使用cookie。这时网页内部会有些加密协议看不到,所以之后要获取encText,也就是params用来分析网页的AES加密。然后通过获取encSeckey,并用json方法post,self, url, params, encSecKey四个参数。最后对post编码进行转换,试发出请求并得到相应,即可将相应后中的内容用read读取出来获得网页代码,设置网页编码为UTF-8,防止乱码,返回获得的网页内容。
接下来将所有热门的榜单信息利用list全部存储下来,用selenium获取数据,并获取榜单类别,榜单号,歌曲url地址等字段,并利用循环算法将所有不同榜单的数据都获取到。链接好MySQL数据库,并获取游标,执行sql语句命令并最后关闭游标。将所有数据存储在MySQL数据库下,同时将此数据存储到Excel里方便查看及保存。获取到的网易云音乐电子音乐歌单数据如图2-5、图2-6所示。
3.数据预处理
在数据预处理阶段,对爬取的数据,统计每个字段数据的缺失数量,对数据类型转换,查看异常值等操作,从而选择最后合适的变量参与分析及建模
3.1 數据说明
首先对获取到的两年QQ音乐电子音乐排行榜数据进行说明。此数据集的数据共有1080条,且可以分为5个字段,分别为作品名,作品播放时间,制作人或歌手,作品评论数,作品风格。电子音乐排行榜数据信息表如表3-1所示。
其次,对获取到的网易云音乐电子音乐歌单数据进行说明。此数据集的数据一共由10576条,且可以分为11个字段,分别为作品专辑编号,作品专辑名,作品专辑网页URL地址,制作人或歌手,作品编号,作品名,作品网页URL地址,作品评论数,电子音乐类别,电子音乐风格类别,作品标签。电子音乐歌单数据信息表如表3-2所示。 3.2 数据缺失值
通过对数据进行筛选处理,从两个数据集中选取数据缺失值并进行处理,检查数据缺失的部分,并用sapply函数计算缺失值个数,最后统计出来的缺失值个数为0
从结果中得出,该两个数据集中的每一列数据都没有缺失值,因此不需要进行确实填补。
3.3 数据清理及数据冗余
两个数据集中所有字段数据中,有些数据存在重复的现象出现,因本次研究内容的特殊性,重复出现的数据也应即为有效数据,并且作为筛选后的数据,在接下来的数据分析进一步处理。
当爬取数据完毕时,此时数据文件中存在15个冗余数据,此数据的数据格式与所需格式不符且出现乱码,作为其冗余数据进行清理。此后对其他11641条数据进行筛选,均未获得其他冗余数据和缺失数据,获取的较为工整且整洁的数据,清洗后的数据情况如下表3-3所示。
4.电子音乐排行榜数据分析
经过网页数据爬取和数据清理后,需要对爬取到的电子音乐排行榜歌曲进行数据分析。通过对每个歌曲的所有字段进行分析,发现评论数可一定程度代表电音作品的热门程度。因为数据中近两年内电子音乐排行榜中有许多重复的作品,且QQ音乐的排行榜只能获取到排行榜中的前20数据,因此排行榜中的排名不能代表大部分作品对于电音市场的影响。综上所述,能够清晰的体现排行榜作品的影响力,其作品的评论数可作为其评判的标准之一。
因此,本次研究将排行榜数据进行以评论数为建模的数据分析,通过将数据以图形的形式直觀地体现作品之间的关系,可以更好地反应出作品在市场占比率。同时对于评论数地数量,可以纵向地把整个排行榜作品类别,利用评论数给表达出来。
在用评论数进行建模分析之前,首先对于排行榜作品中的字段,应进行特征挖掘,然后将所有数据以制作人,制作时间作为字段,进行数据分析,再以评论数进行建模分析。
于是我们根据制作人、制作时间的的两个字段,制作合理的图表,表现制作人与作品评论间、热门评论和制作时间的关系。
4.1 数据分析
依据筛选出的样本数据,利用python的matplotlib绘图功能,对排行榜中所有制作人信息,利用排序算法和统计算法将制作人出现的次数,即制作人最受欢迎图统计出来,如下图4-1所示
如图所示,图中横坐标代表电子音乐制作人在所有榜单作品中出现的次数,纵坐标代表制作人的姓名,如图所示进入排名的制作人有很多,根据柱状图表分析可得出最受欢迎的电子音乐制作人为Martin Garrix,并且人气高的电子音乐制作人在所有制作人中的占比很高,同时作为电子音乐制作人的数量也可见一斑,可以侧面显示出了近两年电子音乐的蓬勃发展。同时Martin Garrix作为2016-2018年度百大DJ第一,2019-2020年度百大DJ前三名,Martin Garrix不仅在国外有着高的人气,在国内电子音乐的地位旁人也难以撼动。
根据制作人作品的发布时间,音乐作品的发布时间,如下图4-2所示。
如图所示,饼图中的1,2,3,4代表一年当中的月份,图中的百分比代表着其月份中作品发布占所有月份中作品发布的百分比,通过其百分比可以代表音乐制作人在发布作品间的规律。
由上图分析得出,根据matplotlib数学模型,建立一个以每个月发布时间占比占所有作品发布月份的饼状图,通过饼状图中显示出制作作品的发布时间大概集中在2-3月份。有科学数据显示,在被称为电子音乐发展元年2018的2-3月,全国在2-3月份的演出有400多场,其大小音乐节有进200场。春节档,人们利用电音节热闹激情的氛围而烘托其过节洋溢的节日气息。在年前年末的电子音乐节,许多的音乐制作人选择将1-2月作为一个黄金的作曲时间,从而迎来2月份的盛大音乐节。因此,在2、3、4月份的时间就是制作人发布作品的时期,年初的作品在经过2月的音乐节过后,热门作品就会随着其畅销曲目,在接下来的几个月时间内将其作品以各大音乐现场展现。
跟据上述对人气制作人以及作品发布时间的分析,经过构筑matplotlib数学模型,将所有电子音乐排行榜中的作品,以出现次数为x轴,以作品风格为y轴建立其直方图如图4-3所示。
通过对上图的分析可得出每周排行榜前20名作品的风格炯异,不同的电子音乐风格竟然高达63种,其中Midtempo为制作人,被大众喜欢的电子音乐风格, progressive House(EDM)和Jungle音乐也比较受大众及电子音乐制作人的青睐。而在排行榜中最受欢迎的Midtempo也属于EDM风格的电子音乐类别作品。而根据图中所示在一些偏实验电子音乐风格的如Acid House,Tech House,比较不受中国电子音乐听众喜爱,而在作为电子音乐文化的古董艺术Dub音乐,在中国听众的认可度为最低。
根据调查得出,中国电子音乐的发展相对西方国家比较缓慢2010年开始在国内发展,在2016年以后电子音乐才逐渐被中国主流音乐所接受,并在中国举行比较大型的如丛林电音节,三亚国际音乐节,VAC电音节,并且国外许多知名电音节,例如EDC等国际电音节也逐渐的发现了国内巨大的商业市场,于2018年在中国上海、珠海等地举办EDC CHINA,并取得不俗成绩。但自从2018年以来,国外电子音乐作品大多以House、Trance这些EDM电子音乐类别为主,这些音乐的市场份额占总市场的七成以上。传到国内后,这些电子音乐类别与风格就比较容易让新的听众接受与包容,因此在排行榜数据中,此类电子音乐类型的类别就比较受欢迎。
4.2 建模分析
通过上述的数据分析可得出,电子音乐排行榜数据通过图表给我们带来的直观信息,传递出电子音乐和音乐制作人相关信息。可从上述分析中,数据并不能给我们带来一些对于听众对作品的反馈,更多地是对市场对电子音乐制作人进行的分析。为了更好的研究用户对于电子音乐排行榜作品的理解与看法,本次研究将以用户评论数作为基础,对评论数进行建模分析,通过建立评论数与音乐制作人之间关系的数学模型对用户在不同作品下评论的数量进行分析,通过数量可在一定程度上分析出此作品的热度及话题度。通过比较,可将所有排行榜中的作品评论数进行降序排列,通过排列得出最有热度的作品,其作品某种程度上可代表用户对于电音市场作品的期待值与关注度,从而分析听众对于电音市场的受众情况。 首先,通过设置参数解决下Windows系统下容易出现的乱码问题,其次,通过调取每个用户在一个或多个作品的评论数来观察其变化。通过循环语句将每个语句中的每个作品中的评论数进行循环,这样可以提高其运算效率。构造其二维图中,作品与评论数的相关关系。通过正则表达式将两者之间的关系以对数函数的模型给显示出来最后得到其模型图,如图4-4所示。
由图中的信息可看到横坐标的对数表示评论数,纵坐标代表所有作品中评论数出现的次数以及数量。通过评论数进行建模分析可得出最后最受欢迎制作人为K-391。K-391,中文名为肯尼斯,是来自挪威的音乐制作人,其音乐作品的音乐风格为House风格,在Youtube上已有30多万的粉丝,通过与上述数据的对比分析可得出,最受欢迎的音乐制作人第二的Alan Walker与此音乐制作人有多次合作,而Alan Walker在2018年参加国内首档电子音乐节目《即刻电音》后成为国内电子音乐听众比较喜欢的制作人,从而也慢慢认识了K-391这名富有才华的音乐制作人。并在2019-2020年中其音乐作品受到国内电子音乐听众爱听House曲风风格的影响,慢慢在国内听众中占据了主要位置。
5.基于用户的协同过滤进行个性化推荐的模型构建及分析
通过对QQ音乐电子音乐排行榜数据分析,得出了大众对于电子音乐的曲风和在对电子音乐受众中不活跃的人对于电子音乐的兴趣类別,以及听众最喜爱的电子音乐制作人等方面。可是跟据研究数据与国外音乐平台数据对比可知,国外电子音乐听众与国内听众的兴趣类别有着极大不同如图5-1所示。
如上图所示为国际电子音乐峰会上beatport对电子音乐兴趣类别分析图的统计数据。上图为国外最大的电子音乐网站beatport在2015年-2019年对每一季度电子音乐用户群体进行的用户数据分析,由上图所示,Techno与Tech House为最受电子音乐听众欢迎的曲风与类别,与QQ音乐电子音乐排行榜得出的兴趣结果差异明显。上述对QQ音乐电子音乐排行榜用户的调查显示出Techno与Tech House音乐类别,其占据市场的受欢迎份额仅占4%左右,与国外市场差异明显,同时国外听众对于音乐的类别中的House风格也比QQ音乐电子音乐听众人数占比要多。
于是本次研究将有着多年浓厚电子音乐受众基础群体的网易云音乐作为对照组,对听众群体进行细化,对网易云音乐里的电子音乐用户群体进行类别细化,从而研究在网易云音乐中电子音乐用户群体对于整个市场的变化。
因此在接下来的研究中,对用户的听众群体,应当有更为细致的研究,并对用户爱听的歌单进行统计并寻找用户歌单与用户群体间的关系,将用户的兴趣类别进行梳理,利用基于用户的协同过滤从进行个性化推荐的模型构建来分析国内电子音乐听众的兴趣导向,从而和国外听众进行对比,预测未来电子音乐市场的发展。
5.1 基于用户的协同过滤
首先明确建模步骤,先通过将获取到的电子音乐歌单数据的热门歌单,进行初始化处理。并建立以获取到的歌单中听众用户和歌曲的.json文件,并把歌曲id和信息以及用户id给记录下来;其次随即生成几十万个随机目标用户对作品进行评分;然后将获取用户找到和目标用户兴趣相似即评分相似的用户集合,并用皮尔逊的相关系数证明其两两用户间的相关性;再用欧式距离找到与当前用户最临近的用户,最终通过评分的相似,找到集合中的用户喜欢的电子音乐,且目标用户没有听说过的电子音乐类别推荐给用户。将推荐作品类别中取最终推荐的电子音乐作品推荐给用户。
于是根据步骤梳理网易云音乐的歌单,从中筛选出电子音乐歌单中的热门歌单,进行爬虫。获取初始化数据后,随机生成用户数据。通过每个歌单中用户评论中获得每个用户名,经过用户名获得其用户列表。并用用户信息和详细歌单作品id生成在.json文件中。在json文件中存储的数据相比其他数据交换格式更能方便于在服务器之间交换数据,且格式非常简单,调用数据也比较容易。随机生成几十万个目标用户并将用户id也储存在.json文件中方便调用。之后随机用getitems()算法获取歌单用户以及目标用户并进行调试处理。
调试完成后,通过两个用户的评分行为来计算用户行为的相似度。首先利用下图5-2公式来计算皮尔逊相关系数。
将歌单用户和目标用户数据格式的初始值设为{音乐,评分}的格式同时将
皮尔逊相关系数相关量系数值设置为:sumXY=0.0,n=0,sumX=0.0 sumY=0.0,
sumX2=0.0,sumY2=0.0,设置完变量后,计算其公共音乐的评分如图5-3所示。
上述循环语句可将两个用户之间的评分相关性将两个用户间的相关性给证明出来。通过皮尔逊相关系数可以很好的证明两个用户的线性相关性,其取值区间为[-1,1],大于0为正相关,小于0为负相关。将皮尔逊相关系数值为r,若|r|越大,线性相关性越强,|r|越小,线性相关性越小。利用r值的数值可以很好表述两两用户间的相关性强弱。
但通过皮尔逊相关系数只能表现两两用户的相关性,即便加了评分要素,也不能完全体现其相似性多少。
于是接下来的研究主要采用欧式距离算法来获取歌单用户临近用户的距离,获得最临近的用户。创建nearstUser()方法,并创建distances={}算法计算用户的相似度,并用neighbors=[]协同过滤用户并取最邻近的用户,并用此算法遍历整个数据集。其中用if neighbor != username and neighbor not in neighbors语句来保证每次过滤用户即为最临近的用户,并保持算法的严谨性。用distance语句将歌单用户与最为临近的随机用户计算两个用户的相似度,并将此语句循环进行。最后将最相似的N个用户进行排序处理,并得到最终的N个用户如图5-4所示 图中在得到排序好的N个用户后,可以为接下来得个性化推荐模型做准备,同时利用皮尔逊算法证明其相关性后使用此算法相比于直接余弦相似度算法而言好处在于,先对向量进行了中心化后在进行余弦相似度的计算,更好地能够处理用户的评分数据,对于稠密的用户数据其算法更能显示出其优越性。
5.2 构建个性化推荐模型
得到最终的N个用户后可构造recommend()方法,其方法里是即将被推荐的音乐。接着用待推荐的音乐推荐最相近的N个用户,把推荐的用户的音乐列表给创建出来。同时设立key()算法证明当前用户名是事先保密的。用创建好的推荐列表,将带推荐的音乐添加到推荐列表中,最终,将对推荐的结果按照音乐评分进行排序并输出最终推荐的音乐作品。
经过基于用户的协同过滤后,研究将歌单用户及目标用户通过皮尔逊相关系数,欧式距离算法,最后通过个性化推荐将歌单用户把N个用户的数据推荐给目标用户形成用户推荐列表,并用评分机制,将推荐列表中的作品经过降序处理将最终推荐列表推荐给目标用户。
5.3推荐模型分析
本次研究,通过将网易云音乐电子音乐歌单数据进行了基于用户的协同过滤进行个性化推荐的目标用户推荐作品列表分析,每次进行一次推荐算法目标用户就有三个与此相似度较高的用户推荐作品,每个高相似度用户对目标用户推荐18首电子音乐作品并评分,最终选取4.0分以上的作品推荐给目标用户。在三个用户中每个推荐用户的作品评分都有一定的阙值,用ROC曲线可以将3个推荐用户进行比较,选取ROC曲线越靠近左上角的推荐作品,模型的准确率就越高从而不仅做到验证此模型对于目标用户的推荐作品是否精准,还能够在3个推荐用户的作品中选取更适合目标用户的电子音乐作品,随着研究随机出现许多的作品列表,于是将结果中的随机两个目标用户进行部分表分析如下(令两个目标用户拟为甲,乙)
根据表5-2中三个推荐用户的最终推荐给目标用户甲的结果中可以得出评分在4.5与5.0的电子音乐作品中主要以House曲风和Trap曲风为主。而在4.0分的曲子则为trance风格的电子音乐作品,其余的推荐作品均在4.0分以下。
为了验证3个推荐用户中其中哪个用户最适宜目标用户甲的兴趣作品,且验证其模型的准确率的高低,本次研究通过SPSS分析工具来做出ROC曲线来证明其相关性。将不同的推荐用户即其推荐作品评分为一列,将分类列数据以横向作品评分尤其大于4的为1(有效个案数),反之为0(无效个案数).将输入后的数据如图5-5所示。
如上图所示,分类列中有效个案数与无效个案数相等,表名正实际状态的值不明。于是为了实验精确,将分类列数据为状态变量,三个推荐用户作品评分数据为检验变量,以特异性为横轴,敏感度为纵轴生成ROC曲线做出ROC曲线图,如图5-6所示。
通过ROC图原理可知,ROC曲线越靠近左上角,即相同条件下,特异性越低,敏感度越高的的模型,其模型的准确性就越高,比较三个推荐用户可知相比参考线User34772推荐用户曲线的点更接近与左上角,是分类错误最少的最好取值,其假正例与假反例总数最少,其评分中的作品最适合给目标用户甲推荐。
通过上表所示,可知目标最终推荐用户的音乐作品中其所有4.0分以上作品均为House与Trance音乐风格。
为了验证3个推荐用户中其中哪个用户最适宜目标用户乙的兴趣作品,且验证其模型的准确率的高低并与甲进行对照,本次研究通过SPSS分析工具来做出ROC曲线并计算其AUC来证明其相关性。将不同的推荐用户即其推荐作品评分为一列,将分类列数据以横向作品评分尤其大于4的为1(有效个案数),反之为0(无效个案数).将输入后的数据如图5-7所示。
由上图可知,目标用户乙的分类列数据中可得出其真正类率的大小為图5-8所示。
由上图可知,目标用户乙的真正类率为1/3,代表分类器预测的正类中实际占所有正实例的1/3,由此可做出ROC曲线如图5-9所示。
比较三个推荐用户可知相比参考线Use27506与User52075推荐用户曲线的点接近与左上角,是分类错误最少的最好取值,其假正例与假反例总数较少,为进一步确定谁是目标用户乙的最好推荐用户则需要计算AUC指标。其各曲线下的面积图如图5-10所示.
AUC指标代表正样本排在负样本前面的概率,即ROC曲线下面的面积即为AUC的值。如图所示User27506的区域面积大,即AUC指标大,即其假正例与假反例总数最少,其评分中的作品最适合给目标用户甲推荐。
(1)综合上面分析,可知此推荐模型得训练结果表明,通过推荐列表给目标用户推荐的电子音乐在一定程度上有一定的随机性。
(2)使用皮尔逊相关系数的好处可将不同的电子音乐的相似度在用户之间联系起来,可以将歌单用户与目标用户做一个很好的衔接作用。
(3)因为使用此推荐算法得出,在所有对目标用户推荐的电子音乐列表中House曲风和Trance曲风占比约为40%,与国外电子用户音乐人群得兴趣对比可知,网易云音乐用户喜爱的电子音乐类别与国际电子音乐用户得兴趣类别有一定的相似性,在某种程度上表达出网易云音乐电子音乐用户比QQ音乐电子音乐用户的子音乐文化与国际的流行曲风更为契合。
(4)通过此次研究,体现出在不同音乐群体中,用户对于电子音乐的兴趣类别与种类有很大不同,与音乐人群的音乐基础和音乐习惯有着不小的关系。
(5)通过此次研究,此次个性化推荐模型的准确率和推荐效率来说卓有成效。
5.4推荐模型的预测
通过本次研究,结合国外电子音乐网站可预测未来的电子用户市场的大概发展可知,电子音乐在几年后的发展占比占流行音乐的比重越来越大,统计如下图5-11所示。
如上图所示为国际电子音乐峰会上国外媒体对电子音乐站流行程度排行榜的统计数据,如图所示电子音乐在国际上的流行度仅次于pop音乐和rock音乐,并且电子音乐在中国将逐渐形成一个成熟稳定的音乐市场,同时通过推荐结果以及QQ电子音乐听众用户排行榜的结果来看,中国电子音乐用户群体的听众水平参差不齐,不同的群体对于电子音乐曲风与类别,甚至对于电子音乐的文化看法区别差异很大,因此对于未来国内电子音乐群体的发展将是一个漫长而艰巨的考验。 6.市场化营销
6.1营销背景
对于拓宽电子音乐市场,各行业的相关人士就必须考虑音乐市场的营销手段,好的市场营销手段可以在一定程度上影响其音乐种类在流行音乐市场中的地位。好的营销模式可以扩大其电子音乐文化在国际上的影响力,同时也能影响国内电子音乐文化的发展。
6.2传统数字营销
传统营销手法首先对于上述的研究结果可以在各音乐平台利用数字音乐的理念将个性化推荐结果中选取几个优秀的电子音乐类别进行UI交互设计,将电子音乐中的热门类别置顶到页面,供更多音乐用户了解并接触电子音乐。其次可以通过利用各类音乐平台的优势用数据分析将平台内的音乐资源推送给用户,统计平台内电子音乐爱好者的兴趣,定时地推送音乐节与电子音乐活动给他们,平台收取举办方和制作人一定的提成。
此营销方法对于进行基本数字音乐的宣传,确实能使电子音乐在短期内对行业会有帮助,但长期来看对电子音乐的发展并没有特别突出的贡献。同时根据此营销手段听众进入此音乐类别需要其深厚的音乐基础和音乐习惯。同时传统数字营销手段,电子音乐制作人的收益很低,据统计,电子音乐制作人占作品总收入为13.5%,甚至在某些平台,制作人的收入占比仅为5%。
6.3传统数字营销
而根据现代科技的发展,现如今对现代数字音樂有着新的诠释,通过这几年区块链技术的发展,可以通过加密技术将数字音乐制作成NFT产品。所谓NFT即是非同质化通证,是一种数字资产,通过区块链技术与密码学技术形成的代币通证,与比特币不同NFT产品具有不可分割的特点,同时区块链的技术能够让NFT产品具有保密性、唯一识别性等特点,此产品使区块链技术能够在金融领域以外的其他领域能够影响整个区块链生态系统乃至整个传统经济体系。
6.4现代数字营销
NFT,可以将电子音乐作品的音频或视频文件,甚至是专辑封面等图像文件,通过剪辑将其嵌入NFT中形成数字卡片。将其NFT卡片上传至区块链浏览器平台例如Flow平台中利用每个区块之间的链进行作品间的转递和售卖。当电子音乐用户进行交易时,可生成一个装满NFT的数字钱包,通过哈希算法生成的钱包的随机公钥和私钥可保证用户账户的绝对安全,当用户进行交易时,需填写对方交易的公钥地址及其标签,将其NFT通过其平台间的跨链或同平台的公链,在本区块内进行交易,同时付给平台燃料费,经过多个节点等待,最终成功交易。
NFT的制作者具有NFT作品的版权和著作权,每一次的交易与流通记录都能够被追溯,且生成NFT作品有其NFT编号,可以通过其编号证明其唯一识别性。NFT可支持线上交易并且支持法币交易,使其音乐作品能够方便快捷的进行支付。现如今,有许多的行业内的巨头挺进NFT市场,如行业龙头索尼音乐将与Flow合作开发音乐NFT平台,beatport开放数字交易并在未来开放NFT交易市场。同时,创作者每个NFT艺术品或者数字专辑得到的利润通常能够占到总利润的70%-80%左右,并且大大的减少了中间中介平台的手续费和制作成本。
福建江夏学院 350100
1.1研究背景及意义
在互联网信息技术高速发展的时代,随着人们的物质基础的不断提高,愈多的人开始追求更多的精神需求。音乐,就是一种人类所需要满足的一种精神需求。音乐的曲风分为很多类型,有流行音乐、古典音樂、民歌、金属乐等,现代的音乐市场一直被流行音乐、古典音乐与其他音乐类型给瓜分,且其中流行音乐的占比尤为重要,极难撼动。
但20世纪中后期因电子合成器技术的兴起,欧洲人将电子机械技术与音乐结合起来形成了新兴的电子音乐产业。电子音乐因其独特的音乐性与其文化融合的多重性迅速受到人们推崇。至此,在之后的几十年里电子音乐迅速发展,逐渐在欧洲,美洲兴起,其音乐类别逐渐占领了音乐行业的主要市场,并形成成熟的产业链。在21世纪初,电子音乐流入中国,为这历史悠久的国度增添了新的音乐色彩。因此面对现状,需对国内当前流行的电子音乐类别进行分析,并利用多种算法将流行的电子音乐类别推荐给听众,推广电子音乐。
1.2 研究现状
研究电子音乐不单单只是一个音乐类型,而是研究一个地域、国家、宗教、种族的文化。电子音乐许多是由纯音乐构成,通过音乐的纯粹透露出来的文化的魅力更让人记住与回味。
电子音乐跟传统音乐不同,电子音乐的作品主要由电子音乐制作人和电子演出者(DJ)或人声演唱(vocal)组成。研究其市场时,需要对制作人和DJ进行区别分析。在这里,本次研究内容主要针对制作人的作品类别进行分析,作品类别在一定程度上能够代表电子音乐文化的发展趋势。
现如今,电子音乐风格种类繁多,虽没有专业机构对此进行分类,但其音乐风格大体可归为EDM(电子舞曲音乐)、Electro(电子合成器音乐)、IDM(只能舞曲音乐)、Glitch(电子脉冲音乐)、Jungle(丛林音乐)、Drum&Bass(鼓打贝斯音乐)、Bass Music(贝斯音乐)、Breakbeat(破碎节拍音乐)、Trap(陷阱音乐)、Experimental Music(实验电子音乐)十个音乐风格,十种音乐风格下面还有300多种不同曲风的电子音乐类别,这些风格各异的音乐类别组成了当今多样化的电子音乐市场。
虽然国外电子音乐发早在20世纪末就已经十分成熟,但中国电子音乐在上世纪80年代末才逐渐传入中国。但尽管如此,卢旸[1][1]认为中国电子音乐起步于20世纪80年代后期,但经过三十多年发展,如今已呈现出一派生机盎然的蓬勃之势。据中国首份电音市场研究报告《2019中国电音市场洞察报告》[2]中阐述,全球电子音乐产业年产值预计2021年将达到89亿美元,年复合增长率为3.8%,中国电子音乐用户规模预计2021年将达到5.3亿人,年复合增长率为21.5%,中国电子音乐节数量预计2021年将达到300+场,年复合增长率为59.5%,中国电子音乐线上播放量预计2021年将达到4.2千亿次,年复合增长率为21.3%。由此可知,电子音乐市场在音乐市场的份额正在飞速地逐年增长。在海量的电子音乐中,受众很难精确定位自己喜爱的乐曲,因此有必要对用户进行画像,根据用户特征,利用个性化推荐算法,为受众进行个性化推荐,为受众提供更为精准和周到的服务。大众对热门电子音乐的决策偏好和喜爱度,作为此电子音乐类别为未来电子音乐发展的流行趋势。
1.3 研究内容及优势
本文研究的主要内容是对在音乐网站上热门电子音乐排行榜与热门电子音乐的类别数据集进行爬虫。用selenium webdriver web应用程序工具对带有URL参数的网页进行爬虫,用excel和mysql储存数据,把爬虫后的获取地杂乱数据进行数据预处理,对需要预处理地数据进行数据筛选及特征值的选择,并将处理后的数据分成两类数据,一部分为电子音乐排行榜数据,另一部分为电子音乐类别榜单及歌曲数据。将排行榜数据用compile()等函数将歌曲评论数进行建模分析,并用python的matplotlib包来作图,对字段进行进一步数据分析得出结果。同时将音乐类别榜单数据进行建模分析,用个性化推荐算法先利用歌曲评论中的用户id,生成20多万个用户,先获得初始化数据,通过用户名获得音乐列表,再计算两个用户之间的皮尔逊相关系数,证明其相关性,再计算公共的音乐评分,利用算法计算用户的距离,获得最临近的用户。通过遍历整个数据集,计算两个用户的相似度,并将最相似的N个用户进行降序排序输出。进行基于用户的协同过滤后,通过recommend()算法将最相近的N个用户推荐的用户音乐列表添加至推荐列表中,并对推荐的结果根据音乐评分进行降序排序,并最终输出结果体现K个相似用户的推荐音乐类别与歌曲。
本文优势主要体现在:利用selenium webdriver对URL地址进行参数爬虫;对歌曲评论数进行字段数据分析,统计出最受欢迎的歌曲及制作人;对榜单数据中的用户id随机生成,并证明N个用户的相似度,选取最相似的N个用户输出;利用基于用户的协同过滤,将最多最相近的N个用户个性化推荐给其他K个用户的推荐算法;利用了音乐数据其字段数少的特点,用最为合理有效的推荐算法来证明其分析的可信度,来达到预测的结果。通过对推荐结果的分析,进行适合的市场营销手段,通过此手段更好的利用推荐算法和营销将更好的体验推荐给用户以及电子音乐制作人们。
1.4 论文整体结构
本文共分为七个部分:
第一部分为绪论,论述电子音乐兴起的背景,阐述电子音乐兴起的原因及其行业现状,进一步提出本文研究的问题及意义。
第二部分为数据爬取,通过selenium webdriver工具对QQ音乐排行榜数据爬取并爬取作品名,作品播放时间,制作人或歌手,作品评论数,作品风格字段,在对网易云音乐歌单进行数据爬取并爬取作品专辑编号,作品专辑名,作品专辑网页URL地址,制作人或歌手,作品编号,作品名,作品网页URL地址,作品评论数,电子音乐类别,电子音乐风格类别,作品标签等字段名从而获得未处理的数据。 第三部分为数据预处理,对爬取后的数据进行描述,清洗,筛选,呈现和变换。
第四部分为电子音乐排行榜数据分析,通过对每周排行榜数据的评论数进行建模分析,从而得出近一年用户最喜爱的音乐类型及其歌手。
第五部分为基于用户的协同过滤推荐方法进行个性化推荐模型的构建,通过对电子音乐类别榜单的用户数据进行过滤及分类,选择基于用户对电子音乐歌单类别相似性,用皮尔逊相关系数对相关性验证,并构建用户相似度推荐模型,从而研究用户之间的相关性,来为接下来对用户的推荐模型做准备,建模后,将推荐后的结果通过评分降序排序后,通过对得分的结果进行模型分析,利用ROC曲线等指标来验证模型的准确性,通过其对未来的行业市场及受众预测进行分析。
第七部分为市场化营销,通过对建模分析后的结果,对此结果结合电子音乐市场,对于未来的行业的市场化营销发展进行可行性研究及有效的营销手段。
2数据爬取
音乐数据对于其他行业数据集来说,获取途径少,获取难度高,因为许多国外网站例如VFine MUSIC与Beatport等,其为了保护知识产权,进行了反爬虫手段、复杂的JavaScript渲染及境外IP封锁等原因,使得无法顺利获取数据。因此本次数据选取了国内两大音乐网站:网易云音乐与QQ音乐爬虫。
2.1 分析网页结构
在从网站中获取数据之前,需要分析网页结构。分析网页结构主要目的为了查看网页组成元素,HTML源代码,查看服务器之间的交互内容,服务器返回内容为后来的数据获取做好准备,通过分析网页结构,将获取数据所需要的信息进行汇总,为接下来的爬虫进行分析的论证基础。
通过Firefox浏览器进入QQ音乐电音排行榜页面,进入审查网页元素模式。如图2-1所示。
由图中显示可看出此网页为动态网页,并可以看到此网站的URL地址,同时点击网络中的任意方法可知道此网络请求方法为get方法。如图2-2所示。
根据图中所示,网站请求方法为get方法,通过此方法可很好地将网站中的网站源码给成功获取下来。
同理,打开网易云音乐,并使用与上述同样的方法将网站的基本结构进行分析并对网站请求方法进行获取,并得到URL地址。
根据图中所示,网易云音乐中电子音乐歌单网页的网站请求方法也为post方法,因此爬虫方法与QQ音乐数据爬虫方法不同。
因此,查询网易云音乐网页的XHR,通过浏览器与服务器之间相互发送请求来进一步分析网页结构,调用例如request等诸多类来进行网页爬虫的工作。
2.2 数据爬取
打开QQ音乐电子音乐排行榜数据榜单通过调用selenium webdriver来驱动浏览器中的程序来进行删除cookie。同时查询网页的XHR,把网页的真实URL与歌曲的地址源代码获取。随后将每个一年内所有排行榜的信息利用list给全部存储下来,通过range函数遍历近两年电音排行榜的所有榜单,并用selenium获取数据,并定位歌曲名,歌手,歌曲编号等元素,并利用循环算法将range函数中近两年排行榜中的所有歌曲的定位元素全部获取,最后将这些获取到的数据存储到Excel中形成表格。将获取到的QQ音乐电子音乐排行榜数据榜单如图2-4所示
同样打开网易云音乐电子音乐歌单网页,初始化网页地址。同时设置代理,防止本地IP地址被封。但与获取QQ音乐数据不同的是,获取网易云音乐数据需要request 表头http地址,这个地址可以通过在ntesdoor日志中找到,复制过来后即可使用。之后通过使用http.cookiejar.CookieJar()方法创建CookieJar对象实现cookie的获取与存储,并使用HTTPCookieProcessor创建cookie处理器,并以其为参数构建opener对象。在获取数据之前先创建代理IP对象,定制一个opener对象,并将opener安装为全局,设置多个参数。设置这些参数可以有效把opener变成url代理opener,并且可以有效地使用cookie。这时网页内部会有些加密协议看不到,所以之后要获取encText,也就是params用来分析网页的AES加密。然后通过获取encSeckey,并用json方法post,self, url, params, encSecKey四个参数。最后对post编码进行转换,试发出请求并得到相应,即可将相应后中的内容用read读取出来获得网页代码,设置网页编码为UTF-8,防止乱码,返回获得的网页内容。
接下来将所有热门的榜单信息利用list全部存储下来,用selenium获取数据,并获取榜单类别,榜单号,歌曲url地址等字段,并利用循环算法将所有不同榜单的数据都获取到。链接好MySQL数据库,并获取游标,执行sql语句命令并最后关闭游标。将所有数据存储在MySQL数据库下,同时将此数据存储到Excel里方便查看及保存。获取到的网易云音乐电子音乐歌单数据如图2-5、图2-6所示。
3.数据预处理
在数据预处理阶段,对爬取的数据,统计每个字段数据的缺失数量,对数据类型转换,查看异常值等操作,从而选择最后合适的变量参与分析及建模
3.1 數据说明
首先对获取到的两年QQ音乐电子音乐排行榜数据进行说明。此数据集的数据共有1080条,且可以分为5个字段,分别为作品名,作品播放时间,制作人或歌手,作品评论数,作品风格。电子音乐排行榜数据信息表如表3-1所示。
其次,对获取到的网易云音乐电子音乐歌单数据进行说明。此数据集的数据一共由10576条,且可以分为11个字段,分别为作品专辑编号,作品专辑名,作品专辑网页URL地址,制作人或歌手,作品编号,作品名,作品网页URL地址,作品评论数,电子音乐类别,电子音乐风格类别,作品标签。电子音乐歌单数据信息表如表3-2所示。 3.2 数据缺失值
通过对数据进行筛选处理,从两个数据集中选取数据缺失值并进行处理,检查数据缺失的部分,并用sapply函数计算缺失值个数,最后统计出来的缺失值个数为0
从结果中得出,该两个数据集中的每一列数据都没有缺失值,因此不需要进行确实填补。
3.3 数据清理及数据冗余
两个数据集中所有字段数据中,有些数据存在重复的现象出现,因本次研究内容的特殊性,重复出现的数据也应即为有效数据,并且作为筛选后的数据,在接下来的数据分析进一步处理。
当爬取数据完毕时,此时数据文件中存在15个冗余数据,此数据的数据格式与所需格式不符且出现乱码,作为其冗余数据进行清理。此后对其他11641条数据进行筛选,均未获得其他冗余数据和缺失数据,获取的较为工整且整洁的数据,清洗后的数据情况如下表3-3所示。
4.电子音乐排行榜数据分析
经过网页数据爬取和数据清理后,需要对爬取到的电子音乐排行榜歌曲进行数据分析。通过对每个歌曲的所有字段进行分析,发现评论数可一定程度代表电音作品的热门程度。因为数据中近两年内电子音乐排行榜中有许多重复的作品,且QQ音乐的排行榜只能获取到排行榜中的前20数据,因此排行榜中的排名不能代表大部分作品对于电音市场的影响。综上所述,能够清晰的体现排行榜作品的影响力,其作品的评论数可作为其评判的标准之一。
因此,本次研究将排行榜数据进行以评论数为建模的数据分析,通过将数据以图形的形式直觀地体现作品之间的关系,可以更好地反应出作品在市场占比率。同时对于评论数地数量,可以纵向地把整个排行榜作品类别,利用评论数给表达出来。
在用评论数进行建模分析之前,首先对于排行榜作品中的字段,应进行特征挖掘,然后将所有数据以制作人,制作时间作为字段,进行数据分析,再以评论数进行建模分析。
于是我们根据制作人、制作时间的的两个字段,制作合理的图表,表现制作人与作品评论间、热门评论和制作时间的关系。
4.1 数据分析
依据筛选出的样本数据,利用python的matplotlib绘图功能,对排行榜中所有制作人信息,利用排序算法和统计算法将制作人出现的次数,即制作人最受欢迎图统计出来,如下图4-1所示
如图所示,图中横坐标代表电子音乐制作人在所有榜单作品中出现的次数,纵坐标代表制作人的姓名,如图所示进入排名的制作人有很多,根据柱状图表分析可得出最受欢迎的电子音乐制作人为Martin Garrix,并且人气高的电子音乐制作人在所有制作人中的占比很高,同时作为电子音乐制作人的数量也可见一斑,可以侧面显示出了近两年电子音乐的蓬勃发展。同时Martin Garrix作为2016-2018年度百大DJ第一,2019-2020年度百大DJ前三名,Martin Garrix不仅在国外有着高的人气,在国内电子音乐的地位旁人也难以撼动。
根据制作人作品的发布时间,音乐作品的发布时间,如下图4-2所示。
如图所示,饼图中的1,2,3,4代表一年当中的月份,图中的百分比代表着其月份中作品发布占所有月份中作品发布的百分比,通过其百分比可以代表音乐制作人在发布作品间的规律。
由上图分析得出,根据matplotlib数学模型,建立一个以每个月发布时间占比占所有作品发布月份的饼状图,通过饼状图中显示出制作作品的发布时间大概集中在2-3月份。有科学数据显示,在被称为电子音乐发展元年2018的2-3月,全国在2-3月份的演出有400多场,其大小音乐节有进200场。春节档,人们利用电音节热闹激情的氛围而烘托其过节洋溢的节日气息。在年前年末的电子音乐节,许多的音乐制作人选择将1-2月作为一个黄金的作曲时间,从而迎来2月份的盛大音乐节。因此,在2、3、4月份的时间就是制作人发布作品的时期,年初的作品在经过2月的音乐节过后,热门作品就会随着其畅销曲目,在接下来的几个月时间内将其作品以各大音乐现场展现。
跟据上述对人气制作人以及作品发布时间的分析,经过构筑matplotlib数学模型,将所有电子音乐排行榜中的作品,以出现次数为x轴,以作品风格为y轴建立其直方图如图4-3所示。
通过对上图的分析可得出每周排行榜前20名作品的风格炯异,不同的电子音乐风格竟然高达63种,其中Midtempo为制作人,被大众喜欢的电子音乐风格, progressive House(EDM)和Jungle音乐也比较受大众及电子音乐制作人的青睐。而在排行榜中最受欢迎的Midtempo也属于EDM风格的电子音乐类别作品。而根据图中所示在一些偏实验电子音乐风格的如Acid House,Tech House,比较不受中国电子音乐听众喜爱,而在作为电子音乐文化的古董艺术Dub音乐,在中国听众的认可度为最低。
根据调查得出,中国电子音乐的发展相对西方国家比较缓慢2010年开始在国内发展,在2016年以后电子音乐才逐渐被中国主流音乐所接受,并在中国举行比较大型的如丛林电音节,三亚国际音乐节,VAC电音节,并且国外许多知名电音节,例如EDC等国际电音节也逐渐的发现了国内巨大的商业市场,于2018年在中国上海、珠海等地举办EDC CHINA,并取得不俗成绩。但自从2018年以来,国外电子音乐作品大多以House、Trance这些EDM电子音乐类别为主,这些音乐的市场份额占总市场的七成以上。传到国内后,这些电子音乐类别与风格就比较容易让新的听众接受与包容,因此在排行榜数据中,此类电子音乐类型的类别就比较受欢迎。
4.2 建模分析
通过上述的数据分析可得出,电子音乐排行榜数据通过图表给我们带来的直观信息,传递出电子音乐和音乐制作人相关信息。可从上述分析中,数据并不能给我们带来一些对于听众对作品的反馈,更多地是对市场对电子音乐制作人进行的分析。为了更好的研究用户对于电子音乐排行榜作品的理解与看法,本次研究将以用户评论数作为基础,对评论数进行建模分析,通过建立评论数与音乐制作人之间关系的数学模型对用户在不同作品下评论的数量进行分析,通过数量可在一定程度上分析出此作品的热度及话题度。通过比较,可将所有排行榜中的作品评论数进行降序排列,通过排列得出最有热度的作品,其作品某种程度上可代表用户对于电音市场作品的期待值与关注度,从而分析听众对于电音市场的受众情况。 首先,通过设置参数解决下Windows系统下容易出现的乱码问题,其次,通过调取每个用户在一个或多个作品的评论数来观察其变化。通过循环语句将每个语句中的每个作品中的评论数进行循环,这样可以提高其运算效率。构造其二维图中,作品与评论数的相关关系。通过正则表达式将两者之间的关系以对数函数的模型给显示出来最后得到其模型图,如图4-4所示。
由图中的信息可看到横坐标的对数表示评论数,纵坐标代表所有作品中评论数出现的次数以及数量。通过评论数进行建模分析可得出最后最受欢迎制作人为K-391。K-391,中文名为肯尼斯,是来自挪威的音乐制作人,其音乐作品的音乐风格为House风格,在Youtube上已有30多万的粉丝,通过与上述数据的对比分析可得出,最受欢迎的音乐制作人第二的Alan Walker与此音乐制作人有多次合作,而Alan Walker在2018年参加国内首档电子音乐节目《即刻电音》后成为国内电子音乐听众比较喜欢的制作人,从而也慢慢认识了K-391这名富有才华的音乐制作人。并在2019-2020年中其音乐作品受到国内电子音乐听众爱听House曲风风格的影响,慢慢在国内听众中占据了主要位置。
5.基于用户的协同过滤进行个性化推荐的模型构建及分析
通过对QQ音乐电子音乐排行榜数据分析,得出了大众对于电子音乐的曲风和在对电子音乐受众中不活跃的人对于电子音乐的兴趣类別,以及听众最喜爱的电子音乐制作人等方面。可是跟据研究数据与国外音乐平台数据对比可知,国外电子音乐听众与国内听众的兴趣类别有着极大不同如图5-1所示。
如上图所示为国际电子音乐峰会上beatport对电子音乐兴趣类别分析图的统计数据。上图为国外最大的电子音乐网站beatport在2015年-2019年对每一季度电子音乐用户群体进行的用户数据分析,由上图所示,Techno与Tech House为最受电子音乐听众欢迎的曲风与类别,与QQ音乐电子音乐排行榜得出的兴趣结果差异明显。上述对QQ音乐电子音乐排行榜用户的调查显示出Techno与Tech House音乐类别,其占据市场的受欢迎份额仅占4%左右,与国外市场差异明显,同时国外听众对于音乐的类别中的House风格也比QQ音乐电子音乐听众人数占比要多。
于是本次研究将有着多年浓厚电子音乐受众基础群体的网易云音乐作为对照组,对听众群体进行细化,对网易云音乐里的电子音乐用户群体进行类别细化,从而研究在网易云音乐中电子音乐用户群体对于整个市场的变化。
因此在接下来的研究中,对用户的听众群体,应当有更为细致的研究,并对用户爱听的歌单进行统计并寻找用户歌单与用户群体间的关系,将用户的兴趣类别进行梳理,利用基于用户的协同过滤从进行个性化推荐的模型构建来分析国内电子音乐听众的兴趣导向,从而和国外听众进行对比,预测未来电子音乐市场的发展。
5.1 基于用户的协同过滤
首先明确建模步骤,先通过将获取到的电子音乐歌单数据的热门歌单,进行初始化处理。并建立以获取到的歌单中听众用户和歌曲的.json文件,并把歌曲id和信息以及用户id给记录下来;其次随即生成几十万个随机目标用户对作品进行评分;然后将获取用户找到和目标用户兴趣相似即评分相似的用户集合,并用皮尔逊的相关系数证明其两两用户间的相关性;再用欧式距离找到与当前用户最临近的用户,最终通过评分的相似,找到集合中的用户喜欢的电子音乐,且目标用户没有听说过的电子音乐类别推荐给用户。将推荐作品类别中取最终推荐的电子音乐作品推荐给用户。
于是根据步骤梳理网易云音乐的歌单,从中筛选出电子音乐歌单中的热门歌单,进行爬虫。获取初始化数据后,随机生成用户数据。通过每个歌单中用户评论中获得每个用户名,经过用户名获得其用户列表。并用用户信息和详细歌单作品id生成在.json文件中。在json文件中存储的数据相比其他数据交换格式更能方便于在服务器之间交换数据,且格式非常简单,调用数据也比较容易。随机生成几十万个目标用户并将用户id也储存在.json文件中方便调用。之后随机用getitems()算法获取歌单用户以及目标用户并进行调试处理。
调试完成后,通过两个用户的评分行为来计算用户行为的相似度。首先利用下图5-2公式来计算皮尔逊相关系数。
将歌单用户和目标用户数据格式的初始值设为{音乐,评分}的格式同时将
皮尔逊相关系数相关量系数值设置为:sumXY=0.0,n=0,sumX=0.0 sumY=0.0,
sumX2=0.0,sumY2=0.0,设置完变量后,计算其公共音乐的评分如图5-3所示。
上述循环语句可将两个用户之间的评分相关性将两个用户间的相关性给证明出来。通过皮尔逊相关系数可以很好的证明两个用户的线性相关性,其取值区间为[-1,1],大于0为正相关,小于0为负相关。将皮尔逊相关系数值为r,若|r|越大,线性相关性越强,|r|越小,线性相关性越小。利用r值的数值可以很好表述两两用户间的相关性强弱。
但通过皮尔逊相关系数只能表现两两用户的相关性,即便加了评分要素,也不能完全体现其相似性多少。
于是接下来的研究主要采用欧式距离算法来获取歌单用户临近用户的距离,获得最临近的用户。创建nearstUser()方法,并创建distances={}算法计算用户的相似度,并用neighbors=[]协同过滤用户并取最邻近的用户,并用此算法遍历整个数据集。其中用if neighbor != username and neighbor not in neighbors语句来保证每次过滤用户即为最临近的用户,并保持算法的严谨性。用distance语句将歌单用户与最为临近的随机用户计算两个用户的相似度,并将此语句循环进行。最后将最相似的N个用户进行排序处理,并得到最终的N个用户如图5-4所示 图中在得到排序好的N个用户后,可以为接下来得个性化推荐模型做准备,同时利用皮尔逊算法证明其相关性后使用此算法相比于直接余弦相似度算法而言好处在于,先对向量进行了中心化后在进行余弦相似度的计算,更好地能够处理用户的评分数据,对于稠密的用户数据其算法更能显示出其优越性。
5.2 构建个性化推荐模型
得到最终的N个用户后可构造recommend()方法,其方法里是即将被推荐的音乐。接着用待推荐的音乐推荐最相近的N个用户,把推荐的用户的音乐列表给创建出来。同时设立key()算法证明当前用户名是事先保密的。用创建好的推荐列表,将带推荐的音乐添加到推荐列表中,最终,将对推荐的结果按照音乐评分进行排序并输出最终推荐的音乐作品。
经过基于用户的协同过滤后,研究将歌单用户及目标用户通过皮尔逊相关系数,欧式距离算法,最后通过个性化推荐将歌单用户把N个用户的数据推荐给目标用户形成用户推荐列表,并用评分机制,将推荐列表中的作品经过降序处理将最终推荐列表推荐给目标用户。
5.3推荐模型分析
本次研究,通过将网易云音乐电子音乐歌单数据进行了基于用户的协同过滤进行个性化推荐的目标用户推荐作品列表分析,每次进行一次推荐算法目标用户就有三个与此相似度较高的用户推荐作品,每个高相似度用户对目标用户推荐18首电子音乐作品并评分,最终选取4.0分以上的作品推荐给目标用户。在三个用户中每个推荐用户的作品评分都有一定的阙值,用ROC曲线可以将3个推荐用户进行比较,选取ROC曲线越靠近左上角的推荐作品,模型的准确率就越高从而不仅做到验证此模型对于目标用户的推荐作品是否精准,还能够在3个推荐用户的作品中选取更适合目标用户的电子音乐作品,随着研究随机出现许多的作品列表,于是将结果中的随机两个目标用户进行部分表分析如下(令两个目标用户拟为甲,乙)
根据表5-2中三个推荐用户的最终推荐给目标用户甲的结果中可以得出评分在4.5与5.0的电子音乐作品中主要以House曲风和Trap曲风为主。而在4.0分的曲子则为trance风格的电子音乐作品,其余的推荐作品均在4.0分以下。
为了验证3个推荐用户中其中哪个用户最适宜目标用户甲的兴趣作品,且验证其模型的准确率的高低,本次研究通过SPSS分析工具来做出ROC曲线来证明其相关性。将不同的推荐用户即其推荐作品评分为一列,将分类列数据以横向作品评分尤其大于4的为1(有效个案数),反之为0(无效个案数).将输入后的数据如图5-5所示。
如上图所示,分类列中有效个案数与无效个案数相等,表名正实际状态的值不明。于是为了实验精确,将分类列数据为状态变量,三个推荐用户作品评分数据为检验变量,以特异性为横轴,敏感度为纵轴生成ROC曲线做出ROC曲线图,如图5-6所示。
通过ROC图原理可知,ROC曲线越靠近左上角,即相同条件下,特异性越低,敏感度越高的的模型,其模型的准确性就越高,比较三个推荐用户可知相比参考线User34772推荐用户曲线的点更接近与左上角,是分类错误最少的最好取值,其假正例与假反例总数最少,其评分中的作品最适合给目标用户甲推荐。
通过上表所示,可知目标最终推荐用户的音乐作品中其所有4.0分以上作品均为House与Trance音乐风格。
为了验证3个推荐用户中其中哪个用户最适宜目标用户乙的兴趣作品,且验证其模型的准确率的高低并与甲进行对照,本次研究通过SPSS分析工具来做出ROC曲线并计算其AUC来证明其相关性。将不同的推荐用户即其推荐作品评分为一列,将分类列数据以横向作品评分尤其大于4的为1(有效个案数),反之为0(无效个案数).将输入后的数据如图5-7所示。
由上图可知,目标用户乙的分类列数据中可得出其真正类率的大小為图5-8所示。
由上图可知,目标用户乙的真正类率为1/3,代表分类器预测的正类中实际占所有正实例的1/3,由此可做出ROC曲线如图5-9所示。
比较三个推荐用户可知相比参考线Use27506与User52075推荐用户曲线的点接近与左上角,是分类错误最少的最好取值,其假正例与假反例总数较少,为进一步确定谁是目标用户乙的最好推荐用户则需要计算AUC指标。其各曲线下的面积图如图5-10所示.
AUC指标代表正样本排在负样本前面的概率,即ROC曲线下面的面积即为AUC的值。如图所示User27506的区域面积大,即AUC指标大,即其假正例与假反例总数最少,其评分中的作品最适合给目标用户甲推荐。
(1)综合上面分析,可知此推荐模型得训练结果表明,通过推荐列表给目标用户推荐的电子音乐在一定程度上有一定的随机性。
(2)使用皮尔逊相关系数的好处可将不同的电子音乐的相似度在用户之间联系起来,可以将歌单用户与目标用户做一个很好的衔接作用。
(3)因为使用此推荐算法得出,在所有对目标用户推荐的电子音乐列表中House曲风和Trance曲风占比约为40%,与国外电子用户音乐人群得兴趣对比可知,网易云音乐用户喜爱的电子音乐类别与国际电子音乐用户得兴趣类别有一定的相似性,在某种程度上表达出网易云音乐电子音乐用户比QQ音乐电子音乐用户的子音乐文化与国际的流行曲风更为契合。
(4)通过此次研究,体现出在不同音乐群体中,用户对于电子音乐的兴趣类别与种类有很大不同,与音乐人群的音乐基础和音乐习惯有着不小的关系。
(5)通过此次研究,此次个性化推荐模型的准确率和推荐效率来说卓有成效。
5.4推荐模型的预测
通过本次研究,结合国外电子音乐网站可预测未来的电子用户市场的大概发展可知,电子音乐在几年后的发展占比占流行音乐的比重越来越大,统计如下图5-11所示。
如上图所示为国际电子音乐峰会上国外媒体对电子音乐站流行程度排行榜的统计数据,如图所示电子音乐在国际上的流行度仅次于pop音乐和rock音乐,并且电子音乐在中国将逐渐形成一个成熟稳定的音乐市场,同时通过推荐结果以及QQ电子音乐听众用户排行榜的结果来看,中国电子音乐用户群体的听众水平参差不齐,不同的群体对于电子音乐曲风与类别,甚至对于电子音乐的文化看法区别差异很大,因此对于未来国内电子音乐群体的发展将是一个漫长而艰巨的考验。 6.市场化营销
6.1营销背景
对于拓宽电子音乐市场,各行业的相关人士就必须考虑音乐市场的营销手段,好的市场营销手段可以在一定程度上影响其音乐种类在流行音乐市场中的地位。好的营销模式可以扩大其电子音乐文化在国际上的影响力,同时也能影响国内电子音乐文化的发展。
6.2传统数字营销
传统营销手法首先对于上述的研究结果可以在各音乐平台利用数字音乐的理念将个性化推荐结果中选取几个优秀的电子音乐类别进行UI交互设计,将电子音乐中的热门类别置顶到页面,供更多音乐用户了解并接触电子音乐。其次可以通过利用各类音乐平台的优势用数据分析将平台内的音乐资源推送给用户,统计平台内电子音乐爱好者的兴趣,定时地推送音乐节与电子音乐活动给他们,平台收取举办方和制作人一定的提成。
此营销方法对于进行基本数字音乐的宣传,确实能使电子音乐在短期内对行业会有帮助,但长期来看对电子音乐的发展并没有特别突出的贡献。同时根据此营销手段听众进入此音乐类别需要其深厚的音乐基础和音乐习惯。同时传统数字营销手段,电子音乐制作人的收益很低,据统计,电子音乐制作人占作品总收入为13.5%,甚至在某些平台,制作人的收入占比仅为5%。
6.3传统数字营销
而根据现代科技的发展,现如今对现代数字音樂有着新的诠释,通过这几年区块链技术的发展,可以通过加密技术将数字音乐制作成NFT产品。所谓NFT即是非同质化通证,是一种数字资产,通过区块链技术与密码学技术形成的代币通证,与比特币不同NFT产品具有不可分割的特点,同时区块链的技术能够让NFT产品具有保密性、唯一识别性等特点,此产品使区块链技术能够在金融领域以外的其他领域能够影响整个区块链生态系统乃至整个传统经济体系。
6.4现代数字营销
NFT,可以将电子音乐作品的音频或视频文件,甚至是专辑封面等图像文件,通过剪辑将其嵌入NFT中形成数字卡片。将其NFT卡片上传至区块链浏览器平台例如Flow平台中利用每个区块之间的链进行作品间的转递和售卖。当电子音乐用户进行交易时,可生成一个装满NFT的数字钱包,通过哈希算法生成的钱包的随机公钥和私钥可保证用户账户的绝对安全,当用户进行交易时,需填写对方交易的公钥地址及其标签,将其NFT通过其平台间的跨链或同平台的公链,在本区块内进行交易,同时付给平台燃料费,经过多个节点等待,最终成功交易。
NFT的制作者具有NFT作品的版权和著作权,每一次的交易与流通记录都能够被追溯,且生成NFT作品有其NFT编号,可以通过其编号证明其唯一识别性。NFT可支持线上交易并且支持法币交易,使其音乐作品能够方便快捷的进行支付。现如今,有许多的行业内的巨头挺进NFT市场,如行业龙头索尼音乐将与Flow合作开发音乐NFT平台,beatport开放数字交易并在未来开放NFT交易市场。同时,创作者每个NFT艺术品或者数字专辑得到的利润通常能够占到总利润的70%-80%左右,并且大大的减少了中间中介平台的手续费和制作成本。
福建江夏学院 350100