【摘 要】
:
频繁项集挖掘是数据挖掘领域的一个重要研究方向,其目的是从数据中发现出现频率较高的项。研究在不同业务背景下的频繁集挖掘过程,不但可以发现数据中的高频项,而且还可以对
论文部分内容阅读
频繁项集挖掘是数据挖掘领域的一个重要研究方向,其目的是从数据中发现出现频率较高的项。研究在不同业务背景下的频繁集挖掘过程,不但可以发现数据中的高频项,而且还可以对频繁集生成的关联规则进行分析。利用得到的关联规则,发现在海量数据中项之间的潜在关系。研究频繁集在大规模数据集中的挖掘过程,有着重要的研究意义。本文以海量用户的音乐播放记录数据为研究对象,围绕音乐播放记录中的频繁项集挖掘和时间序列建模展开相关的研究工作。音乐的种类和用户量的规模过大会限制频繁项集挖掘的效率,而播放量的周期性变化会影响时间序列建模的拟合效果。对于在用户音乐播放记录挖掘过程中的问题,从三个方面展开研究工作。首先,根据用户播放行为的特点以语种、年代和歌手类型作为分类标准对用户进行粗粒度分类。通过对比不同分类标准下FP-Growth算法得到的频繁集数量和频繁集中项目的数量,比较分类前后频繁项集的挖掘效果。改进后的方法在相同支持度阈值下,能够得到更多频繁集,并且频繁集中的项目数量也多于改进之前的方法。按照分类的思想对用户音乐播放历史数据中的频繁项集挖掘过程进行改进,在频繁项集挖掘的效果上有较大的提高,为个性化音乐推荐等方面的工作提供了有效的方法。其次,分析播放量的时间序列,在存在上升趋势的序列中加入惩罚项,使序列满足平稳序列的约束条件。对时间序列建立ARIMA模型。根据建模结果对播放量变化情况作预测,比较预测值与实际值间的误差。通过建立时间序列模型,研究播放量的变化规律。对播放量时间序列中的不规则序列进行加权处理,提高了模型拟合效果。此外,为了适应大规模数据处理的需要,在频繁项集挖掘过程中引入了分布式计算框架SPARK。研究了FP-Growth算法在SPARK上的并行情况,提高了频繁集挖掘过程的效率。使音乐数据的挖掘工作能够适应数据规模的增长,适应在大规模数据下的数据挖掘工作。
其他文献
溪流沟渠作为河流水系统的的重要组成部分,不仅具有排水功能,且在非点源氮磷污染负荷削减上也发挥着重要作用。因此,发挥溪流沟渠的氮磷滞留功能具有非常重要的环境生态意义
细菌性脑膜炎是一种严重的中枢神经系统感染性疾病,肠外致病性大肠杆菌(Extraintestinal pathogenic Escherichia coli,Ex PEC)是引起该疾病的一种常见病原菌。Ex PEC能够在
公安机关基层部门作为我国公安部门的基层派出机构,在人民警察法的授权范围内履行职责,公安部门与人民群众接触最广泛、最密切的纽带和桥梁,是公安机关群众路线的依托,发挥着
2017年《行政诉讼法》的修正标志着行政公益诉讼在立法层面的正式确立,从行政公益诉讼的发展历程来看,其经历了早期的试点到全面的实施,在公益保护方面取得了显著的效果。从
目前对于我国反渗透水淡化工程而言,其所使用的泵类产品多依赖于进口且需要消耗大量电量,增加了水淡化成本。同时此泵类产品有结构复杂、体积大及噪音大等问题。为了解决以上
在自然灾害和应急突发事件发生时,通信的需求将会急剧增加,但受限于地理环境和电子环境等复杂因素,人力布网无法实现。传统的应急通信系统采用固定频谱分配方式,大量的通信业务将导致频谱资源的短缺,通信拥挤甚至瘫痪。此时,应急通信装置需具备了解自身电磁周围环境并智能调整发射参数实现自适应通信,才能够合理解决上述问题。在认知无线电架构下,认知决策引擎作为自适应传输系统的关键一环,其性能的好坏决定了自适应传输系
食用油中的主要成分是甘油三酯,甘油三酯上的脂肪酸及其位置分布、以及食用油中微量非甘油三酯成分对食用油的品质和营养价值都有着重要影响,并且一些特有的微量成分还可以用
本研究以小米为原料,对四种不同固态发酵工艺酿出的成品小米醋进行理化指标检测及感官评定,最终确定采用分阶段固态发酵工艺酿造小米醋。通过单因素、正交试验及响应面试验确
植物精油具有很强的抗菌作用,将植物精油添加到壳聚糖膜中,有助于延迟精油的挥发释放,达到控释活性包装的目的。为了进一步调控精油的释放,明确释放的机理,本研究采用流延法
奥氏体基Fe-Mn-Al-C轻质钢具有良好的力学性能和低密度的特点,是目前汽车用钢最具有应用前景的材料之一。但奥氏体基Fe-Mn-Al-C轻质钢仍存在应变硬化率低的问题,影响其抗拉强