基于随机森林的排序学习方法在自制数据集中的应用

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:isc70279
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
排序学习作为一种基于机器学习与信息检索的交叉技术,已经广泛地应用于Web搜索、文档检索、推荐系统、问答系统等多个领域。排序学习会根据不同的排序学习数据集(即构造相异特征)和排序学习方法训练出不同的排序模型,以对新输入目标列表进行排名预测。随机森林作为一种基于bagging的集成技术,已被证实在中小规模数据集上具有极其优秀的预测性能。基于此,本文通过研究基于随机森林的排序学习方法并应用在自制电影及公司数据集上,旨在进一步提高电影及公司排名预测的整体精度。论文的主要工作有:(1)提出基于随机森林的Bootstrap自适应双集成排序学习方法(Random Forest-based Bootstrap Self-adaptive Double-ensemble,RF-based BSD)。适当缩小Bootstrap比例和采用基于双集成的方法能有效提高模型性能,于是设计一种Bootstrap自适应函数同时将随机森林的基模型由树模型替换为集成模型。首先,BSD将根据输入的排序学习格式数据集的查询数、查询-实例对数和特征数自动确定随机森林的子采样比例。然后采用单集成思想(基于boosting的集成算法)来训练随机森林的基排序器。最后采用bagging思想输出最终的双集成模型。(2)制作电影数据集与公司数据集。首先通过python爬虫获取网站数据,构建相关特征。其中构建的电影特征包含时序、影院、发行商、类型、系列和其他共六大类特征(包括共21小类特征),公司特征包含排名、收益、价值和其他共四大类特征(包括共10小类特征)。然后对原始资源数据实行数据缺失处理、数据归一化、数据排名处理、数据标签划分以及数据格式处理,得到排序学习格式的数据集。(3)构建多种排序学习模型实现电影及公司的排名预测,进行实验对比验证所提出方法的有效性。首先采用原始的随机森林框架,训练出单集成模型。以基于boosting的三种单集成模型作为基排序器,采用基于随机森林的Bootstrap自适应双集成排序学习方法训练出三种不同的双集成模型。然后用这四种模型分别在自制电影及公司数据集上开展对比实验。实验结果显示,所提出方法能有效得出随机森林的最佳子采样比例。通过对比平均均值精度和归一化折扣累计增益两个评估指标,本文所提出方法训练出的双集成模型的性能均高于原始方法训练出的单集成模型。同时,所提出方法的排名预测结果与网站上排名列表基本相符,其表现最佳模型的平均均值精度基本处于98%以上。
其他文献
PbSe作为一种窄带隙半导体,具有高载流子迁移率,在太阳能电池、红外传感器等方面具有基础而广阔的研究及应用前景。在实验和理论计算上,对于二维Pb Se的研究还十分空缺。因此,获得这种新颖二维材料的视野显得尤为重要。二维As P作为V-V族二元物也迅速进入研究者的视野,其具有1.54e V的直接带隙,超高的载流子迁移率,是太阳能电池材料的候选者。本文通过密度泛函理论的第一性原理计算,首先探究了单层P
本文中,基于密度泛函理论我们研究了应力调控对Bi2Se3类拓扑绝缘体所对应的二维薄膜类体系的拓扑性质及能带调控效果,并且系统地探究了以Bi2Te3薄膜为主,具有不同厚度的Bi2Te3材料在使用单轴应力调控时,其自身能带及拓扑性质的演变。主要内容与结论如下:(1)基于第一性原理计算方法,我们研究Bi2Se3、Sb2Te3与Bi2Te3材料所对应的2QL、3QL薄膜在有限的单轴应力作用下的能带及拓扑性
中红外3μm波段超短脉冲激光因处于大气透明窗口,且正处于水分子最强吸收峰位置,对军用、民用以及科研等领域而言具有十分重要的研究意义。而具有铒离子(Er3+)高掺杂浓度的氟化物光纤激光器由于效率高、发射频谱范围宽等特点成为产生3μm波段中红外激光最高效的方法之一。目前,3μm波段掺铒氟化物超短脉冲光纤激光主要通过非线性偏振旋转(NPR)以及可饱和吸收体(SA)等锁模技术获得。其中,基于NPR锁模的光
近年来,三维显示逐渐成为人们追求的显示方式,其真实性和沉浸式的体验带来了与众不同的视觉效果,而全息显示作为一种能真实再现物光波的技术是显示的终极目标。基于空间光调制器的全息系统是目前主流的计算全息平台。计算全息图算法,空间光调制器的性能,光路设计等因素影响着全息图像成像效果,而全息图像的动态显示和彩色显示,也成为研究者们的重点研究方向。因此,本文在对全息系统的实现原理和结构进行分析讨论之后,确定了
自从2004年科研人员成功获得单层石墨烯后,石墨烯因其独特的晶体结构和优良的电学、光学、热学性质引起了基础研究领域科研人员的广泛关注。正是因为石墨烯拥有如此多的优异性质,也掀起了科研界对其它低维材料的研究热潮。黑磷、二硫化钼、二硒化钼以及二碲化钨等新兴二维材料的成功合成或剥离,大大丰富了二维材料的家族,也使得二维材料在电子、信息、能源等领域大放异彩。WTe2作为二维材料家族的一员,除了拥有大多数二
近年来,模拟集成电路高速发展。模拟开关已经扩展到了许多的领域,例如医疗器械、音频播放器、高速存储类的接口等。模拟开关不仅在生活领域经常被使用到,在军事、航天航空领域也离不开。模拟开关以其易于集成化、功能强而受到大众的欢迎。模拟开关是控制信号的导通和关闭,追求将信号完好的传输,这就要求模拟开关的性能要好。设计时,需要考虑模拟开关的信号传输频率,要适应高速的信号传输。还要考虑信号通道之间的匹配度、减小
卤化铅钙钛矿材料由于其具有较高的光吸收系数、合适的能带结构、较长的电子空穴扩散长度以及较长的载流子寿命等优势,是太阳能电池中理想的吸光材料。自钙钛矿材料首次引入到太阳能电池中以来,在短短十年时间内,钙钛矿太阳能电池的光电转换效率(PCE)从3.8%提高到25.5%,这一效率甚至可以与传统的商业太阳能电池(如晶体硅、Cu In Ga Se和Cd Te太阳能电池)相媲美。通常,钙钛矿太阳能电池由电子传
随着便携式产品的迅速普及,芯片的数字化程度在不断提高,功耗和电源电压在持续降低。为了满足市场对电源管理系统的需求,如何减小面积、降低功耗、保持输出稳定、提升电源效率是当今电荷泵(CP)研究设计的热点。本文基于适应于低压条件下的四相时钟电荷泵电路,从两个方面对电荷泵性能进行提升,一是提高效率,二是提高启动速度。本文设计的四相时钟电荷泵电路采用动态偏置电路消除升压过程中体效应带来的影响。本文的创新点有
锂离子电池(LIBs)是目前商业化最为广泛的二次储能器件。由于钠储量丰富、价格低廉,钠离子电池(NIBs)在高比能密度便携电源和动力电池等领域显示出诱人前景。设计综合性能优异的新型负极材料是锂/钠离子电池技术快速发展的关键之一。Sn基硒化物/氧化物因理论容量高、电压窗口合适等优势而受到研究者们的广泛关注。然而,充放电过程的转化-合金化反应引起的再结晶和应变将导致活性位点减少,且易造成电极材料粉碎并
生成对抗网络(Generative Adversarial Networks)在合成真实图像和建模方面取得了巨大的成功,它被广泛应用于领域自适应、图像视觉计算、语言处理等方面。在有监督的机器学习或深度学习中,标注样本太少会导致构建的模型易于过拟合、表示能力和泛化性不强。实际中想要获取大量标注样本非常困难且不现实。生成对抗网络在图像生成方面已比较成熟,但是现有生成对抗网络存在不稳定性、模式崩溃和计算