基于用户行为数据的特征工程

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kj8231926
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征工程是数据挖掘任务中的重要组成部分。通过特征工程,可以减少模型的复杂度,提高模型的准确度。因而,在数据分析过程中,无论是在前期数据预处理还是之后模型的迭代中,特征工程都起着至关重要的作用。用户行为数据是一类常见且非常有现实意义的数据集,具有高维、大样本、迭代周期长、序列性等特点。本文对这类数据集的特征工程方法进行了研究。以模型的准确率为主要评价指标,对现有的特征工程中的数据分箱,隐性特征进行了改进和研究。通过引入不同的非监督算法将无法量化的数据分箱问题转化为统计问题,从而可以利用经典的统计学方法解决分箱过于“业务化”的问题;对比了利用Markov过程、transformer、embedding等复杂模型表达特征的方法,实验表明所给出的方法可以提取到用户行为点击先后偏好等一般模型易忽略的特征。本文利用对不同类型的四个用户行为数据集上的特征工程方法的实证研究,提出了用户行为数据特征工程的一般原则,并验证了所给出方法的有效性。
其他文献
我国由于近年来的各类污水急剧增加而导致了随之兴建的城镇污水处理厂越来越多,由于污水处理厂中的二级出水排放量巨大并且二级处理并不能完全消除污水中的各类污染物,甚至一些城镇污水处理厂排放出来的尾水并不达标,这些尾水将对受纳的自然水体造成很大的污染负荷,有加重水体富营养化的威胁,因此必须对城镇污水处理厂的尾水进行深度处理来改善排放的出水水质。城镇污水处理厂尾水的特征是低C/N,高氮磷,因此常规的处理手段
手性2,3-环氧-4-羟基萘醌的结构普遍存在于各类天然产物及合成药物中,例如抗癌效果几乎与紫杉醇(Paclitaxel)相当的天然广谱抗癌候选药物特维醇(Alternol)。目前获得手性2,3-环氧-4-羟基萘醌的方法主要是通过光学拆分的手段,尚无文献报道该类化合物的不对称催化合成方法。通过分析该类化合物的结构特点,同时结合本课题组在羰基不对称催化氢化领域的研究基础,我们设计并开发了内消旋2,3-
超声电机是利用压电材料的逆压电效应进行工作,相对传统电磁电机具有结构简单、定位精度高、噪声污染小、转速低、转矩大、断电自锁和无电磁干扰等优点,适用于仪器仪表、精密定位和航空航天等领域。本文针对现有的超声电机驱动电源存在的不足:速度慢、扩展性不好、驱动板可靠性差、控制不稳定等进行改进,设计了一种基于FPGA的超声电机驱动电源。超声电机驱动电源由控制模块、驱动模块和匹配模块组成,对这三个模块分别进行了
The following study focuses on the impacts of microfinance on entrepreneurship in Senegal.Microfinance was introduced into the region as a strategy to alleviate poverty and has provided countless peop
学位
“硅替代药物”即现有药物分子中的某个或某些碳原子被硅原子替代后获得的含硅类似物。与碳模板底物相比,含硅药物往往表现出更优越的生物活性和理化性质,具有药效好、选择性高、毒副作用小等特性。因此,硅替代药物为新药设计提供了一条有潜力的新思路。其中,手性α-氨基硅类化合物更是由于可作为天然α-氨基酸的替代物而在药物化学和有机合成中被广泛研究。目前已报道的关于手性α-氨基硅的合成方法主要包括Cu-催化硅亲核
钙钛矿材料结构为AMX3,因其独特的光、电性能,以及结构的容纳性和可剪裁性而被广泛应用在光学材料和半导体材料中。有机-无机杂化钙钛矿卤化物(RMX3)和碱土金属-过渡金属氧化物钙钛矿(ABO3)是立方钙钛矿(AMX3)的两种衍生物。前者因其A位的有机基团而具有可调控的光学性能,而B位的无机离子则使材料具备良好的热稳定性、机械强度以及高载荷子迁移率,因而被广泛应用在钙钛矿太阳能电池(perovski
电子科技高速发展的今天,人们对集成电子电路的微型化和功能化要求越来越高,然而如今集成电路的特征尺寸已经接近极限,继续缩减尺寸带来高昂的成本,三维集成电子电路的概念应运而生。硅通孔垂直互联(TSV)三维集成具有最大的集成能力和最短的互连长度,使得电子电路的集成度能再上一个台阶。作为TSV成型的关键工艺——二氧化硅绝缘层的制备,在应对电子封装行业实际应用需要的超大深宽比的TSV时,传统的干法工艺成本十
The expansion of social media contributed to the changes in our daily life such as the easy access and flexibility of information,which includes information about movies.As a wide range of marketing c
学位
公共楼宇中央空调制冷负荷是拉大我国城市电网夏季负荷日峰谷差的一个重要原因,给高峰负荷时段电力供需平衡造成了巨大困难;而增大电力投资以满足短暂尖峰负荷又很不经济。为此,通过空调负荷控制削减夏季高峰负荷已日益受到关注。现有对空调负荷控制的研究多从供电方远程负荷控制的角度进行,其实施依赖于专用通信和控制装置的研发和应用。本文则针对带有楼宇自动化系统(building automation system,
近年来机器人技术取得了快速发展并成功地应用在于工业、军事、医疗、娱乐等各个领域。如今,随着医学科技的进步,越来越多的科研人员致力于手术机器人的研发工作。在医学外科手术领域,微创手术的产生和快速发展,对手术技术带来了十分重要的变革,与传统的方法相比,该种技术具备手术创口直径小、病人在术中的疼痛小、术后康复时间短等优点,因此微创手术是手术领域未来的发展趋势,其将会在以后起到越来越大的作用。本文针对于腹