基于可微结构搜索的用户画像关键问题研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:ggg321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电商模式的兴起,人们更倾向于在网上填写个人信息和网上购物等,用户和产品信息蕴含很多商业价值,通过数据挖掘进行智能化、个性化应用及精准化服务是目前的研究热点之一。近年来,一些学者曾用机器学习的方法,通过数据挖掘与分析构建用户画像来实现这一目标。通过研究用户画像的原理及分析目前算法的利弊,为实现更加有效的用户画像构建,本文通过更加完善的档案库来构建用户数据集,在提取用户行为等数值型数据外,提出一种基于词法序前缀树的挖掘算法来提取高效用微博文本数据。为实现更有效地挖掘特征间的关联性以及相关贡献率,又分别提出多维权重算法和可微结构搜索算法进行处理。具体包括以下四个部分:(1)用户档案库,该库不仅包含获取的用户基本信息、行为习惯及偏好等数值型数据,为进一步完善,提出基于词法序前缀树的更紧上界挖掘算法,对微博时序数据进行高效用挖掘,总体数据集分为数值型和文本两种类型,并分别进行不同的数据预处理及归一化操作。(2)用户数据分析模型,为了提高用户画像系统的识别效率,获取不同特征对于用户画像构建的贡献度,该部分提出了基于多维特征权重的用户画像算法。该算法针对数据型和文本特征,分别采用随机森林、融合词性和TF-IWF的权重处理方法,并将特征与相应权重值相乘得到加权特征。最后输入到分类算法中进行用户画像群分类,并对比算法前后实验结果。(3)可微用户画像识别模型,该部分提出了基于可微结构搜索的用户画像识别方法,该方法将离散的搜索空间转换为连续可微空间,同时将搜索算法加入模型中,利用梯度下降方法优化和验证性能。(4)用户画像识别系统,设计了一套包含数据采集层、模型构建层和应用层的用户画像识别系统。最后,本文对比传统用户画像算法和改进后的算法,通过实验数据证明了文本提出算法的有效性,并且为用户画像研究提供了新的研究思路和有效研究方法。
其他文献
在企业发展过程中,投资决策被视为风向标,影响企业的结构调整,甚至对企业今后的战略决策都有影响。但是,影响企业投资行为的因素太多了,要想找到决定性因素,就要深入研究企业
果芒错蛇绿混杂岩位于狮泉河—永珠—嘉黎蛇绿混杂岩带中段,是该带中保存较好的一套蛇绿混杂岩,其形成环境是确定狮泉河—永珠—嘉黎蛇绿混杂岩带构造属性的重要依据。对果芒
目的:本研究通过对比导管接触溶栓与股动脉切开取栓治疗下肢动脉硬化闭塞症合并急性血栓形成的疗效,探讨两种术式的优缺点,为临床治疗下肢动脉硬化闭塞症合并急性血栓形成提供选择依据。方法:2011年1月至2018年1月在青海大学附属医院心胸血管外科诊断为下肢动脉硬化闭塞症合并急性血栓形成的患者,共83例,导管接触溶栓组43例,股动脉切开取栓组40例。比较两组患者术前的一般情况、术后3d的踝肱指数、足部皮温
通过两个教学案例,谈如何建构合理的问题情境,以培养学生的数学抽象、逻辑推理等学科核心素养,以及建构问题情境应关注的几个方面.
<正>在近代中国,中国共产党将"红色"与"革命"联系在一起,共产党带领的队伍称为红军,旗帜称为红旗,建立的政权称为红色政权,革命之所以和红色相连,是因为它是正义的斗争,具有
区域一体化的发展为京津冀地区的协同发展提供了新的动力,特别是雄安新区的筹备与建设,对京津冀的生态环境要求进一步提高,在京津冀区域内开展联防联控治理模式逐渐成为京津冀区域一体化发展的新趋势。京津冀地区普遍存在严重的水污染问题,2018年生态环境部发布的《中国生态环境状况公报》显示京津冀区域内几乎无使用功能的劣V类水质比例在经过了多年的反复治理之后指标依然高居不下。严重的水污染形势使得京津冀地区的水资
本文以SL油田GD、CQ、HJ区块中低矿化度CaCl2水型、高温、低渗油藏的泡沫驱为背景,对泡沫体系从基础的连续空间静态性质到复杂的多孔介质空间动态性质进行了研究。针对目标区
现代企业的竞争已经日趋白热化,近年来企业高层越来越重视企业文化的建设,同时也认识到企业文化要与中国传统的本土文化有机结合,才能让企业文化建设在保持稳步推进中发挥更
<正> 新疆地处向西开放的前沿地带,具有特殊的地理位置,边境线绵延5 400多公里,与8个国家毗邻,欧亚第二座大陆桥的开通,使新疆实施沿边开放战略成为必要和可能,而口岸在实施