基于个人数据的用户画像的算法研究与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:caiguoxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网发展,其用户规模以及所产生的数据规模呈指数级增长,“信息过载”现象也随之产生。如何从大量的数据中提取出对用户有用的信息、为用户推荐感兴趣的内容成为目前各大互联网公司面临的问题。推荐系统可以很好的解决这些问题,用户画像作为推荐系统的基础,通过对用户属性、行为等信息进行全面分析实现对用户的分类,从而可以为用户提供更好的服务,更好的防止用户的流失。良好的用户画像可以提升推荐系统的性能。本文的主要任务是根据用户历史一个月的搜索词来对用户的属性进行用户画像。针对传统用户画像模型在泛化性和准确率方面的不足,本文研究提出了一种改进的用户画像模型。本文提出了一种基于融合算法的二级用户画像模型,第一级模型主要实现用户与搜索用词在不同层次上的关联关系的功能;第二级模型利用融合算法对用户属性与搜索用词在不同层次上的关联关系进行结合,构建搜索用词与用户之间的最终映射模型。本文的主要研究工作如下:(1)提出了一种将SVM_EM算法。针对人工标注数据集稀缺的问题,本文通过将SVM与EM结合,利用少量的人工标注的数据集和部分未标注的数据集来训练分类器,降低了人工标注的成本。实验表明,结合后的算法比传统的SVM算法的分类精度相对高。(2)提出了一种新的二级用户画像模型。第一级模型中,利用SVM_EM特征进行结合来学习用户用词之间的差异,利用Doc2Vec来学习语义之间的关联关系,利用深度神经网络来学习语义的深层关系;第二级模型中,利用融合算法来深度挖掘标签之间的关联关系,提高了对用户属性标签预测准确率和模型的泛化能力。(3)基于本文提出的用户画像模型,实现了用户画像原型系统,并对其进行测试,该系统在吞吐量以及请求成功率方面表现优秀。
其他文献
目的利用个人电脑(PC),结合图像处理软件Amira 3.1对枕骨进行CT三维重建,建立枕骨的三维数字化模型。方法对20名患者行CT薄层扫描,图像以DICOM格式保存,在PC-Windows XP平台
目的:肝脏是重要的糖代谢器官之一,各种慢性肝病均可能致肝功能损伤,引发糖耐量减低,甚至糖尿病的出现,1906年Narmyn将这一类糖尿病定义为肝源性糖尿病(hepatogenous diabete
目的探讨血清25羟基维生素D3[25-(OH)VitD3]对儿童过敏性紫癜(HSP)伴发肾脏损伤的早期预测作用。方法选择初发HSP患儿78例(HSP组)、健康体检儿童60例(健康对照组),比较两组血
引言中国思想家葛兆光透过良清玉琮、王仆阳蚌壳龙虎和凌家滩玉版的考古发现,指出:中国古代思想世界一开始就与“天”相关,在对天体地形的观察体验与认识中,包含了宇宙天地有
会议
由于技术水平的限制,传统的体外生物力学研究方法无法完全模拟人体内真实环境。颈椎体内运动的生物力学研究利用先进的影像技术和检测方法,能够直接观测体内颈椎的运动状态,
随着我国基础设施建设的不断发展,我国隧道建设工程逐渐向山岭地区转移,出现一批深长隧道,工程规模大、建设难度高,给施工安全带来极大挑战。在隧道等地下工程施工过程中,经
目前,处在一个新的经济环境背景下,虽然给企业注入了全新的活力,但是也给企业带来了很大的风险,企业财务管理必须要做到与时俱进,不断的进行创新,最终与市场新需求相适应,企
Logistic回归模型在医学研究中应用十分广泛,尤其在病例对照数据中探究疾病的危险因素的时候;本文主要研究了Logistic回归模型在分层病例对照数据中拟合优度检验的问题。在文章
目的:研究表明,血液流变性改变和体内自由基的大量堆积,是导致运动性疲劳发生的重要原因之一。己酮可可碱(PTX)是一种从可可豆中提取的生物碱,其对生物体作用广泛,现已被广泛
社会性别视角作为一种社会学视角,旨在揭示女性的不利处境,肯定女性的知识、经验、情感、价值观等。本文在社会性别视角下,对近代英国女教师的状况进行分析,探讨社会性别观念对女教师职业的影响,从而促进女教师更为平等充分的发展。近代英国教育的发展催生了一批优秀的女性教师。中世纪女教师由宗教人士担任,十七世纪中期开始,女子教育受到了社会各界的广泛关注,各类女子学校的建立增加了社会对教师的需求,女子教育的发展又