基于多任务学习的微博信息流重排序研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:aonHdt6b
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新浪微博作为社交网络的典型代表,因其平台的便捷、信息的传播高效、用户的交互性强等特点吸引着大量用户。而随着用户规模的不断增加,微博产生的速度也在不断扩大,新浪微博每天都会产生超过一亿的数据。对于用户来说,微博产生速度的加快使得用户浏览的信息也不断增多,用户往往耗费大量的时间筛选自己感兴趣的内容。  目前,新浪微博是按照时间的顺序对微博进行排序,即最新的微博排在最前面。用户阅读微博时,往往要从头开始阅览,用户感兴趣的内容可能在任意一个位置,用户需要大量的时间阅读所有微博找到自己感兴趣的内容。针对这一问题,本文对用户信息和微博内容进行研究,采用学习排序方法来训练重排序模型,设计了基于多任务学习的微博信息流的重排序算法。研究了用户相似性度量方法,设计了基于相似性度量的重排序算法。  针对样本数据稀疏性的问题,在学习排序的基础上引入了多任务学习框架,设计了微博信息流的重排序算法。微博内容和用户兴趣爱好是研究微博重排序的重要内容。本文对用户和微博特征进行了研究,从真实的微博数据中提取了实验所需的特征,形成特征向量。本文使用机器学习的思想解决微博的重排序问题,采用学习排序(learning to rank)的方法在训练数据集上训练重排序模型。对于用户来说,需要重排序的微博数可能就几十条,数据过于稀疏。通过多任务学习,找到每个用户重排序任务间的共性,将这些任务联合起来,共同训练,共同学习。引入多任务学习框架对个体行为进行建模的同时,利用全局的数据解决个体建模中存在的数据稀疏性问题。  针对用户之间的相似性问题,设计了微博用户的相似性度量方法,实现了相似性度量的微博信息流重排序算法。与传统的文档排序不同,新浪微博作为一个社交网络平台,在提取用户个性化特征的同时,不可忽视的是用户之间的交互性。往往一个用户的行为会对另一个用户产生影响,用户之间具有一定的相似性,且相似性大小各有不同。本文根据用户在内容和结构上的共性,量化用户之间的相似性,建立用户之间的联系,设计用户的相似性计算方法。在多任务重排序模型的基础上,通过正则化引入用户相似性模型,实现相似性度量的基于多任务学习的重排序算法。  本文基于新浪微博数据集对算法进行仿真实验。实验表明,多任务学习框架能够解决数据稀疏性并提高模型的泛化能力。同时,用户相似性的计算对改善重排序模型的性能,提升重排序的效果也有很好的表现。
其他文献
嵌合抗原受体T细胞(CAR-T)治疗淋巴瘤和白血病效果显著,大量基础和临床研究也使CAR-T疗法迅速发展,文章就CAR-T疗法的概念、CAR-T在血液病中的应用以及所面临的问题和解决策略进
在现实生活中,协商指协商双方通过交流、沟通企图在一特定的问题上达成共识。任何事物都可以进行协商,如价格、和平、新娘等。多数情况下,协商被认为是谈判双方在遵守基本谈判规
期刊
目的:探讨复发低危儿童急性B淋巴细胞白血病(B-ALL)的临床和生物学特征。方法:回顾性分析2017年7月至2018年7月就诊于北京博仁医院的34例复发低危B-ALL患儿的临床及实验室检查
2016年世界卫生组织将双打击和双表达淋巴瘤重新定义为高级别淋巴瘤,其侵袭性强,预后差,且与c-myc、bcl-2及bcl-6基因的异常表达有关。由于双打击和双表达淋巴瘤在疾病进展及预
目的:探讨异基因造血干细胞移植(allo-HSCT)后EB病毒(EBV)相关的淋巴细胞增殖性疾病(PTLD)的诊断及治疗措施。方法:回顾性分析航天中心医院1例急性髓系白血病allo-HSCT后合并小肠PT
无线传感器网络是大量的静止或移动的传感器以自组织和多跳的方式构成的无线网络,其目的是协同地感知、采集、处理和传输网络覆盖地理区域内感知对象的监测信息,并报告给用户。
虚拟手技术是实现自然高效的人机交互的关键技术之一,而基于虚拟手的抓取交互技术在人机交互接口和虚拟现实、计算机动画等应用中发挥着重要的作用。本文希望虚拟手抓取交互
从细微处着手,辨析物流追踪效果与物流客户服务之间的紧密关系,并以珠三角地区为研究区域提出优化物流追踪效果以及提升客服质量的相关措施,具有较强的针对性和独创性.
数字视频已成为多媒体应用领域的主要媒体形式,以视频监控系统为代表的大量数字视频应用逐渐出现在人们的日常生活之中。数字视频的广泛应用伴随着海量视频数据的产生,数据量大