基于文本变量的新闻点击预测分析

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:kaifawendang06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展伴随着信息超载问题。为解决信息超载问题,很多领域开始打造属于自己的个性化推荐系统,以方便用户高效获取信息,优化平台的用户体验。如新闻资讯平台,往往会基于包括用户历史行为在内的用户属性和新闻属性建立推荐系统:在用户阅读新闻资讯的过程中,为用户推荐用户真正感兴趣的阅读内容,大大减少用户浪费在翻阅新闻上的时间和精力,以高效便捷的新闻阅读体验为新闻资讯平台带来更多忠实的用户群体。对于推荐系统,推荐点击率是评价其优劣的一个重要指标。本文主要考虑基于文本变量的新闻点击预测问题。针对某新闻资讯类App,首先定义三个用户历史阅读新闻标签变量,通过对这三个变量的关联分析,得到数据中包含的用户感兴趣的新闻类型以及用户的新闻阅读行为习惯。接着通过标准互信息的方法研究曝光新闻是否被点击阅读的影响因素,并基于标准互信息分析结果和关联分析结果提出两种刻画用户历史行为与当前推荐之间关系的变量,包括由用户历史阅读新闻标签变量与曝光新闻标签变量生成的组合变量和由关联规则生成的交互效果变量。最后使用因子分解机(Factorization Machine,FM)模型建立不同变量组合的曝光新闻点击预测模型,选取三个模型评价指标:Accuracy、Precision和AUC对模型进行评价,并通过最终模型分析影响用户点击阅读曝光新闻的主要因素。本文研究发现:(1)用户感兴趣的新闻类型主要包括娱乐、社会、情感、军事、体育、搞笑、国际、历史、宠物等,其中娱乐新闻是最受欢迎的新闻类型。(2)用户倾向于阅读不同类型的新闻内容,仅单独阅读某一类新闻的用户占极少数。(3)在众多曝光新闻类型中,政策类新闻点击率较低;数码类新闻点击率较高。(4)在众多因素中,用户阅读历史和当前曝光新闻类型对预测用户是否点击阅读曝光新闻的贡献最大。(5)结合用户的阅读历史和当前曝光新闻属性,可以提高预测用户是否点击阅读曝光新闻的精度,如用户在过去是否阅读过当前推荐的新闻类型、根据用户最近一次阅读历史得到的其阅读当前曝光新闻类型的可能性大小等。
其他文献
基于项目反应理论(IRT)的视角对某中学八年级数学期末考试的学业成绩应用S-P表和Rasch模型分析软件WINSTEPS进行比较分析,其结果显示二者既有同一性也有差异性。整体情况分析
我院于2000年1月开始开展系统化整体护理,贯彻以人为本的原则,充分运用护理程序对129例肺结核咯血病人提供高质量的身心护理,取得了满意的效果,现总结如下:
近年来,婴幼儿哮喘的发病率呈上升趋势,虽然哮喘的防治知识已较为普及,治疗方法日趋成熟,但中、重度哮喘的急性发作仍有发生,如不及时控制,很容易引发呼吸衰竭、心力衰竭,甚至需要机
请看一则媒体报道: BEIJING, April 11-A hailstorm in Sichuan Province and Chongqing Municipality has left 18 dead, one person missing and 25 injured, the People 's
小时候,因为把'如火如荼'的'荼'字读成了'茶',被人讥笑念了别字。及至中年翻阅了些古书,才晓得'荼'字除了有表示白色的含义外,原来也是古代
秘密花园:娜塔利·杜尔伯格和汉斯·博格双人展2016.9.10-10.23上海二十一世纪民生美术馆童话以往似乎一直是儿童的专利。最早的童话是成年人用来塑造儿童世界观的工
1 病历摘要  患者,女,65岁.半年前开始无诱因头痛、颈僵、恶心呕吐,头痛主要在顶枕部,钉钻样,饮食时恶心呕吐加重,非喷射性.颈部活动可使症状加重,无发热、咳嗽、咯血、呼
期刊
在近地表层风沙流场中,沙粒运动主要有三种形式:蠕移、跃移、悬移。风场湍流特性会对沙粒运动产生显著的影响,使其运动轨迹随着时间、空间发生变化。风沙运动一方面会形成沙
柴胡是我国传统常用中药材,有着2000多年的应用历史,是疏散退热、疏肝、升阳之要药。本品为伞形科多年生草本植物柴胡或狭叶柴胡的干燥根,为《中华人民共和国药典》2005版收
编者按语经过漫长岁月的淘洗和筛选,无数名篇佳作保留了下来,为历代人们所喜爱和传诵,至今仍葆有其认识、欣赏和借鉴价值。它们象密布于浩瀚夜空的灿烂群星,又象串联在翩跹彩