个性化新闻推荐系统中的“过滤气泡”研究

来源 :新媒体研究 | 被引量 : 0次 | 上传用户:awangya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  关键词 过滤气泡;新闻;推荐系统;用户视野
  中图分类号 G2 文献标识码 A 文章编号 2096-0360(2021)05-0030-03
  随着个性化推荐系统的发展与应用,人们开始担心推荐系统对用户带来的负面作用。其中一个越来越受人关注的便是“过滤气泡”问题[1],即推荐系统是否会因为总是推荐相似内容而使得用户视野被窄化。如Poulain通过对音乐平台的研究发现了内容多样性的缺失[2]。然而也有研究对该问题进行了否定,如moller通过数据科学实验更进一步地提出推荐系统不仅无负面影响,反而增加了用户推荐集的主题多样性[3]。如今,随着“今日头条”等新闻平台不断使用推荐系统,更多的学者也将“过滤气泡”问题聚焦到在线新闻平台,本文则针对新闻领域探究推荐系统是否导致“过滤气泡”现象。

1 研究方案与指标设计


  为探究个体用户过滤气泡现象基于时间的变化,本文采用改进的三分图作为研究框架,如图1所示,底层v表示单个用户,中间层为该用户按时间顺序排列的浏览记录,上层为所有新闻所涵盖的主题。其中,所有文章所涵盖的主题以及单个文章所涉及的主题采用LDA建模算法得出。
  最终可得到单个用户v与主题之间的权重关系为



  其中,ω(v,Ti)为用户在主题Ti下的权重,表示对该主题的喜爱程度;ω(v,Nj)为用户对所浏览新闻的喜好程度,根据该用户对新闻项目采取的行为决定,如浏览记1分,点赞记2分,转发记3分;ω(Nj,Ti)为新闻j在主题i下的权重,由LDA算法得出;J为该用户浏览的所有新闻项的个数。



  另外,为刻画用户“过滤气泡”本文采用基尼系数和信息熵作为测量指标,计算公式分别为





  其中,I为LDA所划分的所有主题的个数。

2 实证研究


  本研究选取平台DeskDrop产生的新闻数据集,包含对2 000个用户为期一年的取样(2016.3—2017.2),且清晰记录了所浏览文章的项目特征(如文章原始URL、标题、内容)、项目上下文特征(用户浏览时间、点赞分享等行为)。
  2.1 数据预处理
  对所选取的数据进行预处理,包括:对原始数据内容进行整理;时间戳转换;筛选英文数据;交互记录数量筛选。
  2.2 LDA主题建模
  为计算不同新闻所涵盖的主题,以及单个新闻所设计的主题及权重,本文采用LDA算法进行主题建模。其中主题数Ktopic的选取十分重要,为保证建模质量,采用困惑度指标进行评估,并按照困惑度最小的Ktopic进行主题划分。







  圖2展示了主题个数与困惑度之间的关系,当主题个数选取55时困惑度最低,因而将所有新闻划分为55个主题。表1呈现了主题建模后所得到的结果,汇总了每篇新闻在每个主题下的权重。

3 “过滤气泡”的测量


  为按照时间顺序观测所有用户熵和基尼系数的变化,需要将每个用户的浏览记录进行分块处理,以月为单位,计算每个月内用户的基尼系数和熵,并统计所有用户的指标值。图3和图4分别展示了不同月份下基尼系数和熵的分布图。首先,我们统计了1013个用户初始(首月)、中间时期(7月和11月)和最终时期基尼多样性和熵多样性的密度分布。我们发现在初期用户指标普遍较小,而随着时间推移,指标值分布开始出现出一种分化的趋势:即部分用户更小,而部分用户更大,这一现象在基尼系数指标下反应为尾部突起越加明显,而在熵指标下表现更明显,从形状上由原来的近似倒U形逐渐变为近似M形。



  这反映了在推荐系统参与下,所存在的分化作用使得原先集中在较小视野范围的用户慢慢分为两类:一类视野更加开阔,而另一类则趋于狭窄。然而这一结果只针对了分布的变化,未能明确表明个体用户视野的纵向变化,如无法解释原先视野较宽的用户后期视野是更大还是更小,是更加狭窄还是更加开阔。因此我们测试了所有用户从起始阶段到最终阶段基于时间的纵向指标变化,并基于不同时间段对所有用户求均值,绘制出用户平均视野随时间的变化曲线,如图5所示,可以发现平均用户指标变化表现为“S”形上升的变化规律,即平均用户视野虽然在前期有轻微下降,但是从整个时间上看最终视野是比初始视野更高的,即用户的视野并非被窄化,反而得到了一定程度的拓展。


4 总结与讨论


  通过上述实证分析,发现在推荐系统参与下的新闻平台中,指标表现出了与“用户被陷进过滤气泡”相反的趋势。图5结果表现出用户“视野”总体上出现被扩展的情形,而非下降的情形。因此我们认为,新闻推荐系统产生的副作用或许被过分夸大了,用户视野在推荐系统参与下不仅没有出现视野上的缩减,反而出现很大程度的拓展。该结果表示,在新闻平台浏览新闻时,可以较放心地使用推荐算法所列举的项目以提升自己的视野。
  该结论与我们直觉上认为的“推荐算法会因为推荐相似项目而窄化用户视野”不同,其原因存在如下几种可能:首先,每天所发生的事件存在很大的随机性,这导致平台每日提供的新闻项目之间往往存在很大的差异性,推荐算法虽致力于推荐与用户偏好相似的项目,但由于不同项目之间固有的差异性和随机性[4],导致所推荐的项目也只能时尽可能相似。另外,用户在心理上存在“幸存者偏差”[5]可解释这一现象,用户所浏览的新闻内容中往往或多或少存在与自身认知相近的信息片段,这些重复的信息片段会使用户在结束浏览后产生一种“仍在原有知识体系中徘徊”的错觉,而与用户原有知识体系不接近或用户原先不关注的信息片段却在潜移默化中提升了用户视野,只不过用户“视而不见”并将这一误解归咎于推荐系统。
  参考文献
  [1]薛堯云.算法推荐机制下的短视频“过滤气泡”问题研究:以抖音为例[J].新媒体研究,2019,5(14):21-22.
  [2]Poulain,R.,F.Tarissan.Investigating the lack of diversity in user behavior:The case of musical content on online platforms:Information Processing & Management,2020,57:102169.
  [3]M?ller,J.,D.Trilling,N.Helberger,B. van Es.Do not blame it on the algorithm:an empirical assessment of multiple recommender systems and their impact on content diversity:Information,Communication & Society,2018,21:959-977.
  [4]黃昌林.新闻叙事:确定性与随机性[J].成都大学学报(社会科学版),2011(4):68-71.
  [5]常江.互联网与幸存者偏差[J].青年记者,2019(19):92.
其他文献
新媒体环境下,多元化的声音进入到大众传播的场域中形成竞争,主流媒体受到了巨大的冲击,主流媒体话语形态的转变势在必行。通过对“新闻联播”抖音号这一典型案例进行分析,探究其转变话语形态的现状和特点,进一步探究出主流媒体在进行话语形态转变时可以采取的策略。
关键词 非结构化文本;情感分析;分类分析  中图分类号 G2 文献标识码 A 文章编号 2096-0360(2021)08-0008-03 1 研究背景  根据IDC报告,当下数据以每年50%左右的速度快速增长,非结构化文本数据占比很高。因此,非结构化文本数据的挖掘分析显得尤为迫切和重要。  文本挖掘(Text Mining)又称为文本数据挖掘(Text Data Mining)或文本知识发现(K
南京电子器件研究所基于自有的8寸硅基射频微系统工艺线,研制了一款工作在X波段输出功率1W的高集成度单通道硅基三维集成器件.该器件以高阻硅为原材料,结合TSV转接板、晶圆级
期刊
青年群体作为新媒体时代政治传播的参与方有其特有的活跃度,政务新媒体应对这种新的传播生态需要调整传播策略.短视频平台可以助推优秀传统文化的传播,用民族文化引领青年群
基于网络迷因理论,以2020年度十大网络流行语之一的“凡尔赛文学”为例,探析网络流行语的生成传播机制与传播动因。认为“凡尔赛文学”作为网络迷因,其生成和传播机制可以划分为模仿与复制、传播与扩散、衍生与变异三个阶段。而个体的模仿动机、寻求社会认同的心理需要以及传播过程的从众心理是其流行的社会心理动因。
从“微评论”在新媒体时代的影响力出发,以“侠客岛”官方微博“岛叔微评”为研究对象,进行实证研究,试图分析主流媒体“微评论”在新媒体时代的传播效果及评论特征,并找出其中存在的不足,提出建议。
关键词 独立音乐;价值链;价值增值  中图分类号 G2 文献标识码 A 文章编号 2096-0360(2021)08-0001-04  相較于商业化的主流音乐,我国独立音乐从体量上看仍属小众圈层,但其作为我国音乐产业的长尾部分,产业化进程十分迅速,其变化势必要反映整个行业架构的革新。这就需要基于价值增值的底层逻辑,构建以内容提供商、音乐服务供应商、媒介提供商、受众为主体的价值创造与增值体系,以解析
关键词 数字化平台;红军长征文化遗产;保护与传承  中图分类号 G2 文献标识码 A 文章编号 2096-0360(2021)07-0019-03 1 红色文化遗产的内涵及构成  红色文化遗产是指从中国共产党成立至中华人民共和国成立前夕28年的历史阶段内,包括中央革命根据地、红军长征、抗日战争、解放战争时期的重要革命纪念地、纪念馆、纪念物及其所承载的革命精神[1]。红色文化遗产是中华民族宝贵的精神
南京电子器件研究所首次提出了PIN异质集成纵向结构超大高功率限幅器构想,引入现有MMIC限幅器不具有的纵向导电结构和SiC衬底的高导热特性,把Si薄层二极管转移到SiC衬底上,极
期刊
关键词 科普短视频;“回形针”;视听表达  中图分类号 G2 文献标识码 A 文章编号 2096-0360(2021)08-0011-03  在数字媒体时代,短视频因信息传播的即时性、便捷性和通俗化等特点,逐渐成为科学知识传播的重要媒介。目前,哔哩哔哩网站(即Bilibili视频平台,以下简称B站)涌现出一批优质的科普短视频账号,“回形针PaperClip”(以下简称“回形针”)凭借专业的内容、可