社交媒体中的信息检索与传播分析

被引量 : 0次 | 上传用户:arile1027
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在的互联网上社交媒体随处可见,这给信息检索和传播分析工作带来了机遇与挑战。本文主要围绕在社交媒体中如何找到重要的信息以及信息是如何传播的展开。我们将Twitter作为研究对象,因为它是目前最著名的社交媒体之一,并且数据是公开的。这样从隐私的角度考虑,获取研究数据变得容易且能很好的为研究任务(如信息检索)服务。信息检索的主要任务是在文档集合中,找到与给定话题相关的客观文本或主观文本。Twitter是一个丰富的包含各种话题及其评论信息的资源库,本文将探讨如何在Twitter中找到相关的信息。但是tweet的短小化和非正式的文本特点,使得Twitter中的检索不同于以往的检索任务(如,网页检索)。本文将通过研究tweet文本特点和特有的Twitter社交媒体属性帮助Twitter检索。另外,Twitter中信息的传播是一种普遍现象且与消息的质量相关(帮助Twitter中检索高质量的信息)。因此,我们从tweet本身和用户的角度,研究哪些因素影响了tweet的转发和人的转发行为。我们的工作主要有四个部分:(1)利用结构化信息的Twitter检索;(2)Twitter观点检索;(3)Twitter中传播观点的发现;(4)Twitter中信息传播者的发现。四个工作具体如下利用结构化信息的Twitter检索:Twitter检索是在Twitter中找到与给定话题相关的tweet的任务。绝大部分的Twitter检索系统在构造检索模型时一般都认为tweet是一个平面文本,但用户在编辑tweet时的一些习惯使得tweet文本呈现结构化的特点。这种结构化是通过一些不同的文本积木块组合而成,积木类型具体包括平面文本、主题词、链接、提及等。每一种积木都有自己独特的本质,一系列积木的排序组合又反映了一定的话语转换。以往的研究发现,通过开发文本的结构信息能够帮助结构化文本的检索(例如,网页检索)。本工作通过积木结构开发tweet的结构化信息,以此帮助Twitter检索。我们利用积木及其排列组合开发了一系列特征,并将其应用到排序学习的框架中。我们发现利用结构化tweet的方法进行检索能够达到目前最好的Twitte r检索方法效果,将结构化tweet的方法和其他社交媒体特征一起使用能够进一步提高Twitter的检索效果。Twitter观点检索:观点检索是在数据中找到对指定话题表达正面或反面观点的tweet的任务。人们几乎在Twitter中表达了任何话题的观点,使其成为一个丰富的观点资源库。但是Twitter中也存在大量的垃圾信息和各种不同类型的文本,使得Twitter中的观点检索充满挑战。我们提出了如何利用tweet的社交媒体信息和文本结构化信息的方法帮助Twitter的观点检索。特别的,基于排序学习,我们发现tweet的用户信息(如用户包含朋友的数目)、tweet文本本身的结构信息和观点化程度影响着tweet的排序结果。实验结果表明社交媒体信息能够帮助Twitter的观点检索。基于无监督学习评价tweet观点化程度,并以此开发特征形成的检索方法能够到达手工标注tweet的有监督方法的检索效果,且这种方法能够帮助观点检索中话题依赖问题的解决。最后,我们在重新标注的TRECTweets2011数据集上进一步验证了我们Twitter观点检索方法的有效性Twitter中传播观点的发现:Twitter已经变成人们收集观点做出决策的重要资源,但是数量众多且差异巨大的观点严重影响了人们使用这些资源的效果。本文我们考虑了如何在Twitter中找到传播观点的任务tweet不仅表达了对某些话题的观点,且这个tweet在未来会被转发。利用排序学习模型,我们开发了一系列特征,具体包括tweet的传播度特征、观点化特征和文本质量特征。实验结果证明了我们开发的特征对于Twitter中传播观点的发现是有效的,并且将所有特征整合的方法在发现效果上能够显著优于BM25方法和Twitter观点检索方法。最后,我们发现我们的方法在预测观点传播上可以达到人预测的水平Twitter中信息传播者的发现:Twitter和其它社交网络中一个重要的交流机制就是消息传播—人们分享其他人创建的消息。虽然目前有许多工作研究了Twitter中的tweet是如何传播的(转发),但是一个未解决的问题是到底谁会转发给定的tweet这里我们考虑了在Twitter中给定一条tweet,发现作者的粉丝中谁会转发。利用排序学习模型的框架,我们设计了一些特征,包括用户历史的转发信息,用户自身的社交媒体特征,用户使用Twitter的活跃时间,以及用户的个人兴趣。我们发现经常转发和提及作者的粉丝和与作者有相同兴趣爱好的人最有可能成为信息传播者。通过以上四个问题的研究,我们发现tweet的文本信息和Twitter的社交媒体特征能够帮助Twitter信息检索和传播分析。
其他文献
我对用导学案代替教案的探索,是针对新课改"以人为本"的理念。为落实教学由教师中心、教材中心、课堂中心向学生为中心和主体的改变,在教学实践中我总感到教师在备课中:备学
随着我国高校教育体制的深化改革和连年的扩招,高校经济活动变得更加复杂化和多元化,从而引发高校经济案件时有发生,究其原因与高校内部会计控制不到位密切相关。因此,高校建
本文运用1997-2009年珠三角地区市域空间面板数据,从专业、空间和时间三个维度研究生产性服务业的发展对制造业效率提升的影响。研究发现:首先,生产性服务业的发展不仅能够显
为了研究汽轮机末级叶片的水蚀破坏机理,结合叶片的实际工况建立了水蚀实验台。阐述了水蚀实验台的组成与工作原理,设计了实验台的关键部件。通过调节与测量温度、压力、流量
目的:研究乳果糖口服液联合复方嗜酸乳杆菌片用于妇科术前肠道准备的安全性与有效性。方法:选取我院2016年1月~2017年1月期间收治的128例妇科手术患者,采用数字随机表的原则,
工业革命后世界各国经济迅猛增长,城市化也得到快速发展,交通运输过程中燃烧的化石原料会产生的大量二氧化碳,已成为城市温室气体的主要来源。发展低碳交通,控制碳排放和热岛
本文致力于研究美国非政府组织介入罗兴亚(Rohingya)问题的途径与影响。2012年若开冲突以来,不少人权组织亲临缅甸现场,了解事实真相,并向外界披露罗兴亚问题。这些美国非政
以蛋白酶的水解作用和TG酶的交联作用理论为基础,在系统研究二者对牛肉肌肉组织蛋白改性机理和实际效果后,采用先对牛肉肌肉组织肌注菠萝蛋白酶,待肌肉蛋白水解到一定程度后
在我国当前的医疗体制和就医环境下,“看病难”依然是百姓心头的大问题。尤其是在大型公立医院,拥挤的人群常常让初次就医的患者不知所措。挂号、检验、取药、住院等各个环节
随着幼儿教育机构数量的快速提升,社会对学前教育人才的需求不断增加,同时对幼儿教师的技能及职业素养也提出了更高的要求。在这样的形势下,对中职院校学前教育专业的人才培