面向社交网络的话题传播关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:Rainwave
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web 2.0技术的飞速发展,在线社交网络已经成为人们获取、发表和传播信息的重要渠道。社交网络不仅将用户在线下现实社会的社交关系如同学、同事、朋友关系等迁移至互联网,而且拉近了用户与网络大V、知名人士、政府机构等的关系,促进了人类社会的扁平化发展。现实世界中发生的事件、活动等信息通常以话题的形式在社交网络中存在,并随着用户之间的社交关系结构而“核裂变”式地快速传播和演化,其在给人们获取、发表和传播信息带来便利的同时,也会形成网络舆论并反过来影响现实世界中事件、活动等的发展。因此,对社交网络话题传播分析技术进行研究对于促进有益信息传播、抑制不良信息传播和国家的长治久安意义重大,具有重要的理论意义和现实意义。对社交网络话题传播分析技术进行研究面临巨大的挑战,与传统信息网络不同,社交网络具有话题信息短、噪声多、语义复杂、博文数量巨大、关系网络复杂和信息快速传播演化等特点,因此其在分析方法和目标上与传统信息网络有很大差异,给话题传播分析技术带来了巨大的挑战。本文在已有研究基础上,针对社交网络的短文本特性、话题传播群体检测、话题推广用户检测、话题快速推广方法等进行了研究,主要研究内容和成果如下:(1)在话题文本表示模型方面,针对社交网络话题信息的短文本特性,提出了基于外部知识库概念的话题文本表示模型。经典的“词袋”模型是基于词汇间的共现关系进行语义相似度计算,忽略了词语之间的语义关系。由于社交网络话题文本不仅较短,而且用词不规范,特征项的共现较少,“词袋”模型难以适用。本研究点以外部知识库维基百科为例,提出了一种基于概念的话题文本表示模型,增大了话题文本表示向量中特征项的共现概率。然后基于概念之间的语义关系,构建概念之间的语义矩阵,增强表示模型的语义。本研究点首先在维基百科概念的解释文档上建立“词语-概念”的倒排索引,并基于此倒排索引将文本表示为维基百科概念的向量,然后我们计算各个概念之间的语义相关度以构建概念间的语义矩阵,最后基于语义矩阵增强维基百科概念向量的语义。在文本分类应用数据集上的实验发现,我们的方法在短文本上比经典的“词袋”模型在统计学上显著更好。(2)在话题传播热度预测方面,提出了一种基于用户情感的话题热度预测方法。传统方法是基于在线内容的前期热度来预测其在未来的热度,本文预测尚未发生的话题的热度,其基本假设是:用户在最近一段时间对某一事物的情感倾向在一定程度上决定了未来此用户对与此事物相关的话题的关心程度。本文首先计算社区中每个用户对话题关键词和关键短语的情感倾向,然后基于马尔科夫随机场模型和图熵模型来计算整个社区在此话题上的潜在情感能量。实验分析发现,社区在某个话题上的潜在情感能量与话题在此社区的热度之间存在显著的线性相关关系。在此发现的基础上,我们提出了两种基于社区潜在情感能量的话题热度预测方法,实验证明了两种预测模型的有效性。(3)在话题传播群体检测方面,针对社交网络水军发布大量话题推广博文和话题非自然传播的问题,提出了一种有效的网络水军检测方法。当前网络水军检测方法主要利用水军的个体特征,而忽略水军作为群体而表现出的群体特征。本文首先研究了水军的群体特征,然后基于逻辑回归模型综合利用水军的个体特征和群体特征进行检测。在多个真实数据集上的实验显示,本文方法比传统方法在准确度和F1值上效果更好。在发现的水军基础上,本文分析水军的群体特性和发现网络推手。基于水军之间的朋友/粉丝关系和共现关系,采用InfoMap社区发现算法检测水军的社区,发现绝大多数的水军都出现在少量的社区中,而且在同一个社区中的水军通常都持有相同的观点倾向,验证了水军的群体特性。本文进一步分析网络推手,发现绝大多数的水军都在推广来自极少数推手发布的博文。(4)在用户话题兴趣分析方面,为了更好地进行话题的快速推广,针对已有方法主要是基于用户发布的博文内容进行用户话题兴趣挖掘而导致算法的计算量过大,难以适用用户数以亿计的社交网络的问题,提出了一种基于部分用户的自定义话题兴趣标签快速挖掘其他用户话题兴趣特征的方法。据统计,新浪微博中有21.8%的用户给自己标注了话题兴趣标签,而有多达78.2%的用户没有自定义话题兴趣标签。本研究点的基本假设是:如果用户之间有转发、提及、回复等直接交互关系,则说明两者之间有共同的话题兴趣,那么可以通过交互图中邻居节点的话题兴趣来分析此用户的话题兴趣。本研究点基于用户历史上的转发、提及关系构建起用户间的交互关系图,然后在交互关系图上基于随机游走算法分析用户的话题兴趣标签,并对话题兴趣标签进行排序。算法在包含1.4亿用户的真实新浪微博数据集上进行实验,采用MapReduce分布式处理框架进行计算,分析发现本文提出的方法比当前存在的用户话题兴趣挖掘方法准确度更高。综上所述,本文研究了社交网络话题文本表示模型、话题传播热度预测、话题传播群体检测和用户话题兴趣分析等关键技术,在真实数据集上的实验验证了本文方法的有效性,对于信息传播具有重要的理论和现实意义。
其他文献
造成城市内涝问题的原因主要是市政雨水管网设计缺乏完善性,因此加强城市治理迫在眉睫.本文对我国市政雨水管网设计以及城市内涝形成的原因进行了分析,旨在提出加强市政雨水
目的观察舒芬太尼单次剂量对腹腔镜手术后疼痛的影响。方法将60例腹腔镜手术患者随机分为观察组和对照组,每组30例。观察组在手术结束前30min经静脉滴注舒芬太尼注射液0.5μg
以2015年5月15日暴雨过程为例,利用集合预报工具箱对其进行应用与分析。结果表明,此次降水过程中无论从集合预报中的形势场还是物理量场,以及所提供的降水极端天气指数中均有着
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文立足于大学生视角,通过文献研究、问卷调查等方式分析题库型APP在大学生群体的应用现状,得出的调查结论是:大学生普遍认可题库型APP的学习效果,也认为它存在一些问题,其使用目
目的探讨动脉血气pH值、乳酸、神经烯醇化酶(NSE)及泛素羧基末端水解酶L1(UCH-L1)水平在早产儿脑损伤中的意义。方法选择符合早产儿脑损伤诊断标准的45例作为观察组,50例无脑
目的乙型肝炎患者肝纤维化与血管紧张素Ⅱ(AngⅡ)的相关性研究。方法采用电化学发光和速率法检测92例急性乙型肝炎患者(急性组)、108例慢性乙型肝炎患者(慢性组)和50例健康人群(对照
广东作为中国改革开放先行实验区,在经济发展的推动下,其教育现代化取得了重大成果。但随着新世纪广东发展模式的转变,以往的依靠引进某个人才以解决问题、仅以追求教育数量
因为始终难舍"依靠低成本实现竞争优势"的心态,中国棉花出口长期受到了欧美等国配额限制,与此同时,在国内还要应对质优价廉进口棉强大攻势,导致了中国广大棉农的利益长期低于世
一方面是文化产业的巨大诱惑,另一方面是资本退出的乏力,焦躁不安是话剧资本的真实写照。对于话剧领域的探索,资本从未停止过脚步,产业基金、PE、VC等各种资本,都有意抢占这