面向社交网络的话题检测与传播人物挖掘方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:gyzviking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体平台下话题多种多样,个体与个体之间通过关注关系、传播关系的网络结构发生信息交互,影响着每一个人的观点行为。本文围绕社交网络中的“话题检测”和“传播人物挖掘”两个核心问题,以Twitter为主要场景展开面向社交网络的话题检测与分析、基于多种关系网络的传播人物挖掘的研究。具体工作内容包括如下3个方面:(1)针对话题检测下的短文本预处理和话题发现的研究,现有方法存在短文本处理不全面、主题模型检测速度慢且不能给出话题时间跨度的问题,本文改进了以往的解决方案。首先,本文改进了短文本预处理的方法,通过对社交网络短文本特点的分析、现存文本相似度指标的分析,探究了社交网络短文本数据的特点,提出了适合短文本话题语句过滤的特征、短文本语义聚合的相似度指标,实现了基于数据过滤、语义聚合的文本处理过程,缓解了社交网络短文本流中噪音大、语义稀疏的问题,使主题模型达到了话题噪音小、聚类一致性强的效果。本文提出了基于异常主题标签的话题检测方法,该方法定义了单位时间内单词异常值的计算方法,通过计算最大连续时间序列的异常值的和来确定话题时间跨度,相较于主题模型达到了检测时间短、话题时间精度高的效果。(2)针对传播用户挖掘方面的研究,现有方法存在对关系网络利用不充分的问题,本文提出了基于多种关系网络的传播人物挖掘的方法。本文以影响力传播者和合作群体为切入点,从多个关系网络发现传播人物。针对影响力传播者的识别,本文提出用静态、动态影响力相结合的影响力计算方法,综合了在关注关系网络下用户多种属性特征计算的用户亲密度得到的静态影响力以及转发关系网络得到用户在推文传播时的动态影响力。针对合作群体的发现,考虑从用户行为特征构建关系网络,从多个角度检测出合作群体,并对不同的合作群体给出合理的解释。(3)设计了传播人物展示的可视化系统,实现了数据爬取、用户查询、用户分析模块。数据爬取模块可以依据关键词、时间获取指定文本流,将其储存在MongoDB数据库。用户查询模块可以展示用户信息、用户关系。分析模块展示话题下的合作群体和影响力传播者。
其他文献
迁移学习能够利用从源域中学到的知识帮助目标域解决分类问题。特权信息是一种不同于原始特征并且只能在训练阶段使用的额外信息,利用特权信息辅助学习可以加强模型的训练效果。先前的迁移学习方法一般只利用原始特征训练分类器,却忽略了数据集中特权信息的价值。如何在迁移学习场景下利用特权信息辅助训练,并尽量提高分类准确率是一个值得研究的问题。本文提出了基于AdaBoost和特权信息的迁移学习方法(Research
学位
工程中很多接触问题都与热的产生和传导紧密相关,当两个接触体相对滑动时,接触面上的摩擦热可能会引起热弹性变形以及接触应力和接触区域的变化。这些变化反过来影响热传导的边界条件,并产生耦合的热机械响应。摩擦产生的热量与摩擦系数、滑动或旋转速度以及接触压力成正比。它会导致接触面的热弹性变形和接触损伤,进而引起材料的磨损,最终导致结构失效。在现代工业中,通常采用在部件表面添加涂层来减少由于接触损伤或摩擦损伤
学位
本文从环境监测的视角出发,对现代工业废水废气的治理方法进行了探究。首先,介绍了现代工业废水废气的污染特点和危害。其次,分析了目前常用的废水废气治理技术及其优缺点。最后,针对现代工业废水废气治理中存在的问题,提出了一些改进和创新的建议。
期刊
激光波数扫描干涉(Wavenumber Scanning Interferometry,WSI)是结合波数扫描和全场测量方式发展起来的高精度层析测量技术。通过采用相位对照技术,WSI能够对材料内部的变形场和应变场进行层析测量,是现代光学检测中极具发展潜力和使用前景的光测力学技术。尽管WSI在复合材料内部变形场和应变场的层析测量中表现出优越的性能,但在实际应用中仍然存在两个需要解决的问题:(1)激光
学位
现代无轨列车是一种具有全新架构的中运量城市道路交通运输工具,与传统公交相比,具有客运量大、零排放等优点,是普通道路公交系统与轨道交通系统的有力补充。然而,车体之间采用多铰接的方式连接,增加了整车结构的复杂性,运动不灵活。同时由于车轮无轨道约束,运动自由度大,车辆存在折叠、甩尾、轮迹偏差大等失稳问题,对其进行主动转向控制具有重要意义。本文针对现代无轨列车及其主动转向控制策略,开展如下主要工作:(1)
学位
虽然现代工业的蓬勃发展促进着社会的进步,但与此同时工业生产的粗放式增长也带来了十分严峻的环境污染问题,废弃物对人类的环境都产生了不良影响。良好的生存环境是人类赖以生存的根本,所以,在人类社会与经济生活中很有必要保护好生态环境。为了适应企业可持续发展的需要,需对工业废水及废气的处理,将废水废气转化,降低其有毒颗粒的含量。避免工业废弃物污染环境,可以兼顾环境经济效益与企业的社会效益,从而保持了工厂附近
期刊
代码注释主要用于描述程序代码所提供的功能,在软件开发期间和项目维护期间均起到了极为重要的作用。然而,在实际开发过程中,由于人工编写代码注释的时间成本较高,导致大量的程序代码出现注释丢失或注释不匹配的问题。代码注释生成主要将结构化程序代码自动转换为能够描述该程序代码功能的自然语言注释,在一定程度上减少了软件开发人员编写代码注释所需的工作量。一些研究工作直接将程序代码表示为源代码序列的形式,并采用循环
学位
清洁水资源的日益短缺带动了废水处理科学和技术的进步。废水中顽固重金属的去除已被证明是一个具有挑战性的难题,需要开发出更多先进的水处理技术将重金属完全去除至无害化水平。本文对近年来废水中重金属处理技术的发展现状进行综述,包括光催化、浮选、化学沉淀、离子交换、电化学处理、混凝/絮凝、膜分离和吸附等技术,以期为未来高效可行的去除技术的选择和开发提供参考。
期刊
<正>偏头痛是常见的原发性头痛,然而其发病机制尚不明确。目前认可度较高的为三叉神经血管障碍学说、皮层扩散抑制(CSD)学说。其中中枢敏化、降钙素基因相关肽、神经胶质细胞等因素在疾病过程中起着重要作用。现今治疗偏头痛的方法存在不足,进一步探索治疗方法尤为必要。内源性大麻素系统与偏头痛发病关系密切,有潜力成为偏头痛治疗的新靶点。
期刊
近年来,支持向量数据描述(support vector data description,SVDD)广泛应用于异常检测问题。传统SVDD使用hinge损失函数,球体分类器仅由少部分在球体表面的数据点(即支持向量)决定,这使得分类器对噪声敏感和重采样不稳定。在本文中,我们提出了基于pinball损失函数的SVDD模型(pin-SVDD)。在该模型中,全部训练数据(包括在球体分类器内部的数据)都参与决
学位