社交网络话题提取及演化分析

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:sm2998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息网络的快速发展,社交媒体作为其传播媒介,以大量的用户数群体、热点事件的迅速传播展示出巨大的社会影响力。社交网络出现的海量信息绝大多数都是以文本形式出现的,而这种数量级的数据无法通过人工处理的方式来提取出热点话题和关键词。因此,如何使用算法来更精确和快速的从大量数据中获取我们想要的数据信息,就成了话题提取研究中一个需要解决的问题。话题演化是指一个话题从产生到成熟,直至衰亡所经历的整个生命周期,是时间轴上一个动态变化过程。本文在研究目前比较主流的热点话题提取和演化分析方法后,针对各个研究方法中所存在的缺陷,从话题的内容出发,提取社交网络中的话题,并在时间轴上分析话题关键词的演化趋势。主要工作如下:第一,针对目前的文本聚类算法模型的缺陷以及对话题提取的需求,提出了基于词共现模型的距离度量方法。利用词距离对话题词进行聚类,使得对于热点话题的提取有良好的效果。同时,针对微博数据的特点和词共现模型的要求,将原始的微博数据进行预处理和词距离计算。预处理包含的内容有中文分词、过滤停用词和无效词,词距离计算是用距离来表示关键词之间的相关性。第二,针对基于密度峰值的聚类算法计算距离的缺陷和文本聚类的优缺点,提出了一种基于词距离的热点话题提取算法,并用评价指标对提取算法的优越性进行了论证。第三,针对话题演化模型的缺陷,采用包含度来评价两个话题之间的关系。同时,用词的独立性来表示词的重要性。对数据进行时间片的划分,可以很直观的看出话题随时间变化的演化情况。第四,使用Matlab和Gephi等工具实现了热点话题的提取及演化分析系统。该系统完成了本论文的大部分工作,对话题提取及演化分析的研究有着实际的意义。
其他文献
阐述了2019年上半年我国煤炭价格运行情况,分析了影响煤炭市场运行的主要因素;从煤炭供应和需求两个方面对2019年下半年煤炭市场走势进行了预测。认为,2019年下半年煤炭市场
当前我国产能过剩问题已经成为威胁经济质量和经济增速的重要阻碍,文中首先分析了产能过剩产生的原因,包括对国有企业的过度行政干预、对传统制造业和房地产业的扶持、地方保
发达国家的寿险经营已有上百年历史 ,其营销模式成熟多样 ,形成了比较全面的系统与体制。我国现行的寿险营销模式实际上是以个人代理为主的单一营销方法 ,我国的寿险市场应对
二战后,美国受布什研发线性模型的影响,极其重视基础研究,认为加大基础研究投入,最终将获得更多科技成果产出,并一直持续至今.20世纪70年代,日本受司托克斯总结的巴斯德象限
Web应用漏洞扫描技术是保障web应用安全的重要技术之一,其核心思想是站在黑客的角度向web站点发送精心构造的检测请求,根据其响应信息判断目标站点是否存在特定漏洞,web应用
<正>2018年前三季度,毛纺行业的运行情况较去年整体形势有所回落,产品与出口结构继续调整与改变,发展模式持续转变升级。其中,规上1060家毛纺织企业主营业务收入总额为1138亿
加强基础研究和产业技术创新是提升创新能力的关键,也是建设科技创新强国和现代化经济体系的重要支撑。对广东而言,虽然区域创新能力已跃居全国首位,但是基础研究薄弱、原始
基础研究是科技创新的源泉,当前广州正在着力打造国际科技产业创新中心,全面加强基础与应用基础研究能力。鉴于基础研究的重要性,研究分析了广州市近年来基础研究发展的良好
油化类船舶作为特种船舶之一,在运营中应特别注意安全,避免发生爆炸、人员中毒等恶性事故。而事故的发生与船员技能掌握的熟练程度密切相关,传统的实操培训主要通过教员讲解,
新媒体时代的来临将现实生活中的社交转移到了网络世界,人与人之间的交往互动突破了传统格局,人类的活动空间不断地从现实社会往虚拟社会迁移。短视频处于时下网络世界的风口浪尖,坐拥7亿用户、影响力极大的“快手”短视频应用从中脱颖而出,日益成为个体呈现自我、表达观点、维系感情的新场域。相较于日常生活,个体在“快手”舞台上的自我呈现方式也发生了一些新的变化。本研究以戈夫曼的“拟剧”理论为视角,将“快手”视为个