基于微博的突发话题检测研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:yellow1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博的标语是“随时随地,发现新鲜事!”从这标语中的“随时”和“新鲜事”,我们就能知道微博中包含了大量的突发事件,如果不能及时处理突发事件,不仅会造成谣言的滋生和蔓延,破坏网络秩序,还会影响社会治安,不利于社会的安定团结。  本文分析了微博的信息特点、传播特点和国内外的研究现状,提出一种微博突发话题检测方法。首先采用双滑动窗口来提取突发词和含有突发性的微博文本,然后从相对词频、词频增长率、突发词权重三个方面来对突发词进行筛选,确保抽取到的突发词能够更加准确的来描述突发事件,用基于凝聚式层次聚类算法来对获取的突发词进行聚类,再用聚类后的突发词集来概括表示突发事件。本文在计算权重时提出了一种结合CHI和改进的TF-IDF算法的方法,采用空间向量模型对微博文本数据进行建模,在微博文本聚类上用基于最大距离法的k-means聚类算法,最终得到突发事件的文本聚类。本文考虑到了中文词中存在一义多词或一词多义的缘故,在传统的TF-IDF算法上结合了词的语义,本文提出的一种结合CHI和改进的TF-IDF算法的方法在计算权重时,不仅可以降低空间向量的维度,还能减少计算的复杂度。实验中先对本文提出的结合CHI和改进的TF-IDF算法的方法同传统的TF-IDF算法和CHI统计法用MATLAB仿真结果做对比,再对本文提出的基于最大距离法的k-means聚类算法与传统的k-means聚类算法做对比,发现本文提出的方法能在一定程度上提高了召回率、准确率、F值。实验结果表明本文提出的方法可以有效检测微博中的突发话题。  本文还设计了微博话题检测的平台,在平台中实现了部分功能如:用户界面、分词软件ICTCLAS的接入、特征项权重计算和文本聚类等。
其他文献
高炉煤气是钢铁企业二次能源的主要组成部分。为了确保企业的低成本运行,从能源系统平衡的角度来提高企业整体的能源调度水平,减少二次可用能源的耗费,改变当前能源平衡调整
随着汽车工业的发展,自动变速器有取代手动变速器的趋势。自动变速系统主要有液力自动变速器(AT)、机械无级自动变速器(CVT)、电控机械自动变速器(AMT)、双离合器自动变速器(DCT)四
随着我国经济的高速发展,用电负荷不断增加随之而来的是电能质量问题越来越突出。配电网静止无功补偿器(Distribution Static Synchronous Compensator, DSTATCOM)是一种重要的无功功率补偿装置,通过向电网注入满足要求的容性或者感性电流能够显著的抑制电网电压闪变,改善系统电压三相不平衡,提高功率因数。本文主要研究了DSTATCOM用于低压配电网无功补偿中的控
冶金产业是国家重要的支柱产业,对国家具有重要战略意义。由于冶金过程中需要消耗大量的能源,其生产过程不合理不仅会造成能源成本的增加而且会严重污染环境。而完整可靠的实
在设计阶段对卫星姿态控制系统的可重构性水平做出分析,并在姿态控制系统故障造成灾难性影响之前采取容错控制技术尽早处理故障,可以有效地提高系统的可重构性水平和故障处理能
近些年来,极端灾害性天气在我国不断发生,对我国的经济、农业、民生及生态领域,都造成了极大的损失,那么如何很好的预报这些天气状况及对这些天气现象带来的灾害进行最大程度的预
摘要:天车调度是一个带时间窗的搬运装置周期性排序问题,关系到企业的核心竞争力,是铝型材电泳自动化生产最重要的一环。本文主要研究天车周期性调度问题,搜索天车的运送顺序
海洋与陆地衔接地带是科学研究、环境监测及军事领域等方面关注的重点区域之一。研究能够适应水陆两栖非结构环境的机器人及其关键技术,对提升我国近海领域技术优势、维护海洋
模糊自适应控制作为非线性系统分析和设计的重要方法之一,在近些年受到了众多专家、学者的广泛关注。在当前的模糊自适应设计方法中,通常是利用基于IF-THEN模糊规则的模糊逻辑
PT视觉转台是一种可以同时绕水平轴和竖直轴旋转的机电工作台,所以又被称为PT视觉二维转台。它在军事、教育等诸多领域都有着广泛的应用。比如,在军事方面,它可以作为研制导