基于优化TF-IDF与词共现的微博热点话题发现研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:ansonliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博热点话题发现是指从大量微博中挖掘出话题,并根据话题热度评估方法选出热点话题。它可以帮助人们从海量的信息中,便捷地选出用户感兴趣或者需要的信息,并对政府舆情指导、信息安全、金融判断等领域也有很大价值。本文对微博热点话题发现的现状进行分析和总结,发现目前存在文本分词错误率较高、主题词提取准确性不高以及选择的话题热度评估方式不同的问题。针对这些问题,本文重点研究了以下三个方面:第一,对中文分词和新词发现技术进行深入探讨,发现目前的分词工具分词后出会现很多单字碎片,尤其是将新词分词后,导致与原意非常不同。本文为了解决分词错误率较高的问题,提出了基于规则和N-Gram模型发现新词。首先考虑词语结构制定规则构建碎片库,然后利用Bi-Gram和Tri-Gram模式提取碎片库中的候选字串,选取在两个模式下概率都较大的候选字串做为新词,最后有机结合系统分词和新词。实验结果表明,这种算法有效的防止了因新词造成的微博文本分词效果差的影响。第二,针对主题词提取准确性不高的问题,本文结合TF-IDF算法和词共现模型的优点,提出了基于优化的TF-IDF和词共现模型提取主题词算法。在TF-IDF算法的研究中,发现传统算法没有体现词语的位置信息,本文为了有效反应词语的重要程度,把词语是属于微博正文、标题和评论的位置信息加入数据集中,并给予不同权重,以此优化TF-IDF算法。在此基础上,利用词共现模型考虑词语的上下文语义和语境的联系,进行主题词提取。通过实验验证,此算法可降低主题词提取的偏差,使结果更为精准。第三,通过对微博结构和话题传播规律的研究,本文选择参与用户特征和主题词特征作为热点话题的影响因素,并利用它们设计话题的热度值计算公式,计算每个话题的热度值,最后根据热度值的阈值选出微博热点话题。实验结果发现,该算法得到的微博热点话题和实际情况较符合。
其他文献
多机器人追捕目标问题作为多机器人系统的一类典型协作问题,它研究的是一群机器人如何通过合作去有效地捕获另一个或多个逃跑的机器人。多机器人追捕目标问题是研究多智能体机
近些年来,人工智能技术快速发展,极大地促进了技术创新,以及推动了人类社会的发展。智能助手是随着人工智能的发展而兴起的一种新型的行动代理软件,受到了学术界和工业界广泛
应对从人口膨胀到环境污染、气候变化以及水资源短缺等实际需求时,水文科学的发展是我国国民经济健康发展的坚实基础和保障。面对解决重大科学水文问题,大规模流域的分布式水
随着信息技术的快速发展,虚拟制造与三维建模的应用越来越广泛,而虚拟切割等虚拟加工技术是虚拟制造的底层关键技术。三维数据场的三维建模以及三维模型的虚拟切割等虚拟加工技
人脸识别是一种方便的生物识别技术,一直以来都备受关注。近几年来,由于技术的不断地发展和逐渐成熟,人脸识别已经被广泛地应用于安防、金融、生活等场景,具有巨大的社会价值。另外,随着互联网的快速发展,网上出现了规模巨大的及具潜在价值的数据。这些数据往往没有与任务相关的标签,无法被常用的监督学习算法所利用。因此数据被从网上抓取之后,往往还需要人为打上标签。如果数据规模很大,就要消耗大量成本。半监督学习是一
学位
当代信息化世界中,人类视觉性地认识世界主要通过图像、图形、视频等形式。图像已经成为飞速发展的社会形态中重要的信息载体。图像的边缘是对图像最基本的描述之一,能够大致
随着社交网络的兴起和物联网的快速发展,各种形式的数据正发生爆炸式的增长和堆积。如今Apache Hadoop已成为大数据行业发展背后的驱动力,而且成为了许多企业的首选。Hadoop
随着无线网络的发展,无线网络的安全也成为了社会关注的热点,而作为现在国内广泛使用的WAPI(Wireless Authentication Privacy Infrastructure)无线网络标准,对于其中使用的
本文介绍了无线传感器网络路由算法的发展情况。由于在实际应用中的重要性,在过去数十年,其一直是热点研究领域。在这篇论文中,针对不同配置的传感器网络,对一些最常用的算法进行
随着计算机技术的发展,虚拟现实技术逐步渗入人类生活的各个领域。虚拟现实仿真系统是虚拟现实技术的重要应用之一,此仿真系统通过使用虚拟现实技术向用户提供了一种具有高逼