论文部分内容阅读
在互联网+时代,借助各种各样的社交媒体,人与人之间的交流越来越便捷,成本也越来越低。无论是国家大事、社情民意还是明星八卦,这些信息都在网民的积极讨论与交流中迅速地传播,庞大的社交媒体用户群产生了数量巨大的网络数据,如何在这些非结构化、动态、海量的数据中及时发现有价值的热点话题、捕捉网络舆论的发展动向,是当今自然语言处理领域的研究热点之一。近年来微博的用户数量持续增长,其影响力也越来越不可小觑,故本论文选用微博作为研究对象,利用网络爬虫技术获取微博数据。微博文本虽然包含了丰富的社会话题但其数据较为特殊,采用传统的方法对其进行话题检测效果往往差强人意。本文的重点研究内容为:话题检测处理流程中的文本表示模型以及文本聚类算法。针对微博文本的特殊性,本文改进了word2vec更新词向量的方法,并将改进的word2vec与TF-IDF(Term Frequency-Inverse Document Frequency,TF-IDF)相结合,设计并实现了基于Improved-word2vec&TF-IDF的文本表示模型。利用此文本表示方法可将微博数据映射为固定维度的文本向量,有效地解决了传统文本表示模型映射出的向量高维稀疏性、忽略语义相似度的问题。实验证明,利用该文本表示方法进行话题聚类,聚类准确度比VSM相比提高了19.62%。本文针对经典Single-pass算法的两个缺陷进行了改进,并将改进的Single-pass聚类算法与凝聚式层次聚类(Hierarchical Agglomerative Clustering,HAC)算法相结合,设计并实现了基于Improved-SP&HAC的微博话题检测聚类算法。ImprovedSP&HAC算法分两个步骤,首先利用改进的Single-pass算法对微博数据快速聚类,提高话题检测的时间效率;其次利用凝聚式层次聚类算法对初次结果进行再聚类,提高话题检测的准确性。通过对比实验证明,Improved-SP&HAC算法兼顾了效率与质量,将其运用到舆情分析中比传统的聚类算法更具优势。本文还详细设计并利用Python Django框架实现了微博网络舆情分析原型系统,测试证明该系统性能稳定,可以辅助用户进行微博舆情分析。