论文部分内容阅读
随着信息技术的不断革新,网民日常交流的形式越来越多样化。微博作为一种新型网络媒体,每天产生海量的文本信息,这些信息包含了对若干热点话题、事件的描述。用户能够及时从海量信息中了解社会事件热点及趋势成了亟待解决的问题。因此,在怎样解决智能化的整合海量繁杂的微博文本信息,并及时从海量信息中迅捷高效地提炼出微博热点话题这一方面,拥有很好的现实意义,也有助于企业更好的把握用户需求。因此,本文针对现有的话题热点发现方法在处理微博文本数据时数字化表示不够精确、话题发现和预测效果较差的问题,设计了更为高效地热点话题发现及预测方案,重点在微博短文本数字化表示、短文本聚类、微博短文本中的热点话题评估及预测等方面进行深入研究。主要工作包括下述三个方面:(1)针对微博文本分词后存在高维稀疏性导致微博短文本数字化表示不够精确的问题,提出了基于数据采集技术和深度学习技术的微博短文本数字化表示方案。该方案首先设计了基于数据采集技术调用微博官方平台提供的应用程序接口 API(Application Programming Interface)并融合了定制化爬虫算法进行微博数据获取的方案;然后结合深度卷积生成式网络 DCGAN(Deep Convolution Generative Network)和分词后的编码 OHH(One-Hot-HMM)优势,提出了基于深度卷积生成式网络的文本数字化表示模型T-DCGAN(Text Feature Model of Deep Convolution Generative Network),该模型首先设计了基于信息统计的词条互信息MIW(Word of Mutual Information)算法来计算微博文本词间的信息关联性,其次设计了基于向量矩阵的微博文本表示的词向量矩阵SW-VSM(Subsidiary Word to VSM)算法来表示微博文本,接着通过DCGAN对微博词向量矩阵进行学习,学到微博文本的特征表示,T-DCGAN模型能够提高微博文本数字化表示的精确性。(2)针对传统Kmeans算法对输入初始中心点敏感的缺陷导致微博热点话题发现效果不明显的问题,提出了基于数据挖掘技术的微博文本内容热点话题发现方案。该方案首先设计了基于统计的微博文本频繁项挖掘算法IDSS(Item Space Saving Data)算法来统计微博词条的频繁项,然后提出了基于微博文本距离的微博短文本聚类算法SSDKmeans(Space Saving Distance Kmeans)来划分微博话题类别,最后设计了基于微博话题时间跨度因子的话题热度统计 ITFH(Heat Statistics Based on Microblog Information Time Span Factor)算法来统计话题集中的话题热度,该方案能够高效地发现微博文本内容中的热点话题。(3)针对微博文本热点话题热度趋势预测不够准确的问题,提出了基于概率图非线性条件随机场的微博文本话题热度趋势预测NLCRF(Topic Prediction of Nonlinear Conditional Random Field Based on Probability Graph)模型。该模型首先设计了基于图论的微博文本词图聚类MMGC(Microblog Text Graph Clustering Method)算法来获取微博热点话题的集合,接着设计了基于概率统计的微博话题前区预测PTFA(Prediction Algorithm of Topic Front Area)算法和基于路径回溯的微博话题后区预测PTBA(Prediction Algorithm of Topic Back Area)算法来获取微博热点话题的热度趋势,得到一组话题热度趋势的状态序列。NLCRF模型能够高效地预测微博热点话题的热度趋势。最后,通过真实微博数据集进行大量的实验,表明本文提出的方案相比于传统的方案能够对微博文本内容数字化表示更加精确、高效地发现与预测微博热点。因此,本文设计的方案能够智能化地从迅速生成地海量微博文本信息中发现热点话题,以及对微博文本话题热度趋势进行较为准确的预测,进而更加及时高效地了解到最新的社会探讨问题的热点、舆论趋势,规避不必要的风险。