论文部分内容阅读
随着“互联网+”战略的深入贯彻,网络舆情已经成为把握时下舆论热点的先锋战场。鉴于网络舆情的重要地位,本文在研读有关网络舆情发展现状和主题模型应用的基础上,提出自适应标签主题模型(ALS-TM)与自适应时间窗动态主题模型(ATS-DTM)两个主题模型,分别从静态和动态两个角度捕捉舆情热点及其演化方向。第一部分,本文提出基于静态视角下的主题模型:自适应标签主题模型,用以提高主题解释力。ALS-TM模型结合主题聚合度指标与K-Means聚类算法,寻找最优分类标签,以此增强主题提取效率。实验结果表明:第一,自适应标签约束有助于降低困惑度。在不同的主题数目下,其困惑度明显低于LDA模型与CTM模型。随着主题数目的增加,ALS-TM模型的困惑度逐步下降。第二,自适应标签约束有助于提高主题的聚合度。ALS-TM模型提取的主题词矩阵可读性与语义连贯性强于LDA模型,能够较好的表达核心主题。第三,自适应标签约束有助于提升主题独立性。ALS-TM模型训练得出的主题间平均差异要大于LDA与CTM模型。第二部分,本文提出基于动态视角下的主题模型:自适应时间窗动态主题模型,用以分析主题演化。ATS-DTM模型结合时间窗相似度指标和ALS-TM模型,划分最优观测时间,分析舆情演化趋势并探测突发舆情。实验结果表明:第一,ATS-DTM模型训练得到的各时间窗的舆情主题区别显著,多数时间窗内的主题聚合度指标值较大。第二,舆情主题一般持续时长15~30天。6月初的热点主题词汇“房价”、“买房”、“收入”受到关注较多,并持续走热至7月上旬下降,持续时长为30天。第三,突发舆情可以被有效探测。8月初的“811汇改”事件被ATS-DTM模型准确捕捉并反映,其主题为“汇率”、“贬值”、“人民币”。