论文部分内容阅读
针对网络舆情分析领域中内容噪声过滤这一关键技术问题,本文分析了网络流量内容噪声问题的特点,提出了一种基于词频时间序列分析的网络内容噪声过滤方法,该方法通过拟合词频时间序列的自回归(AR)模型,采用AR模型参数向量在多维向量空间中描述流量内容时序特性,并使用支持向量机分类方法区分正常内容与噪声内容,可作为网络舆情分析、内容审计等多种网络内容分析技术的数据预处理方法,基于真实数据的实验结果表明,该过滤方法能够有效过滤网络内容中的高频噪声信息,并达到较好的性能指标。