论文部分内容阅读
话题跟踪是将后续新闻报道与已知话题关联起来的过程,是网络舆情分析的研究热点。文本分类是话题跟踪的主要方法之一,广义线性模型属于固定参数的概率模型,是一种因具有不改变数据自然度量、能够处理非线性和非恒定方差数据的优点而被广泛使用的分类方法。但是其具有训练时间长且模型参数在算法生命周期内固定等缺点,不适应话题发展演化的动态特性。因此,本文在分析新闻话题发展演化特性的基础上,对广义线性模型进行了改进,给出一种可以适应话题动态发展演化的非参数广义线性模型,解决了固定参数话题跟踪模型不能适应新闻话题动态发展演化的问题。本文的主要工作如下:1.分析并归纳话题发展演化的特性,与新闻本体联系,给出了一种适合新闻数据特征的文本预处理方法。对比分析LDA与主成分分析方法的工作原理与适用环境,结合实验得出:在新闻数据集上,使用主成分分析方法降维后的数据具有特征之间相互独立的特点,与本文给出的非参数广义线性模型的适用环境一致。2.针对传统特征权重算法未充分体现特征项中类别信息的问题,在研究分析基于向量空间模型的特征权重算法的基础上对卡方统计量进行改进。通过引入类别区分度因子,提出了一种基于类别区分度的卡方统计量算特征权重法,该算法能够更准确地提取出对新闻区分度较大的特征词。3.针对广义线性模型不能很好地描述话题动态发展演化的不足,依据向量空间模型的特征独立性原则,用贝叶斯方法分析广义线性模型中的自然参数~η,证明了~η在特征独立的数据集上具有条件概率不变的性质。使用该性质可以弱化广义线性模型中对自然参数~η的内积假设,从而提高模型的泛化能力和对不同数据集的拟合能力。考虑到话题具有动态发展演化的特点,使用非参数估计求解改进后的模型,将传统固定参数的广义线性模型改进为可以适应话题动态发展演化的非参数广义线性模型。最后我们对本文给出的算法进行实验验证。在UCI数据集、TDT数据集和网络新闻数据集上进行实验,分类准确率与F1值均有较大提高,验证了本文算法的有效性。