论文部分内容阅读
随着科技的进步和大数据时代的到来,各种复杂多样的数据集不断涌现。这些数据往往呈现出海量、超高维、稀疏、时变结构等特点。统计学作为一项基本的数据分析工具,越来越多地得到社会各界的关注,也迎来了新的挑战。文本分类问题就是大数据时代的产物之一,各种分类方法应运而生。如何从复杂的文本数据中获取有用的信息,并实现自动分类,是本文主要研究的问题。本文提出了一种新的汉语文本分类方法,即动态朴素贝叶斯模型。这是一种数据驱动的方法。汉语文本数据集来自于长春市市长公开电话项目,其目的是将百姓的电话投诉文档自动地分配给政府的各个职能部门,然后使投诉事件得到及时地处理。为此,收集了该数据集中出现的大量汉语词汇。根据这些词在文档中是否出现,构造出了高维两值向量。由于这个数据集中出现的汉语词汇量是极其庞大的,这就导致了两值特征向量是超高维的。所以过去一直使用简单且高效的朴素贝叶斯方法对该数据集进行分类。然而,绝大多数词(或特征)是与类别无关的,不仅带来了大量的冗余计算,而且影响分类的精度。因此,特征选择问题就变得尤为重要.本文首先研究了超高维两值数据的特征选择问题,针对朴素贝叶斯模型,提出了一种基于Lo正则化的特征选择方法。该方法在模型选择的意义下是最优的。并从理论上和模拟数据分析分别验证了在超高维情况下该方法的特征选择相合性。然而,在实际问题中,特征是否与类别相关往往没有明确的界定,而是相关程度有强弱之分。在这种想法的驱动下,提出了一种特征加权的方法,使得分类精度得到进一步提高。研究经验表明,在每天的不同时间,投诉文档可能遵循不同的分类模式。不幸的是,标准的朴素贝叶斯方法并不能把这一重要信息考虑进来。为了解决这一问题,提出了动态朴素贝叶斯模型。这种新方法在每天的同一时间采用标准的朴素贝叶斯方法,而在不同时间允许按照不同的模式进行分类。这是通过让模型参数随时间平滑变化来实现的。本文应用非参数平滑技术(如核平滑方法)来估计参数,并提出了用BIC型模型选择准则来选择特征。此外,还给出了该方法的渐进性质,并通过模拟数据分析和实例分析证实了该方法的优越性能。尽管动态朴素贝叶斯方法是基于汉语文本数据集而提出的,但它还可应用于任何具有两值特征和时变结构的分类问题,也可以自然地推广到连续数据和其它离散数据。可以预见,该动态分类方法将具有广阔的应用前景。