论文部分内容阅读
在现实世界中,我们可获得的大部分信息都是以诸如书籍、研究论文、新闻、数字图书、Web页面及电子邮件等各种形式出现的。这些形式的信息通常称为文本信息,它们由来自各种数据源的大量文档组成,主要存储在文本数据库中。文本数据库中存储最多的数据是半结构化数据,它既不是完全无结构的也不是完全结构化的。据统计,80%以上的数据都是以非完全结构化的形式存在,而且由于电子形式的信息量也正在迅猛增长,使得文本数据库得到迅速的发展。为了在这些海量的、异质的、非结构化的数据源中提取感兴趣的、潜在的有用模式和隐藏的信息,也需要对文本信息进行数据挖掘,这就是文本挖掘。随着文本数据的迅速增长,文本挖掘已经成为了数据挖掘领域的一个重要的研究方向。 通过数据挖掘,可以从大量的数据中提取或发现知识。模式则是知识的一种表述形式。所以无论是在数据挖掘中,还是在文本挖掘中,模式挖掘都是其中的一个重要环节。分类和聚类是两种常见模式挖掘的方法。 无监督文本聚类算法(UTC)是一种把无监督聚类算法(UC)用于文本聚类的方法。算法通过指定聚类半径R,分别对每类文本进行聚类并获得聚类中心;然后,把聚类中心作为对文本的预分类:即对任意文本,计算其与各聚类中心的距离;找到与其距离最近的聚类中心后,该聚类中心所对应的类就是文本的所属类。该方法的特点是分类速度快,但准确率较低。 朴素贝叶斯分类以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,成为数据挖掘领域中的一个热点,在数据挖掘中具有广泛的应用。 论文在分析无监督文本聚类和朴素贝叶斯分类特点的基础上,提出了一个对不带任何类别标志的文本进行准确分类的方法。采用向量空间模型(VSM)来对待分类的文本进行表示,即将文本表示成在n维向量空间中的一个点。指定聚类半径R,利用无监督文本聚类方法进行聚类,获得文本类别标志集合和聚类的正例中心和反例中心,然后把聚类结果中的那些处在包含正例中心区域内的文本作为训练样本来对朴素贝叶斯分类器进行训练,最后再将在聚类结果中处