论文部分内容阅读
这是一个科学飞速发展的时代,借助计算机等工具以及人类历史上长期的知识积累,各个学科的信息越来越深入和系统,人们迫切需要将这些特定领域的知识进行系统化的分析和归类从而为以后更深入的研究做好准备,于是特定领域内的文本分类成为当前研究的一大热点。
目前,特定领域文本分类主要是在传统文本分类的基础上,利用已有的特定领域知识库对文档进行特征选择,用特定领域内的知识来表示文档。这样就带来一个问题,如何寻找合适的知识库来尽量准确地表示文本;对于新兴的学科而言,在尚未形成任何系统化的知识库的时候,又如何进行分类?因此,理想的特定领域文本分类方法是能够不借助于任何的领域知识而能够很好的进行分类。同时,在一般的应用中,由于对训练文档进行标注需要耗费大量的人力,所以通常在分类任务的训练集合中所给出的正例和负例的数目都是非常有限的,并且通常标注的正例和负例的文档数目分布也相当的不均衡,大多数情况下训练集合中都只标注出了少量的正例文本。如何从少量的已标注训练样例中获得足够的类别信息以辅助分类也是目前研究文本分类的一个难点。
本文综述了现有特定领域文本分类系统的现状,详细介绍了在特定领域内,对于训练集中正负例分布不均衡,且其中包含有大量未标注数据的半监督文本分类问题,提出了一种基于紧密度衡量的分类方法。本文讨论了特定领域半监督文本分类系统的设计与实现细节,并实现了一个用于该类分类问题的系统。本文的工作主要包括:
●本文综述了现有特定领域文本分类的研究现状,指出了现有方法由于需要依赖于领域相关本体而带来的局限性。
●本文详细分析了半监督文本分类问题的研究现状,给出了几种传统的用于半监督文本分类问题的算法并指出了这些算法的局限性。
●提出了一种基于紧密度衡量算法来解决此类的文本分类问题,将通过实验将该算法与其他传统的基于特定领域内文本分类的方法作了详细地比较与分析。
●设计和实现了一个用于特定领域内半监督文本分类问题的系统,并在TREC’05的基因任务数据集上进行了实验,与TREC’05基因任务的其他组结果相比,总体的分类效果都有不同程度的提高,显示了这种算法的优越性和适用性。