论文部分内容阅读
随着互联网在全球范围内的快速发展,人们面临的信息呈指数增加。面对Internet上信息的纷繁芜杂,如何快速、准确全面获取信息,文本的分类技术作为一种有效组织信息,方便信息定位的技术,在近十几年获得了长足的发展。现实的分类体系更多的具有层次性的关系,因此,层次性分类体系下的文本分类具有很好的应用价值。一般层次分类中的类别以目录树的形式组织,形成分类体系的层次关系,层次文本分类采用的是一种分治的策略,整个分类过程从根节点开始,待分类文档分配到一个或者几个子分类树节点下,重复该过程,直到不能继续分类或者到达叶结点为止。本文的主要工作如下:(1)提出了一种多分类器融合的文本分类方法。通过引入可信度函数,选择出主分类器较难判决的文本,通过辅助分类器,对单一主分类器不易判决的文本通过多分类器投票方式进行判决。实验表明,该方法有效地提高了最终分类的准确性,时间开销较单一主分类器只有少量增加,在平面分类与层次分类语料集合上,获得了较好的效果,显示了很好的应用性。(2)应用多重特征选择与多分类器融合方法实现层次文本分类。本文针对层次性分类体系的特点,应用多重特征选择方法,针对不同层次,对不同的子分类任务采用不同的特征空间,更好地代表参与子分类任务的类别,使其具有更好的可区分度,同时将多分类器融合方法应用于此,在实际的测试中获得了较好的应用效果。(3)将多分类器融合的方法应用于文本倾向性分类判别。在篇章级的文本倾向性判别上,本文提出了一种基于多分类器融合的文本倾向性判别方法,针对倾向性分析任务,假设包含不同倾向性观点的文章中褒贬词汇的分布的不一致性,从Hownet中选择出有倾向性的词汇,并应用特征选择方法选择出部分倾向性词汇,与常规方法获得的非倾向性词汇构成混合特征空间,并在实际测试中取得了较好的效果。在针对特定领域的倾向性判定中,获得了较高的效果,具有较好的应用前景。