论文部分内容阅读
随着互联网大数据的快速发展,网络上的文本数据和网页数据呈现几何级增长,为了从海量的文本数据中快速准确地获取潜在的信息,需要对文本进行更精确更深层的类别标注和主题理解。因此,文本分类技术就成了重要的研究内容。大规模多层次文本分类研究是近几年的研究热点,自2009年下半年开始,研究人员对大规模多层次文本分类的研究技术非常重视,并且国际上经常进行研究成果的公开测试和分析,在2014年举办的大规模中文新闻分类评测中,综合分析多家参赛单位的分类技术成果,其中最好系统的分类性能都低于50%,这种结果不能满足实际应用的需求。因此,对于大规模多层次文本分类问题,高精度的多层次文本自动分类技术非常有必要继续深入研究。本文首先在学习了大规模多层次分类问题处理策略的基础上,采用扁平化的处理策略和化繁为简的方法。引入搜索、分类两阶段的处理思想,在搜索阶段,结合类别层次树的结构特点和类别间的相关联系等隐含的领域知识,进行了类别层次权重分析和特征项的动态更新,为类别层次树的各个节点构建更具分类判断力的特征项集合;进而,采用深度优先搜索算法并结合设定阈值的剪枝策略缩小搜索范围,搜索得到待分类文本的最优候选类别。最后在候选类别的基础上应用经典的KNN平面分类算法进行分类测试和对比分析。实验结果显示,文中提出的改进算法在分类实验中提高了平均F1值,分类效果比较理想。其次,在学习研究本领域相关算法的基础上,提出了基于中心向量的多级分类KNN分类算法,并应用于大规模多层次文本分类的分类阶段。该算法引入基于密度的思想对全部训练样本进行调整,通过样本裁减技术使样本分布更趋于理想的均匀状态,同时计算各类别的类中心向量。在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中。最后一级选用合适的m值(预选类别个数),根据最近邻对待分类文本进行所属类别属性的准确判定。实验结果表明,该算法在不损失分类精度的情况下,不仅降低了计算复杂度,而且显著提高了分类的速度。