论文部分内容阅读
问答社区已成为一个受大众欢迎的网聚众人智慧的网络交流方式,现有的网络问答社区有百度知道、Yahoo! Answer、爱问知识人、搜搜问答等等。问答社区已经成为现代网络生活中不可或缺的一部分,它提供让用户提问和回答问题并访问已有的问答对的开放平台,使得广大网民的生活智慧得到集中和传播,补充了传统搜索引擎的信息传播方式的不足。 问题分类(Question Classification)是问题-回答系统的第一步,它分析用户以自然语言提出的问题语义,并据此为该问题指定一个适当的类别。问题分类不仅可以降低问题答案的搜索空间,并且可以让领域专家更方便的找到相关问题,从而提高答案的质量。 概念漂移是指随着时间推动,数据概念的分布发生了变化。考虑到概念漂移对数据分类的影响,当前学者将集成学习方法应用到分类领域。但由于网络社区拥有信息量大、分类标签众多(>1000)并有一定层次、网络热点不断变化、数据倾斜、且易受概念漂移影响等特点,现有的集成平分类器只能够较好的完成分类标签少的分类任务,不能适应问题分类的特点。因此,本文提出了两种漂移粒度下的运用不同时刻的层次数据进行集成学习的方法,在分类精度和效率上都相对相同情况下的平分类器有所提高。由于层次分类器上基分类器漂移的速度和时机可能不同,层次分类器的漂移细化为整体漂移和基分类器的单独漂移两种算法,实验表明细粒度的漂移分类效果更好。 同时,由于问题分类原有分类标签树存在单个非叶结点的孩子结点数目过多(>25),本文在给出了基于混淆矩阵的类标签距离、虚类标签和实类标签的定义的基础上,又提出了通过对分类效果不佳的类标签子树进行聚类处理的算法,减小基分类器中分类标签过多引起的特征集混淆严重的问题,加高类标签树的层次,进一步提高了问题分类的精度和效率。针对动态环境,本文提出对层次分类器类标签树进行聚类之后的更新策略,进一步提高概念漂移流上问题分类的分类精度。此外,类标签聚类方法也可同样适用于本身类标签没有层次结构的数据产生类标签层次,并且可以作为一个增强组件与任何静态或动态分类器配合使用提高其分类效率。