论文部分内容阅读
海量信息的存在使得人们对搜索引擎提出了更加智能化和语义化的需求,如概念搜索、语义搜索引擎等。实现它们的前提是需要对文本进行更精确更深层的多类别标注和主题理解,这是传统的分类方法很难满足的。目前常用的文本分类方法主要有支持向量机(Support Vector Machine,SVM)、k值近邻(k-Nearest Neighbor,kNN)及Na?ve Bayes模型等,实验表明在传统文本分类应用中,将文本分到小规模目标类别的任务中这些算法的表现是优秀的,但在面对大规模多层次类别体系时,它们的能力是相当有限的。特别是,在面对组织关系复杂的图结构类别体系时,传统方法的可操作性,时间复杂性,分类效果都是不能让人满意的。基于维基的深度多标签多类别文本分类WDMLC(Wiki-Based Multi-Lable Deep Text Classification)方法是基于维基丰富的语义数据而提出的。WDMLC主要由三部分构成。首先,在文本中匹配维基百科的领域专业概念和类别标签作为文本的特征,并利用维基中概念间的相关性对特征集合进行整理。其次,利用概念和类别间的关系快速生成一个候选类别集合。然后,最重要的是分析候选类的子图连通聚集性,利用过滤策略、基于图的权值贡献模型,深层类别概率推算模型,确定能表达文本主题的最合适的深层类别,即更下层类别不能用于表达文本主题。另外,模型产生所有与文本主题相关类别间的关联关系的视图,能给用户提供更直观的文本相关领域知识。最后通过维基数据集对提出的方法进行了测试。试验表明基于维基图结构的分类体系在针对深层多标签文本分类应用上,该方法的平均准确率、召回率和F-measure值分别达为76%,85%,80%,较目前基于层次的top-down深度分类方法的效果有较大的提高。并且基于维基的深度多标签分类模型有传统方法很难达到的易操作、快速等优势。