论文部分内容阅读
针对传统的短文本分类方法大量使用语法标签和词库导致产生语言依赖的问题,提出一种基于语言无关性语义核学习的短文本分类方法。首先,利用短文本的语义信息从文档中提取模式;然后,以三个标注层(词、文档和类别)标注提取出的每个模式;最后,根据三个标注层次计算文档之间的相似度,并根据相似度完成分类。在英语和汉语数据集上的实验验证了该方法的有效性。实验结果表明,相比其他几种核方法,该方法取得了更好的分类性能。