论文部分内容阅读
随着信息时代的发展,使得人们越来越依赖手机和互联网获取信息,而在这些信息中有很大的一部分都是以短文本的形式存放,因此对这些海量短文本的挖掘能够很好的了解用户的兴趣信息和舆情走向,帮助我们精确的投放广告和了解用户的观点立场。但是由于短文本的文本长度较短,通常不会超过160个字符,而传统的文本挖掘方式往往依赖于文本中的词频等统计信息,因此传统的文本分类算法应用到短文本上效果难以满足人们的要求。基于这样的背景,本文对短文本分类相关的技术进行了研究和探索。本文的主要工作和贡献在于: ①首先,针对文本处理中的近义词或者同义词,本文通过《同义词词林》构建了一个概念词表,使本文中对短文本进行的处理提高到概念层,使得近义词和同义词在概念层得到统一的概念,提高检索相似概念短文本的准确率; ②其次,在真实短文本语料的基础上,构建了一种使用概念描述的短文本分类方法。该方法首先对待分类短文本进行一个“概念化”的扩展,即使用 BM25算法到数据库中检索和待分类短文本拥有相似概念的训练短文本,组合形成长文本,然后使用传统长文本分类器进行分类。该方法充分挖掘了短文本所包含的语义信息,并利用了传统文本分类方法研究相对成熟的特点,将短文本分类问题转化为长文本分类问题,实验结果表明该方法可以提高短文本分类的准确性; ③进而,对待分类短文本扩展时使用的BM25算法进行了改进。在对待分类短文本进行检索拥有相似概念短文本的过程中,本文使用的是信息检索领域经典的BM25算法进行排序,但是BM25算法对文档中每种词性的词并不进行一个区分加权,而这在短文本分类环境中是较为重要的,本文对BM25算法进行了一个改进,加入了词性的权重。实验结果表明该改进可以进一步提高短文本分类的准确性。 ④最后,基于从网络上抓取的短文本测试集,对上述短文本分类方法及优化方法分别进行了对比性的科学实验,初步验证了提出方法的科学性和有效性。