论文部分内容阅读
处于信息大爆炸时代的现代信息社会,大量的短文本正以迅猛的势头闯进了人们的生活中。短文本的形式有很多,比如,email,微博,手机短信,新闻标题摘要,书评及影评,产品介绍及评语,企业中的业务流通信息等等。由于这些短文本呈现爆炸式增长,并且含有的信息量非常大,而且传播迅速影响广泛,已经越来越引发研究人员关注。如何准确有效的从中获取所需的资料和信息,从而更好的辅助人们的工作和学习,文本分类技术在其中发挥着举足轻重的作用。所谓的短文本,指的是长度比较短,字符数通常在百个字符以内的文本,内容简洁精练概括。文本相似度计算是文本处理的一项基础而又重要的工作,它是实现文本分类的关键技术。目前有很多文本相似度的度量方法,比如TF-IDF权值方法,基于语义理解的相似度计算,基于隐形语义标引LSI的相似度计算等等。但是这些技术没有将统计信息和语义信息合理的相结合并进行有效的分析,因此,缺乏对短文本相似度度量的有效支持。传统文本分类处理技术主要针对的是普通文本即长文本,相应的技术也有很多,比如,k-NN(k最近邻方法),朴素贝叶斯网络,最大熵方法和SVM(支持向量机)等。这些技术性能稳定,效率高,对于长文本分类十分有效。但短文本具有一些独有的特征,比如,长度短,包含信息比较单一,文本特征向量稀疏等。所以,传统的文本处理方法不能满足对短文本处理的要求,短文本对文本处理提出了更高的要求和挑战。基于上述的分析,本文提出一种基于互信息的文本相似度度量函数。它不但考虑了文本间的相互语义关系,而且还通过概率统计保证了相似度的准确性。它将文本间的语义关系通过统计信息的计算得以表示,从而实现文本间的语义关系的衡量。对于面向短文本分类来说,同其它分类技术相比较,VSM的适应性最好,但它仍然不能有效的支持短文本分类的要求。通过对短文本的分析,发现主题词往往对短文本的分类起着关键作用,故而本文考虑引入主题词来辅助VSM进行分类。进而,通过对训练集进行统计分析,抽取出部分主题词和类别的二元映射关系。利用这种映射关系辅助VSM进行分类,能提高短文本分类的准确性,并且能减少文本分类的时间。最后,在实际的数据集上进行了一系列的实验来验证基于互信息的短文本相似度函数的性能,以及评判主题词和SVM分类器相结合短文本分类算法的各项性能指标。各项数据表明基于互信息的短文本相似度和基于主题词的SVM分类器性能优良,效果稳定,实现了高效快速的短文本处理。