论文部分内容阅读
随着互联网等信息技术的高速发展,网络上无时无刻都在产生着海量数据,以广告词、论文标题、网页评论以及微博信息为代表的短文本数据是这些数据的主要存在形式之一。因此,如何智能的对这些短文本数据进行挖掘、分析和归类是数据挖掘领域普遍关注的热点问题,近年来已经出现了多种短文本分类技术。现有的方法在对短文本分类时,只是单纯的根据知识库对短文本进行同义词和近义词扩展,然后按照长文本的分类方法指导短文本分类。这种方法引入了大量无关特征,而且没有考虑词语间层次上的语义关系,以及词语间的组合语义。因此,本文重点对短文本的多层语义特征的生成和提取做了研究,并用这些特征来指导短文本的分类。本文首先综述了现有的文本分类技术,并基于此,将短文本的特征抽象为四层语义特征,并提出了支持多语义层次的短文本特征提取和分类框架。为了尽最大限度的保留了文本原有语义特征,本文首先提出了改进的基于词性标注的分词方法,并以此作为短文本的分词方法。提出了基于Probase的短文本的三层语义特征生成与选择方法,将短文本中原有的单词扩充到概念、实例和属性三层语义特征集合上,达到了文本特征层次化的效果。同时,在基于Probase生成特征词典时,通过同类特征求交集不同类特征求并集的方法来生成特征词典,并且基于贪心思想的优化算法来降低特征词典的维度,有效的提高了短文本分类的精确性。提出了基于潜在狄利克雷主题模型生成文本主题特征的方法,考虑了词与词之间的组合语义特征,使短文本的层次化特征表述更加全面。提出了基于Probase和潜在狄利克雷模型的四层语义特征模型,以进一步全面表述短文本的特征,使短文本分类的准确性大大提高。最后,在真实的数据集上进行了大量的测试研究,通过实验结果本身及对实验结果的分析,证明了支持多层语义的短文本特征提取方法更能全面的抽取短文本的特征,同时短文本的多层语义特征更能精确的指导短文本分类。