论文部分内容阅读
语料库和词典作为自然语言信息处理研究方向重要的基础资源,与信息技术之间有着相辅相成的关系。语言形式的发展和复杂性决定了了解语言的特点必须有符合要求的语料支持。中文语料库经过近几年的发展,在建设与应用方面都做了大量的工作。但由于数据挖掘技术的研究越来越受到重视,用于分类的语料库在各领域上的需求无论是在量还是在专业性上的要求都逐渐增加。前期构建的传统语料库在新颖程度、专业性、构建方法等方面无法完全达到研究要求。所以,文本分类语料库的构建研究对于信息处理领域是一个十分重要的研究方向。在文本分类己经成为大规模数据应用处理的核心和基础的今天,语料库研究的滞后成为信息技术发展的阻碍。同时,由于社交网络的出现,短文本形式的信息大量涌入人们的生活中。这就意味着传统的语料库已经不足以应付现在的理论研究,传统的研究方法在短文本分类上也体现出缺陷和不足。而大规模的短文本语料涵盖了人们对各种社会现象中的各种立场与观点,因此在舆情调查、热点话题的挖掘发现、新词发现、话题识别等领域有着重要的应用前景。分类是对这些短文本进一步挖掘的重要步骤,短文本的分类也越来越受到人们的关注。本文针对短文本数据构建了适合分类、主题建模的短文本语料库,并融合了主题特征对分类方法进行改进,提高短文本分类的效果。涉及的工作内容主要有以下几个方面:1.针对各种专业短文本语料库和通用短文本语料库的缺少,构建小规模的短文本实验语料库。通过新浪API获取微博短文本数据,搜集6个类别共2万余条。并对语料库进行一定的加工处理,如类别标注、主题建模和词典构建等工作。最后,对构建的语料库进行相关的验证实验。2.针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不是理想的问题,在TF-IWF的基础上进行改进并结合BTM主题模型,提出了一种综合特征提取算法来进行短文本分类。首先,在特征权重计算方面对TF-IWF算法中的TF的计算方式进行改进,同时引入词分布熵变量,通过实验验证分类效果。其次,引入BTM主题模型中“文档-主题”概率分布来加强文档之间的上下文联系。一定程度上解决短文本由于长度短、上下文信息缺失导致二义性的词含义难以确定的问题。最后,根据短文本在进行特征选择之后容易出现文档为空的问题,利用BTM主题模型中“主题-词”概率分布对短文本进行扩充。选择哪个主题下的主题词集对文档进行扩充的依据在于:选择该文档主题概率分布值最大的那个主题的主题词集。实验证明当补充主题词个数为1时可以提高分类效果,同时在计算效率和空间上并没有带来额外的开销。