论文部分内容阅读
短文本已经成为互联网个体在个人独立网络平台上发表意见和分享信息的重要形式。大量的日常信息,如微博、新闻源、网络搜索、论坛信息,已经远远超出了人工所能处理和理解的能力范围。短文本内容简单凝练,含义高度归纳,具有极为丰富的信息资源。对海量的短文本进行理解、处理和分类,可以发掘出用户感兴趣的相关信息。短文本分类是文本数据挖掘的重要手段之一,也是信息过滤、信息检索、用户推荐等领域的一项自然语言处理基础任务。如何快速准确地实现较大规模自动化短文本分类,已经是当前自然语言处理领域内的热点和难点之一。短文本的特点包括:本身文本长度极短、内容信息稀疏,上下文共现信息不足;上下文依赖性强;即时性强且数据规模巨大。目前,传统的基于长文本的自动化文本分类技术已经比较成熟并且应用颇广,但由于短文本的上述特点,导致较为成熟的长文本分类技术直接应用在短文本分类上的效果并不是很出色。针对短文本长度极短、特征稀疏的特点,本文从扩展原始短文本特征入手,在训练好的主题模型上训练短文本,对短文本进行特征扩展;针对传统离散化文本表示的不足,利用Word2Vec工具训练词向量,对短文本进行分布式表示,将加权的词向量短文本表示与扩展后的短文本特征拼接获得一种新型的改进短文本特征表示,最终使用文本分类算法支持向量机(Support Vector Machine,SVM)完成短文本分类。本文的主要工作包括:(1)针对短文本特征稀疏的特点,从扩展原始短文本特征入手,使用适合在短文本层面进行主题挖掘的句子隐含狄利克雷分布(Sentence Latent Dirichlet Allocation,Sentence LDA,简称S-LDA)主题模型得到短文本的主题分布和主题-特征词分布,并以主题词作为特征词扩展原始短文本,实现对短文本的特征扩展。(2)利用短文本数据集同一领域内的外部正文语料库训练词向量模型,使用词向量模型得到短文本的词向量表示;针对词向量无法解决“一词多义”的现象,使用加权词向量表示让词向量获得一定的权重,与利用主题模型扩展后的短文本特征表示进行顺序拼接,结合词向量和主题词向量得到拼接的短文本表示模型,最终实现短文本分类。实验结果显示,对经过主题词特征扩展的短文本进行分类,相比仅仅使用向量空间模型(Vector Space Mode,简称VSM)进行短文本表示的结果是有一定提升的。使用Word2Vec工具,将分布式词向量引入短文本表示中,将词向量与主题向量融合起来进行短文本的特征表示和扩展,从“词”和“句子”两个层面进行语义信息和语句结构挖掘也提高了短文本分类的准确率。