论文部分内容阅读
随着互联网技术的迅猛发展,社交媒体依靠其特有的网络便捷性逐渐成为现在互联网技术的领跑者。社交媒体已经成为增加人与人之间的交流,获取和传播新闻资讯的重要途径,比较有代表性的是微博、微信、Twitter和Facebook。如何从社交媒体数据信息中找到人们想要获取的内容,是非常有现实意义的工作。然而,社交媒体文本有着与传统的文本信息不同的特点,这使得用传统的数据挖掘技术对社交媒体文本进行分析不能得到很好的结果。基于以上背景,本文针对社交媒体相关的短文本数据挖掘展开了研究。本文根据社交媒体文本的特点,主要针对文本挖掘技术中的两个重要内容进行研究:首先,提出了一种面向社交媒体的短文本特征提取算法。从社交媒体中提取并分析人们所需要的社会属性是目前的一个研究热点,从特征提取的角度来抽象出一个用户的信息全貌,为进一步精准、快速地分析用户兴趣爱好等信息提供了依据。特征提取最直接的一种方法是关键词提取,现在已经有很多相关研究是针对关键词提取来进行的,而对于内容短小,格式不规范的社交媒体信息的关键词提取效果却不尽如人意。本文提出了一种Word2vec和TextRank算法相结合的特征提取算法,将其应用于社交媒体文本的研究中。本文使用Word2vec模型将文本内容映射到一个更抽象的词向量空间,从词语之间的语义关联、词语频度、词语之间的指向性三方面对原有的TextRank算法进行改进,进而进行特征提取,并将该算法用于用户标签的生成。实验证明,本文所提出的W-TextRank算法在新浪微博中准确率、召回率、F值比传统的TextRank算法分别高出30%、15%、20%,程序执行效率提高了30%左右。其次,提出了一种基于词向量的社交媒体短文本分类方法。对于社交媒体短文本信息篇幅小、噪声大、不规范、特征稀疏等特点,传统的分类算法难以取得较好的分类效果,而且基于传统词袋模型的文本表示也不能很好地表示句子的文本特征,为我们对社交媒体文本的研究带来了困难。本文针对此类问题进行研究,从词的特征表示入手,基于Word2vec模型和卷积神经网络(CNN)模型对社交媒体短文本进行了分类研究。鉴于Word2vec模型和CNN模型没有考虑词序和位置的问题,进一步对Word2vec训练的词向量与词序和位置信息进行融合,提出seq-Word2vec和w-Word2vec算法,再将含有词序和位置关系的词向量输入到CNN模型中进行训练。本文将提出的方法应用于社交媒体短文本的分类,实验证明,本文提出的SW-CNN算法和WW-CNN算法在多标签分类下,其正确率比传统CNN算法分别高出了2.7%和3.3%左右。本文的研究在一定程度上弥补了对于社交媒体短文本特征提取和分类方法的不足,为用户兴趣爱好、行为习惯的分析提供了借鉴手段,具有一定的理论意义和应用价值。