基于社交媒体的短文本数据挖掘研究

来源 :天津理工大学 | 被引量 : 15次 | 上传用户:baby3911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,社交媒体依靠其特有的网络便捷性逐渐成为现在互联网技术的领跑者。社交媒体已经成为增加人与人之间的交流,获取和传播新闻资讯的重要途径,比较有代表性的是微博、微信、Twitter和Facebook。如何从社交媒体数据信息中找到人们想要获取的内容,是非常有现实意义的工作。然而,社交媒体文本有着与传统的文本信息不同的特点,这使得用传统的数据挖掘技术对社交媒体文本进行分析不能得到很好的结果。基于以上背景,本文针对社交媒体相关的短文本数据挖掘展开了研究。本文根据社交媒体文本的特点,主要针对文本挖掘技术中的两个重要内容进行研究:首先,提出了一种面向社交媒体的短文本特征提取算法。从社交媒体中提取并分析人们所需要的社会属性是目前的一个研究热点,从特征提取的角度来抽象出一个用户的信息全貌,为进一步精准、快速地分析用户兴趣爱好等信息提供了依据。特征提取最直接的一种方法是关键词提取,现在已经有很多相关研究是针对关键词提取来进行的,而对于内容短小,格式不规范的社交媒体信息的关键词提取效果却不尽如人意。本文提出了一种Word2vec和TextRank算法相结合的特征提取算法,将其应用于社交媒体文本的研究中。本文使用Word2vec模型将文本内容映射到一个更抽象的词向量空间,从词语之间的语义关联、词语频度、词语之间的指向性三方面对原有的TextRank算法进行改进,进而进行特征提取,并将该算法用于用户标签的生成。实验证明,本文所提出的W-TextRank算法在新浪微博中准确率、召回率、F值比传统的TextRank算法分别高出30%、15%、20%,程序执行效率提高了30%左右。其次,提出了一种基于词向量的社交媒体短文本分类方法。对于社交媒体短文本信息篇幅小、噪声大、不规范、特征稀疏等特点,传统的分类算法难以取得较好的分类效果,而且基于传统词袋模型的文本表示也不能很好地表示句子的文本特征,为我们对社交媒体文本的研究带来了困难。本文针对此类问题进行研究,从词的特征表示入手,基于Word2vec模型和卷积神经网络(CNN)模型对社交媒体短文本进行了分类研究。鉴于Word2vec模型和CNN模型没有考虑词序和位置的问题,进一步对Word2vec训练的词向量与词序和位置信息进行融合,提出seq-Word2vec和w-Word2vec算法,再将含有词序和位置关系的词向量输入到CNN模型中进行训练。本文将提出的方法应用于社交媒体短文本的分类,实验证明,本文提出的SW-CNN算法和WW-CNN算法在多标签分类下,其正确率比传统CNN算法分别高出了2.7%和3.3%左右。本文的研究在一定程度上弥补了对于社交媒体短文本特征提取和分类方法的不足,为用户兴趣爱好、行为习惯的分析提供了借鉴手段,具有一定的理论意义和应用价值。
其他文献
目的本文旨在介绍一种治疗小儿体表脓肿的新方法——套环引流术,并与传统脓肿切开引流术的疗效进行对比。方法回顾性分析南通大学附属常州市儿童医院2018年1月至2019年3月接
文学名著是一代又一代读者挑选出来的经典作品,这些作品的思想、情感、艺术特色都有培育学生语文核心素养的作用。由于当代学生的阅读量较少,阅读能力较低,导致名著阅读难以
改革开放30多年,我国逐步实现了从计划经济体制向市场经济体制的转型。但这种转型还不完善,其重要表现之一是个人、企业、政府等市场经济主体的道德责任感还没有普遍确立起来。
目的探析DNA免疫吸附血液灌流器治疗狼疮性肾炎的效果。方法 48例狼疮性肾炎患者,根据随机分配原则分为对照组和观察组,各24例。对照组采用常规药物治疗,观察组采用DNA免疫吸
外汇管理对外汇指定银行的依存度很大,有相当部门的外汇监管意图例如结售汇管理、外汇帐户管理、国际收支问接申报等,要通过外汇指定银行来实施。本文拟对加强和改善外汇指定银
从表面上看,我市目前的资金形势是:一方面,银行增存大于增贷,可用资金较多,信贷投入较少;另一方面.企业资金普遍较紧,资金缺口很大,经济发展的主要矛盾在于资金供应问题。但
用密度泛函理论(DFT)的B3LYP方法,在6-311++G(d,p)基组水平下研究了CO与OH自由基反应的微观机理.全参数优化了反应过程中各反应物、中间体、过渡态和产物的几何构型,振动分析结果证实了
随着人民群众经济水平的不断提升,人们的生活物质水平也会相应的提升。而在人们的物质生活中,占据大部分比例的就是动物性食品。所以,从这个方面来说,动物性食品是否符合安全
引言 220KV倒送电是核电厂建设过程中的一个重要里程碑节点,所谓的倒送电就是通过厂区辅助变压器,把电网的高压电变成厂内可用的中压电,从而满足核电厂建设施工和调试用电的
目的:高效液相法测定森登-25中栀子苷的含量。方法:以GRACE C18柱(250mm×4.5mm,5μm),乙腈-水(12:88)为流动相,检测波长为238nm,流速为1m L·min^-1,柱温为40℃结果:线形范