基于词性和关键词的英文短文本测量方法

来源 :河南大学 | 被引量 : 0次 | 上传用户:fangaocang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,移动终端的智能化,社交媒体也得到了迅猛发展。如今,每天都有大量用户使用社交媒体,社交媒体中传播的信息量也飞速增长。获取这些在社交网络中传播的信息,掌握其传播和发展的规律,对于热点挖掘,商业营销和舆论控制等方面都有很重要的研究价值。对于挖掘数据来说,其较为关键的一点是得到文档之间的相似度,如何求解文本相似度引起越来越多研究者的关注。早期的文本相似度主要侧重于长文本方面,近些年,由于社交媒体上对字符进行限制,所以人们在使用社交媒体的时候更青睐于使用短文本来表达自己的观点,此时,短文本相似度的测量显得更为重要。但是短文本包含的信息量远不及长文本,所以传统的用于长文本相似度测量的方法在短文本相似度测量效果并不好,因此如何更好的测量短文本相似度显得尤为重要。因此,本文提出了基于词性和关键词的短文本测量方法,并将其应用于流行程度预测中,主要工作如下:1.对短文本测量方法Word Mover’s Distance(WMD)算法进行改进:WMD算法首先使用word2vec将文本中的单词在向量空间上的表示,然后通过汇总各个单词的相似度来计算两个短文本之间的距离,WMD算法在多种数据集上都取得了较好的效果。然而这一方法将句子中所有单词赋予同等的权重,没有考虑不同词性的差异和关键词的重要性。因此,本文考虑词性和关键词的重要性,在计算文本相似度时将不同的词语赋予不同的权重,并提出计算权重最优化算法。基于微博情感倾向分类的实验表明,本文改进的WMD算法可以取得更好的性能。2.将改进的WMD算法应用于微博流行度预测中:本文分别使用改进的算法与原有的WMD算法方法提取相似度特征,采取SVM和逻辑回归两种模型,对微博流行度进行预测。通过对比实验发现,使用改进WMD算法在微博流行程度预上可以获取更高的准确率。
其他文献
从审美角度讨论和关心人的发展问题是现代性的一个重要维度。梁启超美学以其对现代社会文化系统中人的精神状态的关注而呈现出独特的美学风貌。他的美学是以国民的精神基质转
经济能够持续稳定的增长,需要高效的产业结构模式,而产业结构的改变会使得土地利用结构随之改变。本文根据对芜湖市产业结构和土地利用结构数据进行相关性分析,理清两者间的
Y地区龙马溪组-五峰组页岩颜色相似,肉眼难以区分。通过研究建立元素与岩石组分之间的数学模型,形成了基于XRF元素录井的三端元图板,将工区内的页岩划分为石英+长石、碳酸盐、
基于粘弹性人工边界的时域波动方法,利用有限元分析软件ABAQUS实现了三维平面SV波的斜入射,模拟了直埋管道三通的三维地震反应,对比分析了不同入射角下埋地管道的地震反应规
近世代数是一门数学专业的重要基础课.本文就自身的教学过程和经验,浅谈几点教学体会.
经过连续493天供输天然气,中缅管道向广东和广西输气量累计突破10×108 m3,其中向广东省转供天然气所占比重较大,共计8.9×108 m3。2013年,中缅管道转供广东全省天然气总量达
期刊
一、儿童美术教育的培养目标  现代儿童美术教育的核心目标是儿童审美创造力的培养.儿童美术教育的目标,应注重培养儿童初步感受美的能力,注重参与美术活动的态度,注重真实
依据数据属性间的相似信息,提出了一种分类方法.该方法将属性矢量化,属性作为m维空间的基本矢量。数据记录作为属性矢量的和彳4用属性间先验的概念相似信息,给出了求取任意属性矢
介绍了电化学絮凝法处理工业废水的基本原理及其在处理工业废水中的应用现状,并对电化学絮凝法处理煤泥水的应用前景进行了展望。
自主设计了熔铸炸药加压凝固过程实验装置,研究了0.6MPa外加压力条件和常压条件下RDX/TNT60/40及硝酸钡/微晶蜡60/40凝固过程中不同位置温度变化及冷却速率。常压条件下RDX/TNT60/40