基于加权Word2vec的微博文本相似度计算方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:bfxj8812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断深入发展,各大社交平台出现,产生着大量的文本信息,对这些文本信息进行挖掘处理可以将这些文本数据进行有效合理的分类,也可以通过对这些文本信息的深入挖掘发现网民思想动态、情绪走向等。微博作为互联网技术发展重要的产物之一,由于使用门槛低等特点,使得微博参与者数量非常多,微博关于社会生活事件的讨论度也非常高,因此对其进行文本挖掘分析具有非常重要的意义,与此同时,在文本挖掘领域,文本相似度计算是许多其它文本挖掘应用的基础,能够解决互联网上大量文本的杂乱无序问题,在自然语言处理领域当中非常地重要,能够为后续的文本挖掘处理提供基础支撑。针对微博文本传播特点,做好微博文本相似度计算面临着巨大挑战。本文为解决这一问题,引入词向量优点,通过分析文本相似度计算的总体框架流程,在综合考量文本的语义信息和表层统计信息的基础上,构建了一种新的相似度计算方法。详细地设计和描述了本文设计的文本相似度计算模型的各个模块。本文做的主要工作和得到的研究成果如下:(1)探讨了文本相似度计算的研究发展历程以及研究现状,结合本文实际研究背景给出了文本相似度的定义及内涵、常用的文本表示方法和几种经典的文本相似度计算模型,并详细地阐释了本文用到的词向量技术,为模型的建立打下了很好的基础;(2)通过广泛地阅读相关文献,对现有的文本相似度计算方法进行了总结分析,在此基础上给出了本文提出的基于加权Word2vec的文本相似度计算方法的提出动机,并对该文本相似度计算方法的总体框架进行了概述;(3)通过对模型各个模块关键技术的分析,利用大数据环境下词向量可以很好表示词语语义信息的优势,分析文本特征并完成了整个模型的构建。同时详细的分析了文本预处理、文本特征向量获取、相似度计算等关键技术的具体功能和实现流程;(4)在以上理论研究和相关技术分析的基础上,将本文提出的文本相似度计算方法应用在采集到的微博实验数据集一中进行文本分类研究,通过对实验结果进行的分析对比验证了文本提出方法的可行性。在采集到的微博实验数据集二中,采用本文提出的文本相似度计算方法利用K-means进行微博文本聚类,从而得到这些文本聚簇的主题,并提取出现频率最高的词语来表示这些文本聚簇的主题。
其他文献
'历史'(Loropld)一词,在古希腊语中的最初含义为询问、调查,后来延伸为'作为询问结果而获取的知识'.史学之父希罗多德在撰写关于希腊和波斯战争的著作时,将
本文侧重对吉林省近年来矿产资源的基本现状做了初步的归纳和分析,并对开发利用进行了展望.
目的 用蛋白质组学相关技术分析难免流产与正常早孕子宫内膜蛋白质组的差异,探讨自然流产发生的可能机制。方法 用固相pH梯度双向凝胶电泳(2D—PAGE)分别分离难免流产(研究组)者和
公路建设项目前期工作作为项目投资决策的前提和依据,是基本建设程序的重要组成部分,是项目建设成败的关键。高速公路项目在可行性研究审批阶段必须开展一些前置条件工作,包括
我公司现有4台上引纸复卷机,在长期的使用过程中出现卷筒纸内起折子、断头多,退纸跳动等问题,公司于2005年6月对传动部位要求同轴度较高的联接方式进行了技术改造,改为OFU型万向
预处理反应器是山东胜星化工有限公司180万t/a加氢裂化项目的核心设备之一。本文主要从预处理反应器翻转的角度,介绍了预处理反应器的概况、翻转方法、翻转的关键点和翻转的
具有任意角度(扇形所围成的角度)和任意方向(扇形所取方向)的扇形数字滤波器在图像数据压缩和地质、地震等方面的数据处理中有着广泛的应用。目前,大多数的工作多集中于水平及垂直
本文在用生产函数法测度新疆现代服务业发展潜力基础上,从生产要素供给角度建立现代服务业潜力综合评价指标体系,采用熵权法赋权的TOPSIS法客观测评新疆现代服务业发展潜力,
我从1960年起到宜宾地区工业局担任领导工作,一直和地方煤矿打交道,常为伤亡事故多而伤脑筋。近两年来,我们局加强了地方煤矿安全生产的领导,全地区地方煤矿连续两年创造了安
去年12月,华南师范大学与凤凰卫视联合发布“凤凰微课”移动学习客户端,将微课从课堂推到了我们每一个人身边。其实国内微课在佛山开始兴起。对比以前,研究成果到实际推广应用少
报纸