基于语义的网络流行语趋势分析

来源 :北方工业大学 | 被引量 : 2次 | 上传用户:kingly1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理方面,构建可计算的词语、文本语义特征是多数自然语言处理任务的基础。本文提出一种词语语义相似度计算方法,通过结合文本之外的先验知识,提高在特征稀疏情况下的模型准确率;同时结合词语语义相似度计算与LDA(Latent Dirichlet Allocation)定义文本间的语义距离,通过K-Means聚类获取语料中的事件。两个方法可以结合外部知识改进对词语、文本向量化的过程,提升基于向量的相似度计算的效果。论文的两个主要方面分别为:改进词语语义相似度计算:向量化是词语的语义可计算的关键。本文提出了一种结合词语关系的改进词语语义向量计算法。该方法基于Word2Vec的思路,在通过当前词语预测上下文词语的基础上,同时预测词语在词语关系中的邻接位置。模型将词语经过编码矩阵得到语义向量,再经过解码矩阵得到对上下文词语与词语关系等稀疏特征的预测。通过模型参数对误差的梯度来迭代调整模型,最终得到词语到语义向量的映射方法。该方法可以用过添加额外的词语关系网来缓解文本本身的特征稀疏情况,提高词语语义相似度计算的准确性。改进基于LDA的事件发现:基于LDA的事件发现是通过LDA模型得到文本的主题词向量,并通过主题词向量之间的余弦距离聚类得到文本簇的方法。本文提出了一种融合了词语语义相似度计算与词语在频域特征的文本语义距离计算方法,进而改进了基于LDA的事件发现算法。首先将文本根据时间窗分割后进行LDA计算得到文本的主题词向量,并根据融合词语语义相似度的距离定义进行K-Means聚类得到时间窗粒度的事件;然后根据主题词的词频特征合并时间窗粒度的事件,最终得到事件。该方法可以通过融合额外文本中的词语语义相似度信息,改善对短文本事件发现的准确性。在将本文方法与对比方法进行对照试验后,可以看出本文方法相比对比方法在准确度上有一定的提高。同时由于模型对于关系数据格式与数量没有特殊要求,使得模型拥有较好的通用性与可扩展性。本文的创新点如下:1)通过向量的矩阵表示与局部点乘来表达词语与其他元素之间的多种关系,并通过梯度下降来学习词语的向量表示。2)融合词语的语义相似度与词语词频信息来重新定义主题向量之间的距离,进而改善事件聚类的效果。
其他文献
介绍了潜油电泵自适应控制技术,包括定频间抽控制技术和变频自动调频控制技术,并将变频电泵井自动调频控制技术应用于现场,实现了变频电泵井输出频率的自适应调节。
目的:评价iRoot BP Plus在老年根尖手术中的临床效果。方法:选取2009年11月-2015年5月收治于我院口腔内科的老年难治性根尖周炎患者53例,共54颗患牙。分为银汞组、MTA组、iRoot
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
公司治理成本这一概念的重要性在于可以根据其来判断一项公司治理政策或机制的引入是否能在提高投资者保护的同时提高企业的绩效。美国2002年通过的《萨班斯-奥克斯法案》给
目的与方法:从医疗卫生事业面临的体制转变、医学模式的转变、群众对医疗卫生多层次需求的转变等方面,分析当前医院面临的挑战与对策。在市场经济条件下,人们对医疗卫生层次需求
室内设计涵盖建筑学和艺术美学、要求技术与艺术完美相融,随着人们对室内设计要求的不断提高,在保证室内空间功能性和舒适性的同时,还需要将民族文化融入其中,营造出富有民族
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
谁会真的相信矿泉是甜的呢?海南养生堂硬是凭着“农夫山泉有点甜”──这一句广告语,在竞争激烈的纯净水、矿泉水以及诸如此类的水市场占了一席之地。是全中国人民中的一部分味
卡介菌多糖核酸(Bacillus Calmette-Guerin-polysaccharide-nucleic acid BCG-PSN)是我国首创的新型治疗和免疫调节剂,它能够提高T淋巴细胞的免疫功能,通过激活T淋巴细胞促进