基于语义相似性度量的向量空间模型研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:liyanliang163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本主题聚类中,文本表示模型对信息检索、问答系统等的研究十分重要。在传统向量空间模型(VSM)的基础上,共现潜在语义向量空间模型(CLSVSM)运用共现分析理论提取、挖掘了潜在的语义信息,使文本聚类效果得到提高,但仍未充分提取。针对此问题,欲在CLSVSM的基础上,利用词语语义相似度对文本表示模型进行进一步的改进,以挖掘更多的潜在语义信息。这也就意味着提取潜在语义信息的核心步骤——词语语义相似性度量的研究至关重要。对此,文章将语义相似性度量方法进行深入的探究,为方法的合适应用提供参考。首先,本文对多种典型的语义相似性度量方法,如余弦相似度、欧氏距离、曼哈顿距离、平均距离、点互信息、语义网络等进行梳理,分类,分别从理论方面进行深入比较分析,寻求适合文本聚类领域的最优语义相似性计算方法。其次,在CLSVSM的基础上,利用点互信息计算关键词间的语义相似性,建立基于点互信息的CLSVSM;以及通过潜在语义分析对关键词权重的修正,构建语义增强的CLSVSM,改善原模型中关键词权重分配不变的现状。实验表明,点互信息的方法更加适合文本聚类领域中词语语义相似性的计算,其聚类精度相较于余弦相似度、欧氏距离、曼哈顿距离、平均距离和语义网络达到最大。虽然,利用点互信息构建的两个模型中,基于点互信息的CLSVSM的聚类效果与原CLSVSM相当,但是语义增强的CLSVSM的聚类纯度、1F值在实验数据集中分别较CLSVSM平均提高了4.1%和7.8%,熵值降低了2.3%,充分说明了语义增强的CLSVSM的有效性,同时,也验证了语义相似性度量在文本聚类领域的重要性。
其他文献
在回转窑烧结工艺中,保持烧结带工况的稳定是工艺控制最重要的环节。传统人工看火的测量手段易受到人的身体状况、情绪等因素的影响,因此研究者越来越倾向采用图像处理和模式
随着移动设备和移动网络的快速发展,绝大多数人都可以通过联网设备进入到互联网中,人们可以很容易通过很多社交平台来表达自己的情感倾向性。当这些带有主观情感倾向性的观点达到一定数量时,这些观点将产生巨大的应用价值和商业价值。如果观点数量巨大,仅通过人力来判断其情感倾向性,虽然分析的效果会比较好,但是将耗费大量的人力,而情感分析算法却可以在很快的时间判断出这些观点的总体倾向性。本文主要研究聊天记录和产品评
写作教学是教师引导学生运用语言文字进行交流和表达的综合性实践活动。写作教学是语文教育的重要组成部分,也是语文教学中的难点。如何激发学生的写作兴趣,提高学生的写作能
本文以评价系统为分析框架,对比分析了特朗普与希拉里的20篇(各10篇)演讲稿中态度、介入和级差资源的使用,并对代表性语料进行了深入分析。研究旨在揭示特朗普和希拉里的竞选演讲中评价资源的使用异同,并尝试阐释两位演讲者如何看待自身与其他主体间的关系,进而传递主张、与听众进行关系构建。研究发现:首先,在特朗普和希拉里的竞选演讲中,数据表明评价资源的分布特点为:特朗普总统竞选演讲共有624种态度资源、28
Van der Pol-Rayleigh系统常用于作为模拟生物运动的非线性振荡器,得到了很多学者的关注。周期激励作用下的van der Pol-Rayleigh系统,由于幅值和频率的多变性,具有更为丰富的动力学行为。本文利用快慢分析法、匹配渐近展开法和多尺度法等研究了不同周期激励下van der Pol-Rayleigh系统的快慢效应、分岔滞后行为和近似解析解。主要研究内容如下:首先,研究了van
改革开放以来,我国的法治建设事业取得了瞩目的成就,特别是随着1997年党的十五大报告提出“依法治国,建设社会主义国家”治国方略以来,社会主义法治建设事业迅速发展,逐渐提出了法治政府的建设目标。在法治政府建设的过程中,基层法治政府建设是基础,是关键环节,如何在一个基层政府实现建设成法治政府的目标是一个值得研究的问题。党的十八大以后,国家对法治建设提出了新目标,新要求,在中国特色社会主义新时代更要去完
活性氧物种是含氧的性质活泼物质的总称,主要包括过氧亚硝酸阴离子盐(ONOO-)、次溴酸(HOBr)、次氯酸(HOCl)、双氧水(H_2O_2)、超氧阴离子(O_2·-)、单线氧(1O_2)和羟基自由基(·OH)等。近期研究发现,活性氧在生物体内具有重要的作用,与细胞免疫、信号传导和分化等生命活动都有着紧密的联系。当生物体内活性氧浓度发生异常变化时,往往会对生物体造成氧化损伤。活性氧因具有高化学反应
随着绿色发展理念深入人心,绿色金融在近些年得到了不小的发展,环境投资作为绿色金融的一部分也得到了快速的发展。但在现实中由于各省市间经济发展水平,产业结构等存在较大差异,致使区域环境投资的发展也存在地区间的不平衡现象。为了论证环境投资空间分布不均衡的程度和原因,本文基于我国2007-2016年间环境投资强度、产业结构、人均收入、城镇化率、金融相关比率等数据,分别运用了描述性统计分析、空间面板模型、门
超级电容器因超长的循环寿命及快速充放电性能而备受关注。多孔碳作为超级电容器用电极材料,其形态和组分是影响双电层电容的重要因素。本论文分别以天然生物质材料及金属有机框架材料MOF制备了多孔碳及碳纳米管等不同形态的碳材料,通过调控其组份,获得了Co_3S_4/Co原位掺杂的多孔碳/CNT纳米复合电极材料。采用XRD,SEM,TEM,FT-IR,XPS,Raman等方法对其结构进行了表征,并采用蓝电电池
极化码(Polar Codes)是第一个被证明可以达到任意二进制输入离散无记忆信道(Binary-input discrete memoryless channels,B-DMC)对称容量的一种新的信道编码方案。因为它具有递归的编码结构和良好的译码效果而受到人们的广泛关注。Polar码是基于信道极化现象构造的一种信道编码方案,关于Polar码的研究主要集中在构造和译码两个方面。Polar码的构造即