文本表示模型及相似度计算算法研究与应用

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:Arqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示和文本相似度计算是自然语言处理领域中最为重要的任务,为后续的文本计算提供良好的方法和支持。为充分表达文本的语义、结构信息和获得更好的相似度计算结果,本文构建和设计了基于特征贡献度的句向量表示模型和多模型加权融合的文本相似度计算算法。主要研究工作如下:(1)针对句向量表示语义信息不集中且任务针对性差等问题,在现有SIF句向量模型的研究基础上,建立了一种基于特征贡献度的句向量表示改进模型。该模型通过引入类内词频和类内、类间区分度因子,改进信息增益计算公式,增强文本特征选择的效果。再结合通用词频因子,构建可刻画特征对任务贡献度的特征贡献度因子。最后,利用特征贡献度因子筛选出贡献度较低的特征词,让剩余特征词参与后续句向量的计算,得到语义信息集中且任务针对性强的句向量表示。实验表明,较原始模型,本文提出的句向量模型在文本分类任务上获得了更高的准确率,文本相似度计算任务中在准确率、召回率和F1值三个评价指标下均获得更好的结果。(2)针对传统文本相似度计算算法只单一的考虑了文本的语义信息或结构信息,对捕捉文本的关键特征有一定局限性等不足,设计了多模型加权融合的文本相似度计算算法。该算法通过改进距离度量算法,结合多个相似度计算算法的优势,提高相似度计算算法的准确性。该算法构建多特征融合权重,挖掘文本中的语义和语境信息,得到基于多特征加权融合的文本相似度计算算法。之后,再利用分层池化的IIG-SIF句向量相似度计算算法发现文本中的结构信息。最后,建立线性加权模型,融合这两种相似度计算结果,实现多模型融合的文本相似度计算算法。实验表明,该算法较词移距离算法和IIG-SIF句向量计算算法在准确率、召回率和F1值上均得到更好的实验结果,并优于与之比较的经典相似度计算算法。实验结果体现了该种融合算法能够有效提取文本的语义信息,发现文本中语义和文本结构的关系,从而得到结果更好的文本相似度计算算法。
其他文献
目的探讨银杏酮酯预处理对心肌缺血再灌注大鼠心肌的保护作用及可能机制。方法以36只雄性Wistar大鼠为研究对象,将实验动物随机分为3组:假手术组、心肌缺血再灌注模型组与银
近些年来,性别刻板印象引起了研究者的广泛关注,前人以能力与热情为维度探讨儿童性别刻板印象时发现,女孩在6岁时会出现男孩聪明的性别刻板印象,且这种“男孩=聪明”的性别刻
抗战时期,许多作家流落重庆。他们根据自己在重庆的生活经历,于抗战时期创作了以重庆为背景的长篇小说。这样的长篇小说大约有十部,其中巴金的《寒夜》、张恨水《八十一梦》
中国青少年犯罪已呈现低龄化,且有日趋增多和复杂的态势。根据中国预防青少年犯罪研究会2013年11月底发布的数据显示,青少年出现不良行为的平均年龄为12.2岁。14周岁以下的小
空间叙事不仅是一种形式技巧,还具有伦理意义。根据空间叙事的不同内涵,空间叙事的伦理指涉各有不同。空间叙事伦理意义的实现,在传统古典小说中更多表现为读者对小说伦理的
样品前处理在通过色谱法检测食品中四环素残留过程中起着重要作用,研究成本低、环境友好、吸附效率高、易于分离的新型吸附材料对简化前处理程序,提高前处理的效率以及检测的
房地产是人类生存和发展最基本的生活资料之一,也是衡量一国经济和生活水平的重要标志。房地产市场作为“房地产的买家和卖家在某个特定的地理区域内于某一特定的时间段内达
国家管辖范围外海域海洋遗传资源是随着海洋技术与生物技术的发展而逐渐得到重视的新型海洋自然资源,虽然尚未实现规模化的商业利用,但其巨大的商业潜力已经得到了认可。然而
目的探讨不同血糖控制方案对脑出血术后应激性高血糖患者预后及血糖的影响。方法采用回顾性研究方法将2015年6月2016年5月入住我院重症医学科的52例脑出血术后应激性高血糖患
铀(U)材料的腐蚀导致其结构和性质的转变,严重影响其使用安全性。同时铀的使用产生了大量的放射性核废料,一旦管控失效流入环境中,将会造成十分严重的后果。因此有必要推进铀