基于BiLSTM和注意力机制的短文本相似度算法研究

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:jasongoes
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术和互联网的发展,信息飞速增长,文本作为信息的主要载体传递了多种多样的内容,故对短文本相似度进行研究。短文本相似度计算,指的是给定两个文本,通过某种方法或模型算出它们的相似度值,其在信息检索、智能推荐、问答分类等科学和工程领域具有重要的价值。目前,短文本相似度的研究可分为基于距离的无监督相似度计算和基于深度学习的有监督相似度计算。本文分别对这两种模型进行了研究,主要工作如下。本文首先对传统的基于距离的Jaccard系数、余弦相似度、编辑距离等计算文本相似度的方法进行了研究。传统的文本相似度计算方法大都从字形和词序来计算句子对的相似度,虽然可以较快的计算出相似度值,但是分类效果往往依赖于人为设置的相似度阈值,且不太理想。由于相似度阈值对文本相似度的计算具有重要的影响,本文设计了一种计算相似度阈值的方法,使得阈值的选择更加准确。在此基础上,提出一种Jaccard结合语义信息的混合文本相似度计算模型,提高传统模型的分类精度。在三个数据集上进行实验,并将该方法与传统的文本相似度方法进行对比。实验结果表明,基于语义的词向量可以有效提高传统的基于距离的文本相似度计算模型的精度。本文还研究了基于深度学习的有监督相似度计算模型,提出了一种基于BiLSTM和注意力机制的短文本相似度模型,其用孪生循环神经网络来研究短文本相似度问题,构建两个垂直方向完全一样的神经网络模型。使用word2vec词嵌入层模型来描述短文本的特征,其根据窗口大小来生成词向量。在嵌入层之后使用双向的LSTM提取句子更深层次的特征。LSTM具有记忆功能很适合处理时序数据。经过长短期记忆网络编码后,句子的关键部分并不能被体现,在此基础上加入最近流行的注意力机制,最后在全连接层计算句子对的语义相似度,并使用二分类交叉熵,准确率和方差作为评价标准。在MSRP数据集和Quora数据集上分别与其他模型对比,实验证明,从两个方向提取信息的BiLSTM比单向的LSTM效果更好,且注意力机制确实能够提升模型,取得较好的实验结果。
其他文献
永定河自山西而来,一路横贯太行山脉至北京,联通了两侧文明,也成为农耕与游牧两种文化的交汇之地。聚落则是人们一起生活繁衍的场所,是自农耕文明到数字文明的亲历者,见证了居民的努力与汗水。在永定河的影响下,沿岸聚落形成了开放包容的生活态度,虽经历战争却具有稳定性,在和平年代迅速发展,在发展中不断吸收外来文化,形成了别具特色的聚落内涵。聚落中的空间记录着这片土地上居民的生产生活、交往方式、审美取向等内容。
在以公共交通为导向的开发模式下,轨道交通客运量逐年增长,工作日高峰时段及节假日期间人流聚集现象明显,为商业服务营造了发展良机。受土地集约化利用影响,地铁站域通道也由以步行为主的单一功能通道,逐渐向通行与服务功能并存的复合型通道转型。以服务出行为主要目的的行人,易受服务设施影响产生减速、驻足等特殊行为,对行人流整体通行效率产生影响。由于行人流的特殊性和复杂性,该类通道的规划、设计缺少量化分析的依据。
近年来,医学影像分析在肝脏疾病诊断中发挥着越来越重要的作用,其作为医学影像的一个重要分支,在影像处理、病理分析、临床诊断、手术规划和计算机辅助诊断等方面具有广泛的研究价值。为提高肝脏影像识别的效率,本文将显著性算法和医学图像识别技术相结合,并对不同类别肝脏检测展开了研究,具体研究内容如下:针对临床上肝脏肿瘤个体差异较大、与周围临近组织灰度对比度低等问题。本文提出一种基于注意力模块的双通道重校准机制
我国自上个世纪末进入老龄化社会以来,人口老龄化速度逐步加快,老年人口在总人口中所占的比重也越来越高,致使我国面临着严峻的养老形势。由于目前我国的养老服务政策尚不完善、获取社区内外部资源的渠道单一、专业工作人员服务水平较低等使城镇社区居家养老服务面临着新的困境。社区老年群体的日常生活照料、精神慰藉、医疗康复保健等需求都没有得到充分的满足,加之我国廉租房社区在人员构成、管理服务以及资金支持等层面都有其
古城墙遗址作为古代军事防御、界限划定以及权力象征的大型构筑物,既是冷兵器时代军事文明、农业社会时期的城市形态之文明见证,也是中华优秀传统文化的实物载体,更是考察和研究古代都市建设与城垣建筑关系的重要历史资料宝库。因其独特的建造技艺和风格特征而成为某一时代或地区的杰出建筑代表,甚至被认为是国家名片,承载着重大的历史、文化价值,具有丰富的文化资源和社会公共性的特点。同时,古城墙遗址作为文化遗产的重要组
在富含Cl–和SO42–离子的海洋环境中,低合金钢极易发生局部腐蚀,由于夹杂物与钢基体界面处存在高密度晶格畸变区和微裂隙,因而成为局部腐蚀萌生的关键性位置。本文利用场发射扫描电子显微镜/X射线能谱仪(FE-SEM/EDS)、电子背散射衍射(EBSD)、扫描振动电极技术(SVET)、共聚焦拉曼光谱仪(CRM)、3D体式显微镜(OM)和电化学工作站对海洋环境下低合金钢中夹杂物与腐蚀行为的关联性进行了研
为了应对老龄化高速发展态势,我国将健康老龄化纳入国家发展战略。城市居住社区中的室外健身场地作为老年人日常开展体育健身、休闲娱乐等体力活动的主要场所,对老年人的身心健康发挥着重要作用。同时,老年人相比其他年龄段人群而言可供分配的闲暇时间更多,是社区室外健身场地最主要的使用人群。当前,我国居住社区中的室外健身场地存在场地供给不足、场地可达性较差以及场地规划设计缺乏对老年群体的关注等问题,与老年群体日益
近年来我国儿童福利体系不断完善,虽然福利院儿童们的基本生活已经得到保障,但不幸的生活经历使得心理层面需要得到足够有效的关注。福利院儿童在缺失家庭支持的环境中成长,同伴关系成为了他们学习、体验情感和社会发展能力的重要影响因素。本研究选取了河南省X福利院的22名福利院儿童作为研究对象,从社会生态系统理论视角出发,采用混合研究的方法对将福利院儿童在福利院情境与学校情境中的同伴关系特征进行比较,探究福利院
随着新能源汽车的普及,动力电池系统作为新能源汽车的主要部件,具有生命周期短且内部存在有害物质的特点,动力电池系统的绿色处理已成为研究热点。拆卸回收是废旧动力电池系统能够进行再利用的重要手段,动力电池系统由于种类繁多并没有统一的设计标准,且拆卸的灵活性要求较高,因此目前主要采用手工拆卸的方法,但该方法拆卸部分有害部件时会对自身造成健康危害。而机器人能够解决这一问题,同时拆卸单一重复部件效率较高。因此
城市化的快速发展改变了原本的自然水文循环过程,导致内涝灾害频发、水生态环境破坏等一系列问题,而老城区由于基础设施老旧面临的雨洪问题更为严重;另一方面,绿地植物在城市生态系统中的水文调节作用不容忽视,其截留、蒸散、促渗、补给地下水等作用能够帮助实现降雨的再分配,修复水文循环。为更好地发挥城市植被的水文调节价值,充分释放老城区现有绿地的生态潜力,本研究首先从模拟原理、结果准确性与国际适用性等多个方面比