基于CNN的新闻标题相似度计算模型的研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:horse12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和智能手机的发展,人们对新闻信息的需求更加个性化,传统的基于新闻标题关键词匹配的推荐方式,没有从语义上做分析,所以推荐的可能不是用户感兴趣的一类新闻。本文尝试从文本相似度的角度分析新闻标题语义信息,由于新闻内容篇幅较长,通常会有很多对分析结果无关的内容,会对判断精度产生影响,而且若对新闻内容进行相似度计算,会形成的较大的词向量矩阵,导致计算量过大,难以实现,不符合生产环境的要求。因此本文利用BERT预训练模型表示新闻标题语义特征计算新闻标题相似度并做推荐,针对传统文本相似度计算方法利用人工提取的特征信息计算相似度的方式中,存在的人力资源消耗大、信息提取不准确、对词典依赖性大等问题,以及基于LSTM的相似度计算模型适用于处理长序列问题,对于新闻标题这类相对较短的文本信息,无法充分发挥优势的问题,提出了基于CNN的新闻标题相似度计算模型。为了提高新闻标题相似度计算的准确性,本文分别从特征表示、特征提取和模型训练三个方面进行了改进,具体的工作如下:(1)特征表示:针对利用传统词向量模型表示文本信息时,不能关注上下文信息而造成的无法处理一词多义的问题,本文提出在CNN模型的基础上,结合BERT预训练模型训练词向量,构建新闻标题相似度计算模型。(2)特征提取:针对利用卷积神经网络对新闻标题进行特征提取时,忽略了每个标题自身的关键特征及标题之间的交互特征信息,导致特征提取不全面的问题,本文在基于CNN的新闻标题相似度计算模型的基础上分别引入自注意力和双向注意力机制。(3)模型训练:针对模型在训练过程中出现梯度消失、神经元死亡、均值偏移、收敛速度慢、稀疏表达能力弱的问题,分析常用激活函数特性,构建了新的激活函数SPReLU并将其应用在本文提出的相似度计算模型中。为了验证本文构建的新闻标题相似度计算模型的有效性,本文在不同数据集上进行验实验,结果表明,结合BERT预训练语言模型的相似度计算方法效果相对较好,同时引入多注意力机制的相似度计算模型的准确率和F1-值都有一定的提高。最后使用SPReLU激活函数的相似度计算模型,一定程度上提高了模型的收敛速度和准确性,性能上也有一定提升,证明了本文提出方案的有效性和可行性。
其他文献
体育舞蹈是一种集体育、舞蹈、音乐、艺术为一体的男女默契配合的双人舞蹈。以健身、健美、健心为目的的体育舞蹈,融合了竞技、观赏为一体的体育项目。随着体育舞蹈在国内的推广,少儿体育舞蹈培训在全国各地也得到如火如荼的开展。宜春市也不例外,越来越多的家长将孩子送去参加体育舞蹈培训,家长作为培训机构和少儿之间的纽带。但从文献检索看,从家长认知角度研究少儿参与体育舞蹈尚未见报道。本研究采用访谈法、问卷调查法、文
核桃是我国重要的观赏果树和园林绿化树种。核桃栽植立地条件较差,养护过程管理粗放,土壤肥力低下和不合理施肥的情况普遍存在,严重影响了核桃的生长发育、产量水平及经济效益,降低了核桃观赏价值和生态效益。合理施肥为主要内容的养护管理是核桃良好生长的关键。本研究选择山东省山地、山前平原和平原三个生态区的典型核桃生产园进行肥水管理状况调查和土壤肥力评价,以核桃为供试植物,通过盆栽试验和大田试验研究了核桃幼苗期
韭菜属于优质细菜之一,其因具有独特的风味而深受消费者喜爱,市场销路广阔。因此,岫岩地区韭菜栽培面积较大,针对当地韭菜栽培中出现的不合理施肥现象,通过多年栽培生产实践,根据韭菜生长时期和需肥规律,分别从育苗肥、基肥、追肥及施肥注意事项几个方面提出露地和保护地韭菜高产栽培合理施肥技术,实现增产提质。
期刊
20世纪至今,世界各国把学前教育课程改革和教育公平作为学前教育事业发展的重要方面。英国的学前教育发展处于世界前列,是各国借鉴和学习的对象。本研究旨在通过对中英学前教育课程纲领性政策文件的分析,将中英学前教育课程进行比较,总结中英学前教育课程的异同点,并客观分析两国课程的优点和不足,从而得出英国学前教育课程对我国的启示,促进我国学前教育课程的国际化发展。本研究主要采用文献法,梳理了中英学前教育课程纲
本论文以拟建于曹妃甸工业区的首钢二期焦化工程为背景,针对地下焦化管道这一内部高温外部海水侵蚀的特殊混凝土结构安全与耐久性要求,进行了高性能混凝土高温后抗海水侵蚀性能的试验研究。当前的有关研究多是集中在海水或者高温等单一因素对高性能混凝土耐久性能的影响,但是在经历过高温后,高性能混凝土内部的水化程度与自由水的分布会发生变化,从而引起其结构与力学性能的变化,因而海水对经历过高温的高性能混凝土的侵蚀规律
明虾(Fenneropenaeus Chinensis)是我国最重要的水产品之一,在其贮运过程中容易出现汁液流失、脂肪氧化及微生物污染等问题,而采用低温处理是避免其品质劣变的有效手段。另外,明虾低温处理过程产生大量的虾头和虾尾等下脚料,降低了明虾的综合利用率,而将其下脚料制备成海鲜调味品则实现了明虾下脚料的高值化利用。本文采用冷冻(-40℃)和冷鲜(4℃)的低温处理方式,分别研究了冷冻后不同解冻方
开展团体辅导对高中生情绪智力的干预研究,有利于提升高中生的情绪智力水平,引导他们学会感知、理解、运用和管理情绪,并且可以应用于学习和生活中,将使学生终身受益。同时,研究还有利于提升学校心理健康教育实践的科学性和实效性,为高中生的情绪调适辅导提供一线的实践经验。本研究在整理分析国内外有关情绪智力与团体辅导相关文献的基础上,针对高中生学习和生活的实际情况,运用团体辅导的设计原则整理设计了高中生情绪智力
质子交换膜燃料电池(Proton Exchange Membrane Fuel Cell,PEMFC)具有高效安全、结构简单和清洁环保等优点,是一种理想的氢能利用方式,具有广阔的市场前景和很高的研究价值。PEM燃料电池的流道是反应物进入和反应产物排出的通道,直接决定反应物传输与分配,是影响电池性能的关键因素。为设计出高性能的PEM燃料电池,本文采用数值模拟与遗传算法相结合的方法对电池流道结构进行了
随着传统化石燃料消耗量的不断增加,巨大的能源需求和环境的恶化促使人们探索新能源装置和系统。在各种能源技术中,锌空气电池以其成本低、环境友好和高理论能量密度等优点受到人们的青睐。然而,锌空气电池也面临着一些科技问题,特别是稳定性差和功率密度低,这主要是其阴极反应动力学缓慢造成的。因此,开发能同时催化放电过程中氧还原反应(ORR),和充电过程中析氧反应(OER)的双功能氧电催化剂,是提升可充电锌空气电
在水资源匮乏、造林立地条件较差的川西高原地区,选择适宜的抗旱树种对于该地区植被恢复与生态建设有重要意义。本研究以川西高原自然分布的5种苹果属植物(变叶海棠(Malus toringoides(Rehd.)Hughes)、苹果(Malus pumila Mill)、花叶海棠(Malus transitoria(Batal.)Schneid)、山荆子(Malus baccata(L.)Borkh)、湖