基于Simhash和CNN的相似新闻推荐

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:f654753936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个信息化和网络数字化即将到来的信息时代,互联网上的数据和信息每天都在海量地增长,各种信息的过载使得用户无法快速、准确地获取自己最关心的内容,增加了用户获取信息时的时间和精力成本。于是在基于内容的新闻推荐领域,相似文本检测有着重要的应用。在传统的方法中,一般基于文本关键词的统计信息进行推荐,而忽略了自然语言的语义信息相似性。随着几年来机器学习与深度学习的兴起,自然语言处理技术的发展,尤其是词向量技术在文本的语义信息表示上的突破,使得文本相似度的检测不再局限于统计理论。然而,在海量文本的相似度检测中,深度学习提升了结果的准确性,却也失去了传统方法速度与需要的计算资源少的优势。因此,为了在海量新闻的相似推荐中,保证提高准确性的同时,减少在时间与计算资源上的消耗,本文研究出将Simhash与卷积神经网络算法相结合的相似新闻推荐算法。主要思想是首先应用Simhash算法进行相似文本的初步选择,之后再应用卷积神经网络(CNN:Convolution Neural Network)算法在初选的文本中进行准确度更高的相似文本推荐。主要的研究工作由三部分组成。(1)在传统的Simhash方法的基础上,改进Simhash获取文档特征的过程,通过综合考虑TF-IDF值与词性的方式计算词语的权重;针对大量Simhash值检索计算量过大的情况,实现了快速检索方法提高效率;针对倒排索引表分布失衡的情况,对失衡的桶内元素再进行一次hash操作并倒排索引,使分布均衡。(2)分析文本相似度检测模型的优缺点,提出双通道卷积神经网络模型,对模型进行理论阐述与训练方法优化。引入词向量模型Word2Vec以及句向量模型Doc2Vec的概念,对文本对的两种文本表示分别交互计算作为模型的特征输入,使得模型能在词语和句子两种粒度上对相似度进行学习。(3)进行各种方法的对比实验,得到了本文提出算法兼顾效率与精确度的实验结果。证明在解决相似新闻推荐的问题中,我们提出的结合Simhash及CNN算法进行相似文本推荐方法在基于内容的相似新闻推荐领域有实际意义。
其他文献
为给癌症患者制定一个系统、完整、准确的疼痛控制护理计划,减轻患者痛苦,本文介绍了经皮刺激法、低温疗法、心理护理疗法、药物疗法等四种控制疼痛的方法,报告如下。1经皮刺激法
目的:探讨中西医结合方法治疗寒喘型支气管哮喘的疗效。方法:选择我院门诊或住院的寒喘型支气管哮喘患者82例,随机分为治疗组与对照组。对照组规则吸入β2激动剂,必要时持续
目的:探讨剖宫产术产后出血的临床表现、病因、处理方法等;方法:对68例剖宫产术产后出血的产妇进行回顾性分析;结果:通过输血、宫缩剂、抗感染等治疗,67例患者出血得到控制,1
劳务派遣用工从上个世纪八十年代直至今日已经成为了当今我国用工方式不可缺少的一种。劳务派遣员工发生工伤保险时,用工单位与用人单位之间的责任承担问题长久以来都是劳动法的热点。本文选取具备代表性的劳务派遣工伤保险近五年案例,对这一问题进行详尽分析。首先,文章对劳务派遣概念进行说明并整理目前有关劳务派遣的法律法规,针对目前劳务派遣法律在实务适用中出现的问题进行汇总整理。接下来通过梳理近五年来劳务派遣工伤保
PID控制器不依赖被控对象的数学模型,具有稳定性好、容易实现、抗干扰能力强等优点,是电能变换系统中应用最广、最成熟的控制器。但随着被控对象越来越复杂,对具有强非线性的四开关升降压电源来说,传统PID控制很难达到理想的控制效果。而BP神经网络具有逼近任意非线性函数的能力,为改善基于传统PID控制的电能变换系统性能提供了改进方法。本文针对四开关升降压电源的多模态特性,分析传统PID控制的不足,参考神经
以菠萝‘无刺卡因’(Ananascomosus‘SmoothCayenne’)为试材,对栽培管理条件一致的冬季果和夏季果的糖含量及其代谢相关酶活性的变化规律进行研究。结果发现,2月份采收的冬
目的:探讨垂体后叶素治疗68例剖宫产后出血的临床效果。方法:将收治的68例剖宫产产妇分别在胎儿娩出后予以肌肉注射垂体后叶素及催产素,观察两组患者的出血量及临床疗效。结
消息标题的文化品位,就是从文化视角透视消息标题所达到的水平。不同的记者在写同一题材的消息时,往往在文化品位上有高下之别、文野雅俗之分。由于文化品位不同,消息的审美价值
胎血输注与抗氧化剂综合治疗再生障碍性贫血临床研究临汾地区卫校(041000)孙玲玲临汾市第二医院刘连奎再生障碍性贫血(AA简称再障)是一种严重且难治性贫血,其发病机理复杂,死亡率甚高,为临床