基于词嵌入的文本分类及新闻推荐算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:ejian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息时代的到来,电子新闻资讯已经成为人们获取外界信息的重要媒介。面对各类社交平台中充斥的海量新闻数据,用户难以从中快速过滤出符合自己个性化参数的新闻,而推荐算法应运而生。现有的新闻推荐算法往往缺乏对新闻时效性和新闻语义信息的分析,本文提出一种基于词嵌入和时间因素的新闻推荐算法,该算法使用主流的词嵌入技术处理文本信息,分析用户既有兴趣,使用协同过滤算法分析用户潜在兴趣。并考虑了新闻时效性提出一种新闻热度计算方法,将其与推荐算法相结合进行推荐,通过在真实数据集上的实验,证明了该方法的有效性。此外,对于社交平台而言,如何将海量新闻进行自动化分类也是需要面临的严峻任务。本文对现有的新闻文本分类算法进行分析,提出一种改进的文本分类算法。该算法主要将卷积神经网络与循环神经网络相结合,引入多头自注意力机制从不同的表示子空间里学习相关信息,在真实数据集上进行实验,分析了其对新闻文本分类的影响。针对上述研究,本文的主要成果具体体现在以下三个方面:1.提出一种基于多头自注意力改进的文本分类算法。通过CNN提取字与字之间的特征,双向GRU用于从新闻标题的序列信息中提取特征。对CNN与GRU处理后的输出,采用多头自注意力机制学习文本的表示,再经过池化层和全连接层将模型输出映射到标签维度。本文在新闻数据集上提取出十个类别共十万条新闻,使用所提出的模型进行多标签分类,结果表明在分类准确率上优于现有的基于CNN、RNN改进的文本分类算法。2.提出一种基于词嵌入的新闻推荐算法。先对用户的阅读历史进行分析,使用TF-IDF算法从用户阅读过的新闻中筛选出具有代表性的关键词。通过使用BERT模型将提取出的新闻关键词转换为可直接进行计算的词向量,计算每个词向量之间的欧式距离并进行聚类,从而得到用户若干个兴趣中心向量。结合用户的兴趣向量以及候选新闻提取出的词向量提出一种内容相似度计算公式,用以衡量用户兴趣与候选新闻之间的相似性。3.考虑时间因素、用户既有兴趣及用户潜在兴趣等因素,提出一种混合推荐算法。由于新闻具有时效性,在进行推荐时需要着重考虑近期发表的新闻,因此本文考虑了时间因素提出一种新闻热度计算公式。通过新闻阅读人数、话题词热门程度、新闻发表时间来确定新闻的初始热度,并引入时间衰减函数对新闻热度进行定期衰减,从而保证不会将热门新闻长期推荐给用户。本文将新闻热度公式同内容相似度公式及协同过滤相似度公式进行融合,并在新闻数据集上进行了验证,本文方法相比较其他方法在准确率、召回率、F1评分上均有提高。
其他文献
在过去的几十年间,作为光子技术的分支之一,光纤传感器凭借其灵敏度高、体积小、抗电磁干扰能力强、响应速度快的特点,在国防科技、医疗监测、地质勘探等领域受到了广泛关注。因光纤的材质是Si O2,材质单一,通常在一些诸如热、磁、电等方面的传感应用需要结合一些特定物质后,方可在一些复杂测试环境中胜任。本文借助一种柔性光学材料聚二甲基硅氧烷(Polydimethylsiloxane,PDMS),分别开展了基
学位
光镊是一种光学捕获微纳物体的重要技术手段,通过光与物质间的动量传递,在光场中形成三维势阱对微粒进行稳定地捕获。光镊无损害、无接触的特点使得它能够在生物、医学、物理等领域发挥着重要作用。然而传统光镊有着存在衍射极限、捕获精度低(微米量级)、光路复杂等缺陷。表面等离激元是在金属表面区域的一种自由电子和光子相互作用的形成的电磁振荡,能够突破衍射极限。在垂直于金属-电介质交界面的方向上,表面等离激元的强度
学位
随着移动互联网及物联网流量需求的爆发性增长,海量物联网设备对信道带宽、时延、可靠性和用户接入量等网络指标提出了更高层次的要求,同时计算密集型任务的需求对设备自身的计算能力也提出了挑战。另一方面,物联网的蓬勃发展使得网络的服务对象不再是单一的某种设备或业务场景,网络异构已成为必然的发展趋势。因此,为了实现对不同业务类型差异化控制和计算资源的弹性按需分配,需要部署多样化网络架构来应对庞杂异构的任务场景
学位
随着通信技术的发展,电磁环境日益复杂,微波吸收体作为消除电磁干扰的器件,在微波通信和国防方面发挥着越来越大的作用。目前,微波吸收体虽然可展现优异的性能,但由于没有适用面较广的综合设计方法,设计效率较低。并且,传统微波吸收体还存在单元尺寸较大、设计自由度较低的问题。本文基于传输线型三维频率选择表面,研究了一种适用性较广的综合设计方法,设计了一个单极化三维微波吸收体和一个双极化三维微波吸收体。在此基础
学位
随着微波技术的不断发展,各种新型电磁材料如雨后春笋般纷纷涌现。材料的制作、研究与电磁参数息息相关,电磁参数的不同从根本上决定了材料特性的不同。所以在材料科学与微波技术的结合与发展,给人们带来方便的同时,研究微波材料的电磁参数在科学理论与工程实践中有着十分重要的作用。基于对微波材料电磁参数的研究需要,搭建微波材料电磁参数的测试系统是非常重要的。本文基于网络参数法理论基础,满足对宽频带以及适用广泛性的
学位
在无线通信系统中,均衡器通常用于校正传输信道的幅频特性和相频特性。在雷达系统中,它通常位于发射端或接收端,这可以极大地改善信号失真。微波器件中的一些无源器件,如功分器、隔离器、耦合器、滤波器等,都有比较完善的理论基础和计算方法,但均衡器是针对不同指标和环境的特殊器件,难以用一般的理论和计算方法来轻松设计,很少有一个均衡器可以满足多种工作环境的要求。因此,考虑到如上问题,我们需要建立一个优化的物理结
学位
随着半导体材料的广泛应用,在高温高压等极端环境下的应用需求越来越大,这对于制备半导体材料的性质要求也越来越高。传统实验的方法需要相对苛刻的实验条件,不适用于极端环境下材料性质的研究。基于密度泛函理论为基础的第一性原理对材料的结构等进行计算模拟分析,使得材料的研究有了更强的方向性和实用性。本文通过计算模拟对四氢萘醌晶体、2-(乙酰氧基)苯甲酸晶体和3-苯基四氢呋喃(简称为3-Phenyl)晶体在0-
学位
机器人学是目前人工智能研究的热点之一,仿人机器人作为机器人学的重要分支,研究内容包含多个学科,在不同领域都有广泛的应用。本文以RoboCup标准平台组为研究背景,以比赛中使用的NAO机器人为研究对象,主要研究机器人在标准平台组比赛的过程中的运动控制,从步态规划、踢球动作设计、路径规划三个方面展开研究。主要工作如下:首先,针对比赛环境中机器人行走速度较慢且不稳定的问题,提出了一种基于质心控制和传感器
学位
电阻抗成像技术是一种无创医学成像技术,具有非接触性、无辐射、实时性等优点。但是EIT重建是一个严重不适定、非线性、病态性的逆问题,运算成本很高。为了提高成像质量,尽可能减少成像伪影和更好地保留图形形状特征,本文对EIT的像素重建和形状重建进行研究,结合深度学习神经网络,设计了基于深度学习的重建算法。研究的主要内容如下:1.运用有限元法生成EIT动态成像数据集。设置不同大小、形状、位置、电导率的目标
学位
在结构局部的损伤监测中,导波信号因其对结构变化的敏感性得到了广泛的研究应用。但在实际工程中,时变条件的变化会对导波信号产生影响,例如频率偏移和幅值大小的改变,从而可能导致虚假警报,降低了损伤监测的可靠性。因此,针对时变条件下的结构导波损伤监测研究具有重要意义。采用机电阻抗技术对不同温度环境条件下的结构进行损伤判别,提取导纳信号的特征参数作为依据判断结构所处的状态。本文提出的基于环境匹配的机电阻抗损
学位