融合语文特征及排序学习的关键词抽取算法

来源 :南昌大学 | 被引量 : 0次 | 上传用户:wagegea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,信息呈现爆炸增长状态,信息的飞速增长给当今信息化社会带来了很大的挑战。如何准确分辨出所需要的信息数据以及如何对有用的信息加以有效利用,这已经成为信息化社会急需解决的问题之一。针对该类问题,关键词自动抽取技术应时而生,其利用关键词来反映文本的主要信息,高效地解决了难以抽取所需要的信息数据这一难题。关键词抽取一直是自然语言处理(NLP)中的重要领域,其在信息检索、文本分类、问答系统等领域都起着重要的作用,最常见的就是在搜索引擎上,通过输入关键词来搜索与之相关的各个条目。但是大量的数据文本都未标注关键词,而依靠人工对其一一进行标注既费时费力又毫无效率,所以关键词自动抽取方法的研究是非常有必要的。针对基于分类或序列标注思想的有监督关键词抽取方法无法捕获关键词内部关联且偏离关键词判断本质的问题,本文提出了一种融合语义特征及排序学习的关键词抽取算法SF-L2R-KPE。该算法采用Doc2Vec这一词嵌入技术来计算候选词与文档之间的余弦相似度,并以此来衡量其之间的语义特征,结合其他统计特征,利用训练好的排序学习模型来对候选关键词进行打分,按得分从高到低排列,取前top N个候选关键词作为文档的最终关键词。在多个数据集上进行实验并与其他模型对比后,该算法的有效性得到验证。该算法的主要创新点为:(1)Doc2Vec在训练词向量的同时还能训练出可以有效表征文档的文档向量,通过这两个向量之间的余弦距离能较好地反映词与文档之间的语义特征。(2)采用基于神经网络的排序学习模型来进行关键词抽取任务,利用排序的思想能较好地捕获关键词内部之间的联系。(3)采用成对的排序方法能带来候选关键词之间的竞争,提升抽取效果,更符合关键词判断的实质。
其他文献
低纬度的无人机(Unmanned Aerial Vehicle,UAV)因其移动可控、部署迅捷、以及高概率视距链路(Line-of-Sight,Lo S)等良好的特性,在辅助地面无线通信(提高信道容量、提供无缝接入服务、增强无线覆盖等)中被认为是一项极具发展前景的技术。目前,无人机作为空中通信平台(如移动基站、移动中继)广泛应用于中继转发、无缝覆盖、数据分发、边缘缓存、移动计算等通信场景。然而,无
电离层作为地球大气环境中的重要组成部分,在大气空间中的无线电通信起着重要作用。了解电离层最直接的方法就是通过研究学习,来掌握电离层中相关参数的变化规律。非相干散射雷达(ISR)作为目前地表最强大的电离层探测设备,可以以一个高精度的探测水平,探测到电离层中等离子体特征参数的变化。本文研究了非相干探测的理论,实现了从雷达接收到的最原始的I/Q数据到电离层中等离子体特征参数的数据处理过程,研究了由理论公
可穿戴心电监护设备常用于采集人体心电信号以监测心理功能,然而,在奈奎斯特-香农定理指导下的采样过程逐渐成为健康监护技术发展的限制因素。依据奈奎斯特采样定理,采样频率需高于模拟信号最高频率两倍,长时间采样带来的高采样率和大数据量给监护设备的续航、数据存储、传输和处理带来极大的挑战。近年来出现的压缩感知理论将采样和压缩融于一体,将信号投影到稀疏域采样得到压缩后的信息,在低频采样和低功耗应用中表现出极大
高频外辐射源雷达(HFPBR)是一种被动接收非合作短波段辐射源信号以实现探测相应雷达目标的双/多基地雷达。由于采用了非合作发射源,HFPBR微弱目标信息提取面临着期望雷达目标回波被直达波和强多径回波(统称“杂波”)所掩盖的问题。针对这一问题,现有的基于传统信号处理的杂波抑制算法主要是由专业人员基于雷达目标回波与杂波在时、空或频等域上存在的差异性特征来设计和实现。近年来,随着人工智能技术的迅猛发展,
凭借其灵活的机动性和低廉的成本,无人机(Unmanned aerial vehicles,UAV)辅助的数据收发、中继技术已广泛应用于无线传感网络、蜂窝网络及移动自组织网络等诸多领域。但无人机辅助通信系统仍然面临着诸多挑战,其中最严峻的挑战之一就是无人机的续航问题。针对于此,首先聚焦于无人机飞行时间这一维度,有限的电池容量决定了无人机在执行通信任务期间必须要定时返航,以更换电池或补充电量。这会导致
近年来,无人机(unmanned aerial vehicle,UAV)以其快速部署和灵活配置的特性,越来越受到人们的关注。无人机的一个特别有前景的应用是无人机移动中继。它可以为两个或者更多的用户提供可靠的通信链路,实现多用户之间的信息交换,增加了无线通信的覆盖范围。无人机与地面节点建立通信链路以视距链路(line-of-sight,LOS)为主,但这一特点也意味着潜在的窃听者更容易窃听。因此,确
近年来随着电子产品的爆发式发展,印刷电路板日渐趋于小型化、高密度的设计形式,但电路板缺陷时有发生,这使得人们对于电路板的质量提出了更高的要求。传统的电路板缺陷检测主要是通过人工目测来实现,这种方法会耗费巨大的成本,同时检测出的精度也很低。因此,基于印刷电路板缺陷识别技术急需更高效、更快捷的方法。本文首先采用了图像处理技术对电路板缺陷识别进行了研究,将标准图像与待测图像进行精准配准并做差分运算得到电
激光视觉传感器被广泛用于焊缝跟踪,具有精度高、非接触、快速测量等优点。目前大部分视觉传感器只能用于一个平面内的焊缝跟踪,本文设计了一种三线组合结构光视觉传感器,在双线激光跟踪焊缝的基础上增加了一根横线激光,用于检测前方转弯的折角,为机器人跟踪角焊缝时提供所需的信息。本文首先介绍了机器人系统的组成,控制系统是基于PC104总线开发,用图像采集、运动控制、数据采集等板卡实现控制。设计了一个三线组合结构
与虚拟手术相关的研究从未停滞,虚拟手术系统是以医学影像为基础,通过图形学相关技术重建人体器官模型,来模拟虚拟手术环境。CT图像作为当前医学图像领域中最普遍的图像数据之一,软组织模型是仿真手术的训练对象,而穿刺软组织作为虚拟穿刺手术中的关键步骤,其效果取决于软组织的真实程度,即软组织模型的精度是虚拟穿刺手术系统能否反映出人体组织器官的真实力学行为的决定因素。本文以构建接近真实穿刺实验的针刺肝脏有限元
在如今图像识别应用广泛的社会里,由于与人的可分离性,传统的身份信息核验方法如IC卡等,容易出现盗用或仿造等现象,因此在火车站、飞机场等城市之间重要的交通枢纽部分,以人证合一的技术取代了传统核验方法。然而,在日常生活中的一些人流量大又需要身份验证的场所,例如在考场的场景之中,往往还依靠着人力来逐一进行检测,这不光加大了监考人员的劳动强度,还难免会出现场外拥堵等现象和人为上的失误,继而导致出现影响考试