基于语义特征的关键词提取算法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:allviolet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词提取是一项被应用广泛的技术,早期通过人工手动进行提取,后来学者们提出了一些自动化的方法,而信息的几何级增长需要更加有效的方法。传统算法主要是基于统计学方法,而关键词本身也缺乏标准,当下深度学习的方法由于其能自动学习数据的特征并输出良好的结果,所以利用深度学习技术来学习关键词与文档间的语义特征实现更好的关键词提取算法,本文主要做了以下创新:1.利用词向量对TextRank算法进行改进。词语的语义特征反映了词语与文档之间的关联程度,利用FastText将文档集进行词向量表征,基于隐含主题分布思想,该思想认为一篇文档是由属于不同主题的词语组成,而每个主题的中心词之间的差异度最大,所以利用词汇间语义性的差异,改进TextRank的转移概率矩阵,让权重更多的转移给语义差异度大的词语,这样增加了主题中心词的权重,提升了原始算法的效果;2.构建文档-关键词对,将关键词提取转化为二分类任务。关键词提取的过程中一般只注重文档本身,没有很好的利用到带有标注的训练数据,本文假设文档与关键词之间存在着某种分布,关键词是通过采样得到的,这样通过构建文档-关键词对,通过模型学习这种分布,将关键词提取转化为二分类任务,实现了对文档与关键词之间的语义特征的学习;3.利用生成对抗网络提取关键词。生成对抗网络能很好的学习数据的真实分布,所以能够实现第2点的假设。生成器采用Seq2Seq模型,并使用注意力机制实现对词语的语义特征的学习,以提高关键词被提取的可能性。另外,因为关键词是离散数据,所以通过使用强化学习中的策略梯度进行梯度更新来训练网络。
其他文献
在我国,劳动最光荣的理念一直存在于人们的认知当中,但事实上现在人们对劳动呈现出一种嫌弃甚至是鄙夷的态度,而且学历越高这种现象越严重。究其原因是目前高等学校人才培养
摘要:模糊推理是一种重要的推理方法。在模糊推理的过程中,由于模糊命题之间或者模糊规则之间都存在交互作用,因此选用何种模糊测度去更好地表示这种交互作用就显得很重要。本文从理论上分析了几种模糊测度表示交互作用的能力,得出了重要的结论。  关键词:模糊测度;交互作用;2-可加模糊测度    目前人们已经对推理进行了比较多的研究,提出了多种可在计算机上实现的推理方法,经典逻辑推理就是最先提出的一种推理模式
文中介绍了使用Honey well R150型PLC控制酒精生产的情况,对PLC的硬件配置及软件的利用作了详细的说明。
和谐发展是当今社会发展的主题。大学生作为未来社会的建设者,他们的人生价值观取向对社会发展会有重要影响。因此,社会、媒体、学校及大学生自身都应重视加强大学生的价值观
[摘 要]果蔬物流系统离不开流通各环节物流信息的支撑。有效的信息导向,可以加强果蔬流通各个环节的沟通,减少信息不对称的现象,强化物流管理,提高果蔬物流系统的运行效率,因此对于果蔬流通各环节的物流信息进行研究具有重要意义。  [关键词]果蔬;现代物流;物流信息  [中图分类号]F259.22 [文献标识码]A [文章编号]1005-6432(2008)45-0088-02    据估算,全国每年果品
阅读教学的目的是让学生提高阅读能力,感受文化底蕴,培养学生的审美情趣。阅读教学中感受和领悟的主体是学生,而目前的阅读教学,许多教师都是带着文本走向学生,把教参上的解读以及自己的理解灌输给学生。即使是启发式教学,往往也是教师事先设计好几个问题,一步步引导学生钻入答案的框架。一篇文质兼美的文章,在语文教师的手里就像庖丁手下的牛,被肢解得支离破碎,面目全非,毫无美感可言。这样的阅读教学必将挫伤学生的阅读
本文论述了轴流风机控制系统在催化裂化能量回收机组中的应用。重点讨论了轴流风机的工作特点及其控制方式,并就静叶定位串级调节系统和防喘振控制系统进行专门探讨。
连续热镀锌线锌层厚度自动控制AutomaticControloftheCoatingThichnesontheContinuousHotDipGalivnizingLine●张先明ZhangXianming广东南方镀锌板有限公司继武钢、宝钢后,于19...
针对辽南地区土壤日渐瘠薄、耕层板结变浅、土壤结构与功能不协调、土壤肥力总体处于较低水平以及作物产量不高等问题,本文通过田间小区试验开展了还田模式和腐熟剂对玉米秸秆腐解特征影响的研究。试验采用裂区设计,主区:免耕秸秆覆盖还田(N)、深松秸秆翻埋还田(P)和旋耕秸秆翻埋还田(R)3个水平;副区:秸秆腐熟剂处理(Tr),设添加秸秆腐熟剂(T+S)和不添加秸秆腐熟剂(T)2个水平。共6个处理。通过尼龙网袋
【正】近年来,许多高校的科技工作都取得了丰硕的成果,有了长足的进步。但是,高校的潜力还没有得到充分的发挥,人才积压,科技投入严重不足,大批的科研成果仍停留在“三品”阶