基于指针生成网络的关键词提取技术的研究与应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wwwman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,科研平台信息化管理工作的迅速推进使科研项目文档数据量急速增加。如何挖掘和利用科研文档蕴含的丰富信息,发挥数据的潜在价值,成为了科研平台亟待解决的问题。关键词信息能够高度概括文章主旨、组织文章内容,同时,关键词信息能被用于信息检索、热点分析、文摘生成等文本挖掘的多个领域。因此,对文档关键词信息的挖掘和利用,是发挥文档数据价值的有效方式之一。然而,目前的关键词提取技术提取关键词的准确率不高,这是制约有效挖掘和利用关键词信息的主要因素。提高关键词提取的准确率,对科研平台的科研文档数据挖掘有着重要意义。本文在研究词共现信息与指针生成网络模型的基础上,提出了新的关键词提取模型,名为共现指针模型(Co-occurrence Pointer Model,CoPM)。CoPM模型采用序列到序列的神经网络结构,不仅能够学习文章中词语的语义信息,同时能够学习文章中词语共现信息的语法特征,从而更多维度地分析文章信息,生成更准确的文章关键词。本文在科研文档的数据集上对该模型进行评估,结果表明,与经典的关键词提取模型相比,CoPM模型在原文关键词预测和非原文关键词预测方面的结果均更加准确。此外,基于CoPM模型提取科研文档关键词的结果,本文在科研平台中实现了项目关键词提取以及基于关键词的项目搜索服务,同时,本文提出了基于关键词的热点分析算法,并将其应用于基于关键词的热点分析服务,健全了科研平台项目分析与决策系统的服务功能,有效地发挥了科研项目文档数据的价值。
其他文献
近年来,随着全球市场移动数据需求的爆炸式增长,移动网络运营商们都在寻找更为有效的数据传输方式。而无线接入作为移动网络传输的最后一环,由于频谱资源的有限,往往会成为限
2017年10月颁布的“国家教育事业发展十三五规划”指出,要注重培养职业教育学生的实践能力,在教学中要注重提高学生的实践经验,把实践教学作为深化教学改革的关键环节。许多
降水是一个复杂且非平稳的大气过程,受地理位置、地表状况及大气环流等的综合影响,不同区域内的降水过程存在较大的差异性。因此,研究降水的多尺度时空特征、识别同质降水区
随着大数据时代的到来,如何高效地对数据进行管理显得愈加重要。数据管理的难点,一方面在于数据量的急速膨胀,系统所要处理的数据量已远远超出单台机器的负荷。另一方面,则在
在科技不断日新月异的今天,银行业的系统信息化程度越来越高,特别是在各大银行的数据集中处理中心建立后,数据集中化也导致了信息风险变得越来越严峻。因此如何加强银行信息
当前嵌入式软件设计主要使用前后台系统或基于RTOS的多任务系统,编码方式以模块化和面向过程为主,随着嵌入式应用朝多元化、智能化和网络化等方向发展,嵌入式软件设计日益复
智能卡系统的应用是社会信息化的一个重要方面。智能卡如今被广泛地应用于金融、电信、交通、医疗等各个领域。智能卡系统的应用基于芯片行业的发展和配套硬件设施的完善。与此同时,智能卡系统中的软件则在智能卡的具体应用场景的实现过程中扮演了至关重要的角色。本文的主要工作是为了配合实验室进行一款非接触式智能卡SoC的研发,完成应用于智能卡系统的多个软件设计。本文首先完成了智能卡系统中上位机软件的设计。针对上位机
蛋白质棕榈酰化是蛋白质翻译后脂质共价修饰的一种重要形式,是调控蛋白质的转运、稳定、定位和功能的重要机制。同时,棕榈酰化位点修饰还参与多种细胞生物学进程,与许多疾病
新课改以来,学生的主体性地位越来越受到关注,不单是要求其自主学习,还要求培养其独立思维。中国新课程改革距今已有十余年了,然而更多的教师并没有贯彻新课程改革的相关要求
在我国社会主义市场经济体制下,国有企业的存在已被证明具有可行性和必要性。长久以来,我国国有企业改革以“政企分开”为目标,倾向于将国有企业打造成为普通企业。但是,与普