【摘 要】
:
关键词是文档主题信息的精炼,借助关键词可以快速地获取文本主旨,其研究成果可广泛用于文档检索、文本分类、文本主题挖掘等具体领域。传统基于图的关键词提取方法主要研究的
论文部分内容阅读
关键词是文档主题信息的精炼,借助关键词可以快速地获取文本主旨,其研究成果可广泛用于文档检索、文本分类、文本主题挖掘等具体领域。传统基于图的关键词提取方法主要研究的是对词图中的单词进行准确评分,对提取关键短语的研究工作不足,且利用的有效属性较少。本文聚焦于用图方法进行关键词提取,总结了传统图模型的不足,提出多属性融合的图关键词提取方法,论文工作包括:提出关键词的相关属性和其属性值的计算方法,围绕通用关键词提取框架对现有方法进行综述,重点介绍与本文方法相关的基于图的关键词提取方法。首先利用已有的算法取得词图中每个单词的评分,然后据此融合短语的多种属性对候选关键短语评分并排序进而提取关键词。针对传统图方法中候选短语的评分结果易受单词的评分与短语长度的影响,本章提出融和短语频率属性、位置属性与长度属性的评分方法,尝试改变属性值的计算方法与融合方法以找到最佳的短语评分方法。实验结果表明,最优的融合方法在三类数据集上的各项评分指标都超越了其他对比的融合方法,能提高关键词提取结果。基于PageRank算法,结合词向量与词显式属性来改进词图中的单词评分算法。针对现有基于图的关键词提取方法忽略了词在序列中的潜在语义关系,本章使用词间关系属性和包含语义关系的词向量作为词图的边权重,将词语的位置属性值作为词图的点权重从而修改随机游走模型。实验部分将改进的单词评分方法替换第三章中的单词评分算法,探究在不同融合方式下单词的评分和短语的评分对关键词提取的影响。与其他无监督关键词提取算法的对比实验结果显示,改进的单词评分算法能更好地为单词和短语打分,从而提高关键词的提取性能。
其他文献
物联网作为信息世界向物理世界的延伸,拓展了人类认知和控制世界的能力,遍布工业、交通、医疗等领域。接入物联网的设备近年来呈指数爆炸增长,设备创建的数据量增长迅猛,成为
汽油等易汽化介质具有高饱和蒸汽压力与低粘度特性,使得其加注过程极易挥发汽化,产生泄漏和气蚀,导致计量系统的压力波动,进而降低管道流量的稳定性,对计量精度造成严重影响
随着软件规模的不断增大,软件故障发生的概率及其复杂性也在逐渐增加。日志作为软件故障时系统运行的重要资料,被广泛的应用在目前的软件故障诊断工作中。目前,基于日志的软
炼铁、炼钢、连铸和热轧是钢铁生产非常重要的热链过程,其生产过程中温度参数的预测与控制对于节能降耗具有指导意义。本文运用数据解析方法分别针对热链过程中高炉作业关键
冷43断块区是冷家堡油田的主力开发区块。本次研究目的层为S1+2段油藏,目前区块开发效果较差,有待在区块地质特征研究基础上,开展方式转换可行性论证,以进一步提高区块采收率
随着高精尖装备的高速发展以及结构轻量化需求的不断增加,具有高导热性能的新型轻质结构材料成为当今世界各国研发的热点之一。镁及其合金是一类优良的导热材料,开发高导热镁
模糊测试是漏洞挖掘领域一种重要的方法,它在十分轻量级的同时而且效率非常高,许多威胁性很高的漏洞都是由模糊测试工具发现的。模糊测试主要可以分为白盒、黑盒以及灰盒模糊
我国已建高铁线路中桥梁所占比重较大,随着“八纵八横”铁路网推进,高铁建设路段经过山川、河流、沟谷的情况越来越多,需要架设桥梁高架的情形也逐渐增多。发展40m简支梁可以
南一区东块进入高含水后期,剩余油的分布较之前更加复杂,地下形势更加多变,开发矛盾更加严重。马上要进入二次上返的生产阶段,在这段时间找准剩余油,制定合理的控液提效方法
炼钢-连铸生产过程是现代钢铁企业生产流程中的核心环节。目前,炼钢-连铸生产运行过程优化的研究主要集中在炼钢-连铸调度问题和连铸过程控制设定值优化两个部分。由于实际生