基于语义扩展的汉语全覆盖关键词提取算法

来源 :控制工程 | 被引量 : 0次 | 上传用户:shuimolanting
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对不利于关键词提取质量的同义词现象、一词多义现象及文章主题难以准确全面表达等问题,提出了一种基于语义的关键词提取算法CFCKE_SE,通过《同义词词林》语义词典与统计信息计算语义的相关度、相似度,获得语义扩展度及其计算方法,融合词汇链方法与语义扩展度,对其依次进行预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取和对权重进行综合计算的处理,这样提取出的关键词既能杜绝同义词冗余表达,又能将文本的主题全面而准确地覆盖.实验分析表明,相对于基于词频逆向文件频率(TFIDF)的方法和基于词汇链的方法,基于CFCKE_SE的方法具备更好的提取效果,其实际应用价值较高.
其他文献
随着网络的能源消耗和云计算资源的增加,数据中心网络的能耗节约问题逐渐受到重视,采用可再生能源是降低碳排放的有效解决途径,对此提出一种基于IP-over-WDM网络架构的可再生
期刊
简要介绍了美国EOS系列卫星及其MODIS数据在遥感方面的应用,着重介绍了MODIS数据在林业上进行资源监测、火灾监测、荒漠化和沙尘天气监测、病虫害监测等方面的应用展望,并与
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
期刊
马尾松天然林优树选择采用5株优势木选择法,用差异显著性分析的数学统计方法,以尽可能剔除因环境影响而造成差异的个体,选择在数量生长的遗传性状上更为优良的个体。根据速生
为了减少大规模数据中心的能耗,设计了一种虚拟机部署算法—三阈值节能算法(VMD_TES).该算法通过处理器资源利用率和能耗的线性关系,把负载过重与负载过轻主机上的虚拟机转移
本刊讯(张洪成报道)5月6日~5月7日,2014年江苏省造纸行业协会年会暨《江苏造纸简史》发行仪式在南京隆重召开。中国造纸协会理事长钱桂敬、中国造纸学会理事长陈学忠出席协会年
为得到一种简单易实现、寻优能力强的粒子群算法,以便满足实际工程优化问题的需求,提出一种基于惯性权重矩阵的自适应粒子群算法(RDR-PSO)。首先,定义了算法稳定运行概念并从
详细介绍了利用字处理软件WORD的强大宏功能,实现林业生产中面积测量的计算和绘图的方法。