中文文本关键词自动抽取方法研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:songjuan119004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长。文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务。关键词自动抽取是文本自动处理的基础和核心。汉语的特殊性加剧了中文文本关键词自动抽取的难度。本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法。该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度。实验表明,该方法简单、快速、断词错误率低,标引
其他文献
简要分析了h指数模型的的发展,重点分析了Glanzel-Schubert期刊h指数模型优点与可能存在的问题,并通过实例统计分析证实了常数c的理论值为1,且篇均被量的幂被高估了,在此基础
国家科技文献中心(NSTL)已成为国家科技文献信息资源的保障基地、国家科技文献信息服务的集成枢纽和国家科技文献信息服务发展的支持中心。随着网络化资源和服务集成的日益普及
探讨了钢丝网复合砂浆加固混凝土构件中界面粘结的破坏机理,提出通过植筋来改善其粘结强度.在此理论基础上,进行了对用钢丝网复合砂浆加固过的混凝土试块的界面粘结破坏实验,
超磁致伸缩材料(GMM)是一种具有双向可逆换能效应(磁-机、机-磁)的新型功能材料,利用其逆效应在超磁致伸缩执行器(GMA)驱动过程中感知出传感信号,可实现自感知执行器。探讨超磁致伸缩
随着Folksonomy在实际应用中的日渐普及和声望的不断提高,其在应用中存在的问题也逐渐显露出来。恶意Tag和对用户检索行为无效或低效的TagSpam严重地影响了Folksonomy的实际应
本文首先从信息源范围、信息源结构类型、信息存在状态、信息交流渠道等方面分析了信息源的特点,论述了通过网络信息源结构、内容、访问流量的挖掘实现对采集信息源进行评估与
最近的研究使得搜索引擎中搜取的网页文档与万维网的变化越来越同步。为使用户通过搜索引擎获取网络上的最新信息,必须加快倒排索引的更新。本文介绍了使用界标和增加,删除网页
情感分类及其应用是目前研究的一个热点,是自然语言处理,机器学习和心理学等多学科交叉的研究课题,在很多领域都有实际的应用,如产品的声誉分析,舆情跟踪,博客兴趣分析等。论
样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重
针对无监督的支持矢量聚类方法由于样本类别数量未知带来的模型参数难以选择的问题,提出有监督的支持矢量聚类方法,并应用到机械故障诊断中。该方法首先以聚类区域个数及支持