中文文本关键词自动抽取方法研究

来源 :情报学报 | 被引量 : 0次 | 上传用户：songjuan119004

【摘要】

：

随着信息技术的发展，中文电子文本信息资源正以惊人的速度急剧增长。文本自动处理技术，通过自动组织海量文献信息资源，能够为用户提供简易有效的信息检索服务。关键词自动抽取是

【作者】

：

张雪英 Jǔrgen Krause

【机构】

：

南京师范大学地理信息科学江苏省重点实验室,SocialScienceInformationCentre

【出处】

：

情报学报

【发表日期】

：

2008年4期

【关键词】

：

中文文本关键词抽取文本表达 Chinese text documents keyword extraction text representation

【基金项目】

：

基金项目：本文研究由德国Social Science Information Centre和德国学术交流协会（DAAD）提供资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的发展，中文电子文本信息资源正以惊人的速度急剧增长。文本自动处理技术，通过自动组织海量文献信息资源，能够为用户提供简易有效的信息检索服务。关键词自动抽取是文本自动处理的基础和核心。汉语的特殊性加剧了中文文本关键词自动抽取的难度。本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法。该方法不依赖特定的数据集和中文分词技术，可以有效地抽取出任意单篇文本的关键词，而且通过参数调整，应用系统可以灵活地控制标引深度和标引专指度。实验表明，该方法简单、快速、断词错误率低，标引

其他文献

期刊h指数模型修正与实例验证

简要分析了h指数模型的的发展,重点分析了Glanzel-Schubert期刊h指数模型优点与可能存在的问题,并通过实例统计分析证实了常数c的理论值为1,且篇均被量的幂被高估了,在此基础

期刊

H指数模型修正期刊h-index model adjustment journal

基于客户价值理论的国家科技文献中心用户分析

国家科技文献中心（NSTL）已成为国家科技文献信息资源的保障基地、国家科技文献信息服务的集成枢纽和国家科技文献信息服务发展的支持中心。随着网络化资源和服务集成的日益普及

期刊

客户价值用户分析价值矩阵customer value user analysis value matrix

复合砂浆钢筋网加固混凝土构件粘结机理探讨

探讨了钢丝网复合砂浆加固混凝土构件中界面粘结的破坏机理,提出通过植筋来改善其粘结强度.在此理论基础上,进行了对用钢丝网复合砂浆加固过的混凝土试块的界面粘结破坏实验,

期刊

粘结植筋加固技术cementationpost-embedding technologyexecution of works

影响超磁致伸缩执行器中逆效应性能的主要因素

超磁致伸缩材料（GMM）是一种具有双向可逆换能效应（磁-机、机-磁）的新型功能材料，利用其逆效应在超磁致伸缩执行器（GMA）驱动过程中感知出传感信号，可实现自感知执行器。探讨超磁致伸缩

期刊

超磁致伸缩逆效应自感知Magnetostrictive Converse effect Self-sensing

基于概念格的Folksonomy知识组织研究——Tag Spam过滤指标权值配置

随着Folksonomy在实际应用中的日渐普及和声望的不断提高，其在应用中存在的问题也逐渐显露出来。恶意Tag和对用户检索行为无效或低效的TagSpam严重地影响了Folksonomy的实际应

期刊

概念格FOLKSONOMY垃圾标签权值配置concept lattice folksonomy tag spam weight configura

基于数据挖掘的企业竞争情报智能采集策略研究（Ⅱ）——采集信息源的分析、选择与集成策略

本文首先从信息源范围、信息源结构类型、信息存在状态、信息交流渠道等方面分析了信息源的特点，论述了通过网络信息源结构、内容、访问流量的挖掘实现对采集信息源进行评估与

期刊

数据挖掘企业竞争情报智能采集信息集成data mining enterprise competitive intelligence intellig

自动情感文本分类研究综述

情感分类及其应用是目前研究的一个热点,是自然语言处理,机器学习和心理学等多学科交叉的研究课题,在很多领域都有实际的应用,如产品的声誉分析,舆情跟踪,博客兴趣分析等。论

期刊

情感语义词典主观识别情感分类舆情跟踪声誉分析研究综述sentiment semantic lexicon subjectivity identif

基于样本加权的文本聚类算法研究

样本加权聚类算法是一种最近才引起人们注意的算法，还存在一些需要解决的问题，例如，聚类对象之间的结构信息对样本加权聚类是否有帮助，如何将结构信息自动转换为样本或对象的权重

期刊

文本聚类样本加权聚类PAGERANK被引频次document clustering sample weighted clustering PageR

基于支持矢量聚类的机械故障诊断

针对无监督的支持矢量聚类方法由于样本类别数量未知带来的模型参数难以选择的问题,提出有监督的支持矢量聚类方法,并应用到机械故障诊断中。该方法首先以聚类区域个数及支持

期刊

支持矢量聚类故障诊断k近邻法Support vector clustering Fault diagnosis k nearest neighbor

中文文本关键词自动抽取方法研究

其他学术论文