知识管理系统中一种自动关键词提取技术

来源 :北京大学 | 被引量 : 0次 | 上传用户：zzdj1990

【摘要】

：

文本形式的知识是人们每天接触最多的知识形式.在现实生活中,人们非常希望能够快速地了解文章的主要内容,从而快速找到自己感兴趣的话题.为了更好地满足人们的需求,文本挖掘

【作者】

：

曾铭芳

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2004年期

【关键词】

：

知识管理关键词提取分词词典文本挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本形式的知识是人们每天接触最多的知识形式.在现实生活中,人们非常希望能够快速地了解文章的主要内容,从而快速找到自己感兴趣的话题.为了更好地满足人们的需求,文本挖掘领域对此提出了一个问题:即如何利用计算机快速准确地为用户提供能够充分代表文章内容的关键词.在该文的工作中,对目前较为流行的自动关键词提取技术进行了充分的分析与比较,并分析了由于汉语与西文的不同,而带来的对这个问题处理方式与处理过程的不同.针对中文的特点,该文提出了一种结合自学习词典技术的基于统计的自动关键词提取算法.在这个算法中使用了两个常用的统计量;设计了树形的中文词典,提高了检索词语的效率;采用了对中文分词效果最好的双向最大匹配算法.在这个算法中既发挥了基于统计的关键词提取算法快速准确的优点,又利用词典技术克服了基于统计的算法中会出现的无意义或不规范词语的缺点,并且根据提取的结果,词典进行了自学习,以提高关键词提取的质量.该文中的算法在实际的项目中已经实现,经过试验结果的分析,关键词提取的效果良好.

其他文献

VoIP网间认证结算问题研究及原型系统的设计和实现

随着网络和通信技术的发展,以软交换为核心的下一代网络NGN(NextGeneration Network)技术成为网络发展的必然趋势.作为NGN重点业务之一的VoIP(Voice over Internet Protocol)

学位

下一代网络VoIP互连互通网间结算OSP

粗糙集理论及其在知识发现中的应用研究

该文首先介绍了粗糙集产生的背景以及粗糙集的一些基本概念,并将粗糙集与其他几种处理不确定性理论作了比较,同时对粗糙集的发展、知识发现以及粗糙应用于知识发现的优点作了

学位

粗糙集理论知识发现公理分子格离散化属性约简决策规则

基于数据挖掘技术的数字化校园数据的分析与建模

关联规则是由R.Agrawal等人于1993年提出,关联规则挖掘是数据挖掘的一个重要的分支,其经典算法是Apriori算法,用于挖掘布尔型频繁项集,但是该算法存在在对大型数据库的挖掘时

学位

数字化校园关联规则数据挖掘0A算法系统设计

基于Web Services的应用集成技术研究与实现

本文分析了现有应用集成方案存在的不足以及当前Web技术发展的新趋势，研究了当前的Web Services技术原理和特点，探讨了Web Services技术在应用集成方面的优势，提出了一种基于Web

学位

Web Services应用集成SOAPWSDLUDDI

铁路客运生产信息管理系统设计与相关问题研究

本论文以现代铁路组织原理为基本设计思想，综合当前最新的信息管理技术和网络结构体系系统，致力为铁路客运生产信息的管理，设计和实现一套包括硬件和软件基础平台，方便、实用、高

学位

铁路客运生产系统调度微软应用架构MIS

搜索引擎的数据索引与检索研究

随着Internet的迅猛发展,网上信息资源原来越丰富,网络已经成为人们获得信息的必要途径和重要手段,但网络信息具有海量、分布、动态变化和结构复杂等特点,使得用户无法有效利

学位

搜索引擎信息检索倒排索引

跨平台网络考试系统的研究与实现

本文着手进行跨平台网络考试系统的开发，在校园网上实现分专业的试题库管理和网络考试，实现学校考试的规范化、科学化、系统化。　　本文介绍了系统的开发背景、目的、意义，介绍

学位

校园网络数据库考试系统CS模式BS模式

PCI-E总线在数控系统中的应用研究

本课题来源于导师所承担的科研项目——国家科技重大专项航空发动机微孔冷加工超快激光数控机床(2014ZX04001041),主要研究PCI-E总线在数控系统中的应用。和传统的PCI、PCI-X

学位

PCI-EDMA传输Linux驱动程序MIOe-DB2100性能测试

基于模型检验软件测试中的相关问题研究

随着计算机软硬件系统日益复杂,如何保证其正确性和可靠性成为日益紧迫的问题。各国研究人员为解决这个问题付出了巨大的努力,并取得了很大的进展。在提出的诸多理论和方法中

学位

软件测试模型检验BDDA*算法空间搜索启发式算法

基于特权提升的多维量化属性弱点分类法的研究

该文首先给出了弱点及弱点分类的定义,并分析了国际上典型的弱点分类方法的研究成果.攻击者利用系统弱点的目的就是为了提升自己对系统的访问权限,为此该文引入了一种新的弱

学位

弱点分类法安全评估特权提升弱点数据库特权集弱点关联图

知识管理系统中一种自动关键词提取技术

与本文相关的学术论文