【摘 要】
:
文本形式的知识是人们每天接触最多的知识形式.在现实生活中,人们非常希望能够快速地了解文章的主要内容,从而快速找到自己感兴趣的话题.为了更好地满足人们的需求,文本挖掘
论文部分内容阅读
文本形式的知识是人们每天接触最多的知识形式.在现实生活中,人们非常希望能够快速地了解文章的主要内容,从而快速找到自己感兴趣的话题.为了更好地满足人们的需求,文本挖掘领域对此提出了一个问题:即如何利用计算机快速准确地为用户提供能够充分代表文章内容的关键词.在该文的工作中,对目前较为流行的自动关键词提取技术进行了充分的分析与比较,并分析了由于汉语与西文的不同,而带来的对这个问题处理方式与处理过程的不同.针对中文的特点,该文提出了一种结合自学习词典技术的基于统计的自动关键词提取算法.在这个算法中使用了两个常用的统计量;设计了树形的中文词典,提高了检索词语的效率;采用了对中文分词效果最好的双向最大匹配算法.在这个算法中既发挥了基于统计的关键词提取算法快速准确的优点,又利用词典技术克服了基于统计的算法中会出现的无意义或不规范词语的缺点,并且根据提取的结果,词典进行了自学习,以提高关键词提取的质量.该文中的算法在实际的项目中已经实现,经过试验结果的分析,关键词提取的效果良好.
其他文献
随着网络和通信技术的发展,以软交换为核心的下一代网络NGN(NextGeneration Network)技术成为网络发展的必然趋势.作为NGN重点业务之一的VoIP(Voice over Internet Protocol)
该文首先介绍了粗糙集产生的背景以及粗糙集的一些基本概念,并将粗糙集与其他几种处理不确定性理论作了比较,同时对粗糙集的发展、知识发现以及粗糙应用于知识发现的优点作了
关联规则是由R.Agrawal等人于1993年提出,关联规则挖掘是数据挖掘的一个重要的分支,其经典算法是Apriori算法,用于挖掘布尔型频繁项集,但是该算法存在在对大型数据库的挖掘时
本文分析了现有应用集成方案存在的不足以及当前Web技术发展的新趋势,研究了当前的Web Services技术原理和特点,探讨了Web Services技术在应用集成方面的优势,提出了一种基于Web
本论文以现代铁路组织原理为基本设计思想,综合当前最新的信息管理技术和网络结构体系系统,致力为铁路客运生产信息的管理,设计和实现一套包括硬件和软件基础平台,方便、实用、高
随着Internet的迅猛发展,网上信息资源原来越丰富,网络已经成为人们获得信息的必要途径和重要手段,但网络信息具有海量、分布、动态变化和结构复杂等特点,使得用户无法有效利
本文着手进行跨平台网络考试系统的开发,在校园网上实现分专业的试题库管理和网络考试,实现学校考试的规范化、科学化、系统化。 本文介绍了系统的开发背景、目的、意义,介绍
本课题来源于导师所承担的科研项目——国家科技重大专项航空发动机微孔冷加工超快激光数控机床(2014ZX04001041),主要研究PCI-E总线在数控系统中的应用。和传统的PCI、PCI-X
随着计算机软硬件系统日益复杂,如何保证其正确性和可靠性成为日益紧迫的问题。各国研究人员为解决这个问题付出了巨大的努力,并取得了很大的进展。在提出的诸多理论和方法中
该文首先给出了弱点及弱点分类的定义,并分析了国际上典型的弱点分类方法的研究成果.攻击者利用系统弱点的目的就是为了提升自己对系统的访问权限,为此该文引入了一种新的弱