【摘 要】
:
文本分类是指在给定的分类体系下,根据文本的内容自动地确定文本所属的类别.与当前的文本分类技术相比,统计语义方法描述了语义元的相互关系,定义了语义元间的亲和力、语义元
论文部分内容阅读
文本分类是指在给定的分类体系下,根据文本的内容自动地确定文本所属的类别.与当前的文本分类技术相比,统计语义方法描述了语义元的相互关系,定义了语义元间的亲和力、语义元集的松散度等.基于上述定义,给出了一种选取关键词集的方法,并用所获得的关键词集构造了关键词集树,完成了映射类别未知的文本的词集到关键词集树的分类过程.文本分类需要一个已分类的训练样本集.怎样得到一个已分类的训练样本集?当前的文本分类技术采用人工对训练样本集进行分类得到这个已分类的训练样本集.该文提出基于统计语义方法对训练样本集进行样本聚类得到分类所需的已分类的训练样本集.网站分类是一个和基于统计语义方法的文本分类类似的过程,统计语义方法还可用于网站分类.
其他文献
该文针对传统的多级分散式采购物流管理存在的问题,通过对汽车行业采购物流模式的研究,提出采用集中式物流中心管理模式.在采购物流管理中,强调供需双方物流信息共享,从而减
首先,该文简要分析了武器系统数据通信的特点和失效模式,然后介绍了一些常用的保证数据通信可靠性的方法.其次,该文针对武器系统中多CPU组成的处理机网络,当数据收发双方在半
如今,互联网在日常生活中越来越普及,人们习惯于通过搜索引擎在大量的网络信息中查找自己需要的信息,随着网络上信息海量地增长,搜索引擎的作用日益重要,赞助商搜索拍卖应运而生。
全文共分8章,主要内容如下:第1章:简要介绍了分布式虚拟环境的概念及特征,回顾了该技术的产生和发展过程,列举了一些典型的分布式虚拟环境系统和应用领域,介绍了分布式虚拟环境
现今商务世界中网络的广泛应用,相互交流各种来源不同的信息越来越重要。然而今天大多数的应用并不是为了共享信息而设计的,甚至是用不同的语言开发的,并在不同的硬件和软件平台
随着互联网技术的迅速发展,各种社交应用改变了人们的生活方式。人们在虚拟的互联网中交流合作,形成了大规模社会网络。在社会网络中普遍存在社区结构的特征,挖掘大规模社会
不规则三角网数字模型(Triangulated Irregular Network,TIN)是用一组连续而不重复的三角形逼近地形表面,是数字地面模型中的一种主要表示方法。数字地面模型(Digital Terrain
该文着重基于分布式存储系统的并行I/O模型和核外存储策略的设计与实现.首先,该文阐述了并行I/O的系统结构,文件系统的结构与特性,典型的并行文件系统,并行I/O库的发展,以及
该文详细介绍了短信文本的实时过滤与主题归纳这一系统,主要包括以下几个方面的内容:1.介绍了课题的背景及其研究意义,并对该领域的发展概况进行了介绍.2.介绍了短信文本的实
随着博客、微博、论坛、社交网站等的迅速普及,社会网络越来越成为人们生活中不可或缺的一部分,社会网络分析已经成为一个越来越重要的研究课题。现实世界中社会网络广泛存在,这