基于统计语义方法的文本分类和网站分类

来源 :云南大学 | 被引量 : 0次 | 上传用户：nn2268006

【摘要】

：

文本分类是指在给定的分类体系下,根据文本的内容自动地确定文本所属的类别.与当前的文本分类技术相比,统计语义方法描述了语义元的相互关系,定义了语义元间的亲和力、语义元

【作者】

：

郭祥文

【机构】

：

云南大学

【出处】

：

云南大学

【发表日期】

：

2003年期

【关键词】

：

文本分类网站分类统计语义方法亲和力松散度样本聚类关键词集关键词集树关键网页集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类是指在给定的分类体系下,根据文本的内容自动地确定文本所属的类别.与当前的文本分类技术相比,统计语义方法描述了语义元的相互关系,定义了语义元间的亲和力、语义元集的松散度等.基于上述定义,给出了一种选取关键词集的方法,并用所获得的关键词集构造了关键词集树,完成了映射类别未知的文本的词集到关键词集树的分类过程.文本分类需要一个已分类的训练样本集.怎样得到一个已分类的训练样本集?当前的文本分类技术采用人工对训练样本集进行分类得到这个已分类的训练样本集.该文提出基于统计语义方法对训练样本集进行样本聚类得到分类所需的已分类的训练样本集.网站分类是一个和基于统计语义方法的文本分类类似的过程,统计语义方法还可用于网站分类.

其他文献

基于库存优化模型的汽车行业采购物流系统设计与实现

该文针对传统的多级分散式采购物流管理存在的问题,通过对汽车行业采购物流模式的研究,提出采用集中式物流中心管理模式.在采购物流管理中,强调供需双方物流信息共享,从而减

学位

供应链管理汽车行业库存优化模型库存管理模式采购物流系统

武器系统可靠性数据通信协议技术研究

首先,该文简要分析了武器系统数据通信的特点和失效模式,然后介绍了一些常用的保证数据通信可靠性的方法.其次,该文针对武器系统中多CPU组成的处理机网络,当数据收发双方在半

学位

可靠性数据通信协议分组转发差错控制流量控制DTCP协议

基于联盟博弈的赞助商搜索拍卖策略研究

如今，互联网在日常生活中越来越普及，人们习惯于通过搜索引擎在大量的网络信息中查找自己需要的信息，随着网络上信息海量地增长，搜索引擎的作用日益重要，赞助商搜索拍卖应运而生。

学位

赞助商搜索拍卖博弈论联盟策略Shapley值

分布式虚拟环境关键技术及其在复杂系统仿真中的应用研究

全文共分8章,主要内容如下：第1章：简要介绍了分布式虚拟环境的概念及特征,回顾了该技术的产生和发展过程,列举了一些典型的分布式虚拟环境系统和应用领域,介绍了分布式虚拟环境

学位

分布式虚拟环境高层体系结构DR技术平滑算法TCP协议UDP协议Bezier曲线

CORBA安全服务实现与简化

现今商务世界中网络的广泛应用，相互交流各种来源不同的信息越来越重要。然而今天大多数的应用并不是为了共享信息而设计的，甚至是用不同的语言开发的，并在不同的硬件和软件平台

学位

CORBA安全服务安全服务存取控制信息安全安全认证安全连接

基于合作博弈的社区检测算法研究

随着互联网技术的迅速发展,各种社交应用改变了人们的生活方式。人们在虚拟的互联网中交流合作,形成了大规模社会网络。在社会网络中普遍存在社区结构的特征,挖掘大规模社会

学位

社会网络社区检测合作博弈

计算几何的不规则三角网算法研究及在GIS中应用

不规则三角网数字模型(Triangulated Irregular Network,TIN)是用一组连续而不重复的三角形逼近地形表面，是数字地面模型中的一种主要表示方法。数字地面模型(Digital Terrain

学位

不规则三角网TINDelaunny三角形三角剖分三角网数字地面模型等值线地理信息系统GISUML地球化学

分布式环境下的并行I/O与核外存储的研究与实现

该文着重基于分布式存储系统的并行I/O模型和核外存储策略的设计与实现.首先,该文阐述了并行I/O的系统结构,文件系统的结构与特性,典型的并行文件系统,并行I/O库的发展,以及

学位

核外存储全局数组文件局部数组文件分布式存储系统并行计算数据映射

短信文本的实时过滤与主题归纳

该文详细介绍了短信文本的实时过滤与主题归纳这一系统,主要包括以下几个方面的内容:1.介绍了课题的背景及其研究意义,并对该领域的发展概况进行了介绍.2.介绍了短信文本的实

学位

短信文本分类统计实时过滤匹配算法

基于效用的多关系社会网络社区发现研究

随着博客、微博、论坛、社交网站等的迅速普及，社会网络越来越成为人们生活中不可或缺的一部分，社会网络分析已经成为一个越来越重要的研究课题。现实世界中社会网络广泛存在，这

学位

社会网络多关系网络社区结构效用挖掘理论

基于统计语义方法的文本分类和网站分类

与本文相关的学术论文