基于朴素贝叶斯方法的自动文本分类系统的实现

来源 :第十九届全国数据库学术会议 | 被引量 : 0次 | 上传用户:amenking34875627
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,互联网上信息量也以爆炸式的速度迅速增长.因此,合理和有效地对各类海量数字信息进行组织、检索、访问、利用,已成为数字图书馆这一新兴研究领域的中心问题.随着数字图书馆的发展,特别是在计算机中存储的大量文本信息的迅速增长,使得文本自动分类成为现实的迫切要求.本文分析了基于朴素贝叶斯方法的自动文本分类系统的实现.
其他文献
本文提出一种应用于并行文本数据库的查询优化算法。由于求解并行文本数据库的最优的查询计划方案是NP问题,因此本文提出的是一种近似算法。该方法充分利用了我们的并行文本数
本文提出了一种新的索引技术,它是对M-tree的改进,基于距离和关键维进行索引,旨在提高过滤效率,减少距离计算次数和I/O操作次数。提出了相应的索引结构,建树过程,溢出分裂技术,查询
本文在过滤一精炼策略的基础上,提出二次精炼策略。该策略将精炼分为两个步骤:首先使用一个简单的几何逻辑对过滤之后的候选集进行初步精炼;然后对初步精炼之后的剩余空间对象
数据集成中很重要的一个问题就是检测重复元组,重复指的是对于同一数据,存在两个或多个相同的元组.数据集成的一个很重要的功能就是尽可能地将那些重复记录剔除掉.本文则介绍
主存数据库的应用越来越广泛.但由于计算机CPU和内存的速度差在日益增大,因此人们在内存和CPU之间增加了一层缓存层--高速缓存.主存数据库的索引结构就必须要考虑高速缓存的
会议
本文在乐观并发控制基础上提出一种改进的方法。它的中心思想是:父事务按照同步方式触发子事务,即在子事务触发执行时,父事务处于等待状态,直到子事务执行完成,根事务提交的最终
本文给出了一种利用高维索引优化向量连接实现的方法.该算法通过限制一个元组只和那些可能与之满足连接条件的元组进行比较,大大减少了连接过程中的比较次数。本文算法对高维
本文介绍了基于免疫的入侵检测系统和一些国外学者基于免疫提出的入侵检测系统模型,并分析了基于免疫的入侵检测系统的优点.基于免疫的入侵检测系统借鉴了生物体的免疫系统的
髓系细胞触发受体(Triggering receptor expressed on myeloid cells,TREMs)是一类隶属于免疫球蛋白超家族的细胞表面受体,在介导各种细胞反应中都扮演着重要的角色。近几年,
认证是网络安全的关键问题之一,对于基于Internet/Intranet的电子商务电子政务等应用有着至关重要的作用。本文在分析当前的几种认证方法的基础上,结合Internet/Intranet的环境