基于Web挖掘的文本分类技术的研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:nbu_james
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文所取得的主要成果和创造性工作如下:1.提出了基于二次熵的互信息QEMI特征选取的方法.特征选取是文本分类挖掘中的关键技术,是文本分类的基础.该文以广义信息论为理论基础,通过对特征和类别的关系进行分析,提出用基于二次熵的互信息为选词标准,独立评估特征集中的每个特征,然后对所有的特征按照其评估分值的大小进行排序,选取一定数量的最佳特征作为结果.实验表明,QEMI特征选取方法能够从高维的特征空间中选取出对于文本分类有效的特征,降低文本特征空间的维数,提高文本分类的性能.2.提出了基于简单贝叶斯的CLIF_NB文本分类学习方法.该文针对在简单贝叶斯分类方法中条件独立性假设常常与实际相违背的情况,利用条件互信息理论,计算特征属性之间的最大相关性概率,引入中间变量集组合替代线性不可分属性,改善条件独立性假设的限制,并学习一系列的分类器,缩小训练集中的分类错误,综合得出分类准确率较高的CLIF_NB分类器.实验表明,CLIF_NB分类方法在分类准确率上优于其它几种同类方法.3.提出了模糊划分聚类FPCM与简单贝叶斯增量学习相结合的文本分类方法,该方法用于实现无标记训练样本的Web文本分类.该文通过对传统的模糊聚类方法进行改进,提出模糊划分聚类方法FPCM,并结合简单贝叶斯增量学习方式进行分类器的学习,将聚类的无监督性和样本的先验知识结合起来,用估计分类误差损失的方法平衡选取候选样本,提高分类准确率,构造应用范围更加广泛的分类学习模型.实验表明,该方法能够从无类别标记样本中取得比较客观的簇和少量标记文本,结合简单贝叶斯增量学习分类,进一步提高了文本分类性能.4.设计并实现了一个Web中文文本自动分类系统,该系统从实际的应用需求出发,采用模块化的结构设计,使系统在应用范围和分类方法选取方面具有良好的灵活性,易于系统功能的扩充和性能的完善.
其他文献
访存错误是一种危害严重却又难以定位的软件错误,对软件的可靠性构成严峻挑战,而在操作系统内核中,由于权限和内存划分问题,导致访存错误的发现和定位更加困难。由于设备驱动与操
分组密码是商业密码体制的主流密码.它具有速度快、易于标准化和便于软硬件实现等特点.因此分组密码在计算机通信和信息系统安全领域中具有广泛的应用.随着计算机技术的飞速
随着计算机技术的快速发展和应用需求的持续增长,多屏显示技术得到广泛应用。在多媒体教学、多屏监控、公共窗口服务等领域,应用程序往往需要为多个使用者提供不同显示窗口,多屏
该文首先介绍了网络管理系统的一些基本概念和原理,分析了现有系统中存在的问题,指出了目前的研究热点.并从以下几个方面展开研究工作:分布式系统管理的策略规范的研究受到了
该文在对现有各种移动代理平台及其安全解决方案充分研究的基础上,从总结移动代理安全保障技术入手,综合考虑各种移动代理应用环境及安全需求,结合现有体系结构的设计优点,提
该文采用了设计模式思想和组件技术,提出了一种安防系统平台的设计.该平台的内容包括:在所有的安防设备都提供通信接口的基础上,将安防设备以星型或者总线型的方式连接起来.
基于软件自动化的考虑,在深入研究指称语义和Monad的基础上,给出了指称语义的转换方法和Monad的转换方法.具体给出了从直接指称语义到接续指称语义的转换方法,给出了从接续指
该文首先比较详细地讨论了控制系统的发展变化过程,在此基础上提出了一种全新的计算机控制系统一网络控制系统NCS,并对其结构模型进行了比较详细地研究.网络控制系统NCS继承
该文主要就动态联盟协同项目管理系统体系结构;动态联盟组织内项目跟踪模型;动态联盟环境下协同项目的成本控制问题进行了研究.文中结合动态联盟组织运行模式,把联盟组织结构
要随着计算机和宽带网络技术日新月异的发展,以多媒体通信为主体的信息网络已成为世界关注的热点.尤其是因特网(Internet)的巨大成功,使IP成为未来信息网络的支柱技术,以IP为