模糊聚类的最大树法在文本分类中的应用研究

来源 :第二十二届中国数据库学术会议 | 被引量 : 0次 | 上传用户:zjlsxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的快速发展,电子文档的数量增长极快,使得文本自动分类对于信息处理的意义变得更加重要,文本自动分类已成为一项重要的研究课题.目前,国内外学者已经提出了多种文本分类方法,如:Bayes、支持向量机、群体智能、神经网络、N-gram等,但仍然有很多问题亟待解决.本文针对文本分类提出了基于最大模糊支撑树的文本分类算法ATCMT,实验结果表明该算法是一种有效的方法.只要文本特征抽取准确、相似性度量科学,并与其语义相结合,那么就可以提高算法ATCMT的准确性.但是文本分类的难点之一是如何正确地提取文本特征,因为在分词中存在少量的语法歧义;难点之二是特征空间的高维性和特征向量的稀疏性.因此,如何消除语法歧义、如何降低特征空间的维数和提高分类的效率和精度,有待于今后进一步深入研究和完善.
其他文献
基于XML的Cache系统是XML数据管理领域一个重要的研究问题.本文在分析基于XML的Cache系统功能的基础上,简单介绍了一个实用的XMLCache系统--CACX;并对CACX系统中的数据组织以及数据更新策略进行研究;根据XML数据更新的特点,提出了基于关联规则的Cache数据组织方法,降低了数据更新的数据开销;同时讨论了CACX系统三种数据替换策略及其代价模型.理论分析表明,本文提出的第二
稀有类分类是当前数据挖掘的研究热点之一.所谓稀有类是指我们关注的目标类在数据集中所占比例非常小(通常远低于10%).许多实际问题,如网络入侵检测、欺诈检测、疾病诊断等都可看作稀有类识别问题.本文考察了如何使用Bagging技术来分类稀有类,提出了Bagging基于eEP的组合分类算法BeEPRC.通过改进的加大稀有类样本抽样比例方法及多分类器投票策略,BeEPRC对稀有类表现出了很好的分类性能.在
Web服务技术出现已经有四年多了,尽管这项技术非常有潜力但是被采用的比率依然不高.影响它发展的原因有许多,其中一个重要的方面就是Web服务质量(QualityofServices,简称QoS).在Web服务体系中,服务登记机制UDDI只基于Web服务的功能性(Functional)方面.类似于:用户需要获得响应时间小于2s,服务价格小于100RMB这样的Web服务,目前的UDDI无法处理,如何提高
实化视图是数据仓库(DataWarehouse,DW)中存储的主要信息实体,它将各分布式数据源的数据实体化.在一个典型的数据仓库系统中,数据源是由不同的信息提供者拥有,并且功能独立于其他数据源.一旦数据源产生更新,DW必须通过视图维护重新演算算法来确保视图有效地进行相应的维护,以保证两者之间数据的一致性.已有的算法如延迟视图维护方法,自维护方法,以及基于增量维护思想的渴求补偿算法、Strobe算法
本文针对现有的Oacle数据库管理系统的安全模型进行分析,参照国内已有的相关研究,按照Bl级标准针对数据库访问设计了一个基于用户认证,数据加密传输、强制访问控制及审计功能的安全加固器,并提出了进一步的完善方案.
QoS在面向服务的应用中有着非常重要的作用,本文研究了可扩展的动态服务聚合QoS模型以及基于Petri网的服务聚合流程基本控制模式和服务聚合流程QoS计算方法,是实现基于QoS的动态服务聚合的基础.
本文在第2部分首先介绍了目前技术转移平台研究现状,并指出传统推荐技术不能很好地适应技术转移平台特点.本文经过分析后提出Web服务可以有效的解决这一存在问题,在第3部分概述了Web服务技术,接着介绍了技术转移平台上基于Web服务的推荐系统的结构及推荐流程(第4部分).在文章的第5部分简要的介绍了该方法的实现情况.最后部分对全文进行了小结和展望.
本文主要是在次协调关系数据库的基础上引入了可信度的概念,并对代数运算做了新的定义,从而扩展了次协调数据库的功能,这在实际应用中有着重大的意义.但由于次协调数据库的概念直到近年来才被提出,还需要将传统数据库中的关系演算、查询优化、范式、完整性约束等概念引入到次协调数据库中来,以完善其整个系统.
聚类分析是数据挖掘领域中的一项重要的研究课题,它既可以作为一个单独的工具以发现数据库中数据分布的一些深入的信息,也可以作为其他数据挖掘分析算法的一个预处理步骤.目前,高维数据集的高效聚类已成为聚类分析算法的巨大挑战.迄今为止,国内外的研究者已经提出了许多聚类算法,在本文中提出了一种基于最优分割区间和单调递减阈值函数的子空间聚类算法FIS.它在保证精度的同时能够有效改善聚类算法对于存在高维聚类的执行
1998年2月,W3C推出了可扩展标记语言XML.随着XML成为Web上进行半结构化数据表示和数据交换的标准,XML数据相关技术的研究成为热点.本文首先给出XML多值依赖的一个定义,定义中采用约束限制范围很好地解决了多值依赖的有效性与属性集范围有关的问题.在此基础上,转化为信息表,利用不可分辨关系对信息表细化,并给出多值依赖的判定定理.根据多值依赖的特点,提出发现多值依赖的两点规则,并给出一个新的