基于概念簇的文本分类算法

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:guanxming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型SCVM(Semantic Concept Vector Model)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法TCABCC(Text Classification Algorithm Based on the Concept of Clusters),通过改进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇.实验结果表明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高.
其他文献
近年来,房地产业已逐渐成为我国国民经济的主导产业,在现代社会经济生活中有着举足轻重的地位。经过十几年的发展,中国房地产业正处于向规模化、品牌化、规范运作的转型时期,房地
开放获取期刊(Open Access Joumals,简称OAJ)是在“学术期刊危机”和计算机网络技术发展的共同推动下产生的一种新型科技信息交流与传播模式。开放获取倡导读者对科技信息的无
电子政务元数据标准是电子政务建设的基础,同时也是数字档案元数据的主要来源。该标准的完善程度影响着档案工作效率和数字档案管理质量,但是现有国内外电子政务元数据研究,大都
介绍生态学中的r及K对策理论特点,将生态学中的r-K对策理论引入信息生态学。以信息的带宽和同步性为标准对信息生态系统内不同信息类型的r-K属性进行量化比较并进行分类。指
物质、能源和信息是人类赖以生存和发展的三大资源。随着信息化社会的到来,信息资源的重要性日益显现,它在社会信息化进程中居于核心地位。作为信息资源的集合地——图书馆、情
随着知识经济时代的到来,知识逐渐取代货币资本、劳动力和原材料等有形资源而成为经济增长中关键性的生产要素。知识管理能够增强顾客的满意程度,提高员工的工作效率,促进产品创
将归因理论的观点和方法纳入到图书馆感知服务研究之中,从归因的视角对图书馆用户感知服务质量的形成机制做定量分析。着重考察图书馆用户满意感/不满意感判断中的认知成分,
借助NVivo 8.0质性分析软件,对面向13名教学主管人员所进行的深度访谈所获得的访谈资料作定性分析,归纳出5个核心维度:了解度、适合度、支持度、认可度和需求度。研究结果表
利用Flash、ASP和数据库等软件技术设计实现基于图书条形码输入的图书定位数据采集系统和基于Flash图形动画输出的图书定位显示系统。前者实现了在非RFID技术应用环境下图书
MOOC作为一种大规模开放式免费课程为越来越多的人接受,MOOC网站上线的课程数量也不断激增,如何将这些资源进行更加合理的规划变得更加迫切。目前,国内外MOOC网站建设各具特