基于概念簇的文本分类算法

来源 :图书情报工作 | 被引量 : 0次 | 上传用户：guanxming

【摘要】

：

针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量

【作者】

：

马甲林刘金岭金春霞

【机构】

：

淮阴工学院计算机工程学院

【出处】

：

图书情报工作

【发表日期】

：

2013年15期

【关键词】

：

文本分类语义概念向量概念簇 KNN 知网

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统文本分类算法在向量空间模型表示下存在向量高维、稀疏以及忽略特征语义相关性等缺陷所导致的分类效率低和精度不高的问题,以知网(HowNet)为知识库,构建语义概念向量模型SCVM(Semantic Concept Vector Model)表示文本,根据概念语义及上下文背景对同义词进行归并,对多义词进行排歧,提出基于概念簇的文本分类算法TCABCC(Text Classification Algorithm Based on the Concept of Clusters),通过改进传统KNN,用概念簇表示各个类别训练样本,使相似度的计算基于文本概念向量和类别概念簇.实验结果表明,该算法构造的分类器在效率和性能上均比传统KNN有较大的提高.

其他文献

上海市房地产企业竞争情报系统的构建

近年来，房地产业已逐渐成为我国国民经济的主导产业，在现代社会经济生活中有着举足轻重的地位。经过十几年的发展，中国房地产业正处于向规模化、品牌化、规范运作的转型时期，房地

学位

竞争情报系统房地产企业核心竞争力企业管理

开放获取期刊（OAJ）的运营模式研究

开放获取期刊(Open Access Joumals，简称OAJ)是在“学术期刊危机”和计算机网络技术发展的共同推动下产生的一种新型科技信息交流与传播模式。开放获取倡导读者对科技信息的无

学位

开放获取期刊出版模式创建模式运营模式传播模式

基于数字档案管理的电子政务核心元数据集的构建

电子政务元数据标准是电子政务建设的基础，同时也是数字档案元数据的主要来源。该标准的完善程度影响着档案工作效率和数字档案管理质量，但是现有国内外电子政务元数据研究，大都

学位

电子政务元数据集数字档案管理设计流程元数据标准

信息领域中的r-K对策及其发展趋势

介绍生态学中的r及K对策理论特点,将生态学中的r-K对策理论引入信息生态学。以信息的带宽和同步性为标准对信息生态系统内不同信息类型的r-K属性进行量化比较并进行分类。指

期刊

信息生态r对策K对策

我国图书馆、情报与档案管理学科教育研究

物质、能源和信息是人类赖以生存和发展的三大资源。随着信息化社会的到来，信息资源的重要性日益显现，它在社会信息化进程中居于核心地位。作为信息资源的集合地——图书馆、情

学位

图书馆学情报学档案学学科教育

基于社会网络的知识管理模式研究

随着知识经济时代的到来，知识逐渐取代货币资本、劳动力和原材料等有形资源而成为经济增长中关键性的生产要素。知识管理能够增强顾客的满意程度，提高员工的工作效率，促进产品创

学位

社会网络知识管理模式知识共享企业竞争优势文献调查法

归因视角下的高校图书馆感知服务质量形成机制

将归因理论的观点和方法纳入到图书馆感知服务研究之中,从归因的视角对图书馆用户感知服务质量的形成机制做定量分析。着重考察图书馆用户满意感/不满意感判断中的认知成分,

期刊

归因理论图书馆感知服务质量

高校图书馆嵌入式教学实施的影响因素研究

借助NVivo 8.0质性分析软件,对面向13名教学主管人员所进行的深度访谈所获得的访谈资料作定性分析,归纳出5个核心维度:了解度、适合度、支持度、认可度和需求度。研究结果表

期刊

高校图书馆嵌入式教学影响因素质性研究

图书定位系统的设计与实现

利用Flash、ASP和数据库等软件技术设计实现基于图书条形码输入的图书定位数据采集系统和基于Flash图形动画输出的图书定位显示系统。前者实现了在非RFID技术应用环境下图书

期刊

图书定位数据采集FlashRFID

基于信息构建理论的MOOC网站优化研究

MOOC作为一种大规模开放式免费课程为越来越多的人接受,MOOC网站上线的课程数量也不断激增,如何将这些资源进行更加合理的规划变得更加迫切。目前,国内外MOOC网站建设各具特

学位

MOOC信息构建信息组织用户体验

基于概念簇的文本分类算法

与本文相关的学术论文