基于概念向量空间的文档语义分类模型研究

来源 :图书情报工作 | 被引量 : 0次 | 上传用户：hjkl123lkjh

【摘要】

：

针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词

【作者】

：

李海蓉

【机构】

：

西华师范大学图书馆,

【出处】

：

图书情报工作

【发表日期】

：

2011年24期

【关键词】

：

概念向量空间文档自动分类文档语义分类模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。 Aiming at the problems existing in the traditional methods of automatic document classification and the current semantic classification methods, a new document semantic classification model based on concept vector space is proposed. The model matches the original documents The items are matched to the attribute set describing the concept of ontology and then mapped into the ontology concepts corresponding to the attribute set to form a low-dimensional and semantic rich document conceptual vector space. Using the currently very popular dataset “20Newsgroups ” as experimental dataset, the document semantic classification model based on concept vector space is validated experimentally. The experimental results show that the proposed document semantic classification method can greatly reduce the vector space dimension and improve the performance of document classification compared with the traditional document classification method based on word vector space.

其他文献

网络舆情话题的数据立方体模型分析

通过详细分析网络舆情组成要素,利用数据仓库技术,建立网络舆情话题数据立方体模型。该模型涵盖网络舆情的大部分组成要素,而且可以根据实际需要进行扩展。实际案例分析表明,

期刊

网络舆情舆情话题分析数据立方体模型网络舆情预警

基于主观概率的员工个体知识表征与修正研究

基于个体知识的专用性、互补性和动态性特征,结合个体知识的主观论,将员工个体知识概念界定为具有一定确信程度的知识(信念)体系,从而选取主观概率的概念来表征员工个体知识

期刊

个体知识主观概率贝叶斯推理知识表征

迎“疫”而上的战士——记安徽巢湖市苏湾社区干部苏长圣

3月29日下午,走进安徽省巢湖市苏湾镇苏湾社区党群服务中心,村干部们像往常一样有条不紊地忙碌着,却没有再看到社区副主任苏长圣的身影.连续奋战近50天的他,在3月14日下午忙

期刊

本体模型中的错误类型及检测方法

分析对本体模型进行错误诊断的必要性,归纳总结本体模型的常见错误,如描述类错误、分类错误、冗余错误、循环错误、设计异常等,探讨其修正方法,以便为本体评价及构建优质本体

期刊

本体评价语义错误分类错误冗余错误

团队性绩效考核对个体知识共享行为影响的实证研究

认为如何通过组织管理策略有效激发员工知识共享行为是学术界和实践界共同关注的问题。以社会交换理论、组织认同理论和动机理论为基础,采用结构方程建模技术,研究团队性绩效

期刊

团队性绩效考核知识共享动机工作控制点

知识团队知识分享困境的博弈机理研究——对两种均衡策略的比较

运用博弈论，对知识团队知识分享困境的博弈机理进行分析。研究发现：帕累托均衡的分享知识量大于纳什均衡的分享知识量；当成员收益不同时，知识分享变成智猪博弈。最后从团队整体利

期刊

知识团队知识分享困境纳什均衡帕累托均衡博弈机理

Web3．0数据整合流程研究

指出Web3.0中的数据整合涵盖数据集成、知识集成、服务集成、信息集成4个层次,认为进行Web3.0数据整合时,面临着层次多、方向多、目标多且不确定、整合频率高、涉及技术多等

期刊

Web3．0数据整合流程

基于专利计量的全球光互连技术发展分析

金属互连作为当今集成电路时代的基本互连方式，由于玻尔兹曼统计规律的限制而终将遭遇物理、工艺、经济成本等多方面的制约并被淘汰。目前，光互连因其可并行、带宽高、低串扰等

学位

光互连专利计量技术发展集成电路

一种基于群体增量学习算法的文本特征选择方法

尽管目前存在许多文本特征选择方法，但是它们都有着一定的局限性。提出一种新的基于群体增量学习（Population Based Incremental Learning）算法的文本特征选择方法，其特点是无需

期刊

群体增量学习特征选择文本分类遗传算法

文化维度下的英国约克和巴斯古城保护

英国是遗产大国,从世界文化遗产名录来看,其数量和保护情况,都有着独一无二的优势.这源于在漫长的遗产保护过程中,英国有着自己的保护理念和方式、方法,且累积了丰富的遗产保

期刊

英国遗产保护文化维度

基于概念向量空间的文档语义分类模型研究

与本文相关的学术论文