基于概念向量空间的文档语义分类模型研究

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:hjkl123lkjh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。 Aiming at the problems existing in the traditional methods of automatic document classification and the current semantic classification methods, a new document semantic classification model based on concept vector space is proposed. The model matches the original documents The items are matched to the attribute set describing the concept of ontology and then mapped into the ontology concepts corresponding to the attribute set to form a low-dimensional and semantic rich document conceptual vector space. Using the currently very popular dataset “20Newsgroups ” as experimental dataset, the document semantic classification model based on concept vector space is validated experimentally. The experimental results show that the proposed document semantic classification method can greatly reduce the vector space dimension and improve the performance of document classification compared with the traditional document classification method based on word vector space.
其他文献
通过详细分析网络舆情组成要素,利用数据仓库技术,建立网络舆情话题数据立方体模型。该模型涵盖网络舆情的大部分组成要素,而且可以根据实际需要进行扩展。实际案例分析表明,
基于个体知识的专用性、互补性和动态性特征,结合个体知识的主观论,将员工个体知识概念界定为具有一定确信程度的知识(信念)体系,从而选取主观概率的概念来表征员工个体知识
3月29日下午,走进安徽省巢湖市苏湾镇苏湾社区党群服务中心,村干部们像往常一样有条不紊地忙碌着,却没有再看到社区副主任苏长圣的身影.连续奋战近50天的他,在3月14日下午忙
期刊
分析对本体模型进行错误诊断的必要性,归纳总结本体模型的常见错误,如描述类错误、分类错误、冗余错误、循环错误、设计异常等,探讨其修正方法,以便为本体评价及构建优质本体
认为如何通过组织管理策略有效激发员工知识共享行为是学术界和实践界共同关注的问题。以社会交换理论、组织认同理论和动机理论为基础,采用结构方程建模技术,研究团队性绩效
运用博弈论,对知识团队知识分享困境的博弈机理进行分析。研究发现:帕累托均衡的分享知识量大于纳什均衡的分享知识量;当成员收益不同时,知识分享变成智猪博弈。最后从团队整体利
指出Web3.0中的数据整合涵盖数据集成、知识集成、服务集成、信息集成4个层次,认为进行Web3.0数据整合时,面临着层次多、方向多、目标多且不确定、整合频率高、涉及技术多等
金属互连作为当今集成电路时代的基本互连方式,由于玻尔兹曼统计规律的限制而终将遭遇物理、工艺、经济成本等多方面的制约并被淘汰。目前,光互连因其可并行、带宽高、低串扰等
尽管目前存在许多文本特征选择方法,但是它们都有着一定的局限性。提出一种新的基于群体增量学习(Population Based Incremental Learning)算法的文本特征选择方法,其特点是无需
英国是遗产大国,从世界文化遗产名录来看,其数量和保护情况,都有着独一无二的优势.这源于在漫长的遗产保护过程中,英国有着自己的保护理念和方式、方法,且累积了丰富的遗产保