一种基于特征聚类的文本分类模型研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:wdyy123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一。本文通过x^2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类。实验结果表明,该方法的分类效率较高。
其他文献
本文尝试根据书目文献数据库中主题词/副主题词之间的语义关联规则抽取知识.以阿斯匹林这一比较常用的药物作为文献集合的主题范围,选取经过验证的关联规则,将其运用到具体的
2016年,青浦区各部门强化分工通力合作,积极推进清洁空气行动计划,圆满完成涉及能源、产业等七大领域的30项目标任务。(1)全面完成中小燃煤锅炉、窑炉清洁能源替代和经营性小茶
不借助于任何辞典工具而从Web中自动挖掘出术语的翻译,这是一项有趣且富有挑战性的工作。本文提供了一种基于部分平行Web语料的自动术语翻译方法。首先通过一个术语对,采用Web
本文阐述了将中文叙词表转换成网上可共享本体的意义.在借鉴国外相关研究成果的基础上,提出了用OWL(Web Ontology Language)表示<中国分类主题词表>的具体方案,并就词表中存
据报道,美国明尼苏达大学的科学家团队最近发明了一种基于发光太阳能集中器(LSC)的光伏窗户,它充分利用硅纳米粒子的光学特性,只需在玻璃上植入硅纳米粒子,就能实现太阳能发电
2018年全国节能宣传周期间,上汽集团开展了一系列内容丰富、形式多样的节能宣传周主题宣传活动。围绕“节能降耗,保卫蓝天”全国节能周主题,上汽集团质经部组织制作印发具有上汽
最近,美国北卡罗莱纳州立大学(NCState)研究人员进行了一项新设计,可吸收人体热量,将其转化成电量,供可穿戴设备使用,新设备名为“可穿戴热电发生器”(TEG),能利用身体和环境空气
本文阐述了中文叙词表本体(OntoThesaurus,即基于中文叙词表建立的本体知识库)共建共享系统的设计思想和总体结构。描述了中文叙词表转换为OWL本体的扩展TBox定义,叙词表文本的AB
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现