基于神经网络的文本自动分类系统研究

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:eagleqizha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类(Automatic Text Categorization, ATC)是指在给定的分类体系下,根据文本的内容自动确定文本所属类别的过程。文本自动分类使信息趋于有序化,便于信息的存储、检索、传播、开发和利用,是组织和管理海量信息的有效手段,是几乎所有基于内容的文本管理研究的基石,因此文本自动分类的研究具有较强的现实意义和应用价值。神经网络分类法作为一种常用的文本自动分类方法,具有较强的自学习性和鲁棒性,但同时也普遍存在训练时间长,可解释性较差等缺点。径向基函数神经网络(Radial Basis Function Neural Network,简称RBFNN)具有网络设计简单、收敛速度快、泛化能力强、可解释性较好等特点,本文对RBFNN分类算法在中文文本自动分类中的应用进行了深入研究。本文设计实现的RBFNN文本自动分类系统分为文本向量表示和RBFNN分类器的构建两个主要过程:首先,选用中国科学院计算所开发的汉语词法分析系统ICTCLAS对训练语料进行分词、去停用词处理,采用不同的特征选择和权重计算方法选取出相应的特征项构建文本向量空间;其次,通过k-均值聚类法对输入样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后利用最小平方误差法训练得到输出层连接权值,完成RBFNN文本分类器的训练,并进行相关测试。实验结果表明,RBFNN分类器在中文文本自动分类中具有较理想的性能,测试平均F1值在85%以上。此外,本文在总结常用分类器评价指标的基础上,提出了基于层次分析法(AHP)的文本自动分类系统影响因素指标体系,并根据专家调查问卷结果构造判断矩阵,利用AHP专用软件Expert Choice计算得到各评价指标的权重,即各指标对文本自动分类系统的影响程度,对本文文本自动分类系统的设计实验、性能测试起到指导作用。
其他文献
乳化炸药作为一种新型工业炸药,在我国民爆行业中有着重要作用。随着国家基础建设投入增大,目前对于乳化炸药的需求也持续增加。针对生产该产品的山东某化工企业的生产线存在自动化程度低、安全性差的现状,对其生产线控制系统进行升级改造,设计了基于PLC的乳化炸药生产线控制系统,使生产线能够更加智能地生产出高质量的产品。本文首先对乳化炸药生产线系统进行了概述,分析和研究了乳化炸药生产线系统的工艺流程和设计要求,
目的:分析新疆地区维吾尔族人群中ADAM33基因T2、V4位点多态性及其连锁不平衡关系,探讨T2、V4位点单核甘酸多态性及其构成的单体型与支气管哮喘易感性之间的关系。方法:采用病例
倍频(即二次谐波产生)和双光子荧光是基本的非线性光学效应,可以用于研究光与物质非线性相互作用中的基础物理问题,在很多实际应用方面也有诸多优势。除了通过频率转换获得更
目的本课题探讨当归芍药散优化组成协同蒙药赤瓟子对慢性盆腔炎(Chronic Pelvic Inflammatory Disease,CPID)模型大鼠的保护作用。观察当归芍药散优化协同方抗CPID对模型大鼠相关炎性因子水平和免疫防御系统的影响及作用机制,从分子水平揭示CPID致病机理,试为中蒙药联合防治CPID的药品研发提供思路。方法选用SD雌性大鼠为实验对象,采取混合细菌感染联合机械损伤法复制大
学生教育管理关系到学生的全面发展,构建良好的教育管理环境,形成科学的管理模式,对提高教育管理质量具有重要的意义。本文分析了人文关怀在学生教育管理中的重要性,阐述了学
随着越来越多的宠物犬步入千家万户,人们也开始日益关注宠物犬在住宅空间中的生活状态。基于此,本篇论文主要研究人居环境中的宠物住所设计,先从相关概念和理论基础着手,坚持
以讨论高校图书馆普遍存在的自习室占座现象的解决策略为目的,调查了三所长期设立独立自习室的高校图书馆,利用对比研究法和案例分析法,简要讨论了自习室占座情况背后的原因,
昆北油田是柴达木盆地近年来勘探取得的重要突破,是青海油田建设千万吨级高原油气田的重要保障。近年来的开发实践,证实该区E1+2油藏开发面临诸多问题和挑战。针对这些问题,
目的:测定新疆和田地区维吾尔族农村老年慢性阻塞性肺疾病(COPD)稳定期患者与非COPD者血清铜、铁、锌的含量,探讨COPD稳定期患者血清微量元素含量及与肺功能之间的相关性。方法:采
山西省运城市农发行在业务发展中遭遇多重瓶颈,传统业务一直亏损,随着业务范围逐步放宽,农发行业务扩张和盈利发展势头良好,但市场份额主要靠利率优势来维持,市场竞争力明显