基于类别空间模型的文本自动分类系统的研究与实现

来源 :中山大学 | 被引量 : 0次 | 上传用户:yanfengim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅猛发展,人们面对的信息量快速增加,出现了所谓"信息爆炸"的现象.为了从大规模的网络信息中准确提取信息,需要对纷繁芜杂的信息进行合理的组织与分类.该文的目标就是在网络文本信息处理的背景下,从理论和应用的角度对文本信息的分类方法进行研究.研究的主要内容包括面向分类的类别空间模型、基于类别信息模型的文本分类方法、兼类文档及解决方法、文本分类的增量学习等.论文取得了以下研究成果:论文在研究了类别与词语之间的互信息后,提出类别空间模型,引入词语在类别中的代表性系数来表征词语在各个类别的代表性,使用代表性系数计算文本权值,确定文本类别,使文本分类突破传统的向量空间模型.基于类别空间模型的文本分类系统取得了比较理想的分类效果.论文设计并实现了一个基于类别空间模型的文本分类系统,对于词频计算、代表性系数计算及文本权值计算从理论和应用作了深入的探讨,统一了先验知识和机器识别模式,从而大大提高了文本分类的正确率.论文对"兼类文档"的现象进行详细的分析,并将其分类.根据实验结果,研究"兼类文档"在各个类别中的权值分布后,定义类别差异系数.然后,通过实验确定阈值,当文档的类别差异系数高于阈值时输出两个类别,从而使文本分类系统能够识别大部分的"兼类文档",在一定程度上解决了"兼类文档"的分类问题,提高了分类的正确率.论文研究了实际应用中分类系统的调整与优化问题,包括在分类时进行动态增量学习,利用专家知识对分类系统进行微调,自定义类别建立文本分类系统等.论文设计、实现的文本分类系统在实际应用中取得了较理想的效果,其研究成果对文本分类方法的研究具有参考价值.
其他文献
可用性工程研究的目的之一在于改善人机交互产品的界面设计,满足人们对人机交互界面的需求,这也是目前工业界和学术界的研究热点。 产品用户界面的可用性高低,用户的实际
本文研究了实现多业务传送平台MSTP的几种关键技术。在GFP(GenericFramingProcedure)封装技术中讨论了GFP的帧格式和定帧方法、成帧映射和透明映射的两种工作方式。在级联技
随着互网络技术的飞速发展,基于内容的图像检索技术成为人们研究的热点。它的主要方法是提取图像的底层特征如颜色、纹理、形状等,然后从数据库中检索与查询图像相似的图像,再将
煤气是工业生产中重要的产品和燃料,是宝贵的能源资源。因此,如何尽可能的减少煤气计量系统的的计量误差,当计量系统出现故障导致煤气的总发生量与总消耗量失去平衡时,如何合理的
超大规模集成电路的发展最终促使在一块芯片上实现一个系统成为现实,这种技术被称为SoC即片上系统。SoC的出现对设计方法也提出了更高要求。这主要包括设计软件和设计方法的研
在信息系统的应用开发中,经常涉及到数据迁移问题,即将数据从一个数据库环境迁移到另一个数据库环境.在进行数据迁移时不仅会涉及到数据所处环境即数据库管理系统(DBMS)的不
在这个技术变革飞速发展的年代,软件开发机构的致胜之道就在于连续不断的对其过程进行改进,提升商业产品的质量和效率.SPI,即软件过程改进,用来解决软件过程的混乱情况,在最
学位
目前油田开发方案编制与设计过程中的数据整理、数据查询、图形处理、文档编辑等工作已基本由专业应用软件来实现.但面对目前开发方案包含四大专业子方案,涉及多个技术人员,
该文在充分理解CMMI5企业的实际缺陷处理流程的基础上,以真实的缺陷数据为研究对象,从量化角度,用数据挖掘方法找出缺陷的关联规则,然后对关联规则进行解释和分析,得出缺陷对