基于向量空间模型的文本分类研究与应用

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:jinghong_22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术与互联网的迅速发展,信息容量迅速增长,大量的数据资源存储在各类信息载体中。在这些庞大的信息资源中,蕴含着大量有价值的知识。面对浩瀚的数据海洋,人们难以获取有用的信息,这导致庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。如何从大量纷杂的信息中获得所需的知识,是一个非常困难而又富有前景的研究问题。文本分类是对文本集进行有序组织,把内容相似、相关的文本组织在一起,可以将信息归类,能较好地解决信息杂乱现象,方便准确地定位所需信息和对信息分流,因此文本分类就成为文本信息检索、文本信息数据挖掘的重要基础与前提。   国内外许多学者对文本分类技术进行了研究,获得了大量的研究成果,给出了许多文本分类模型,如布尔模型、向量空间模型、概率模型等。本文在前人研究的基础上,对基于向量空间模型的文本分类技术进行了研究与分析。基于向量空间模型的文本分类包括文本预处理、特征选择、特征权重计算、分类器构造、分类算法等多个模块。   文本预处理是文本分类的第一阶段,主要是对文本进行结构处理和分词处理:接着,特征选择采用一定的算法(如信息增益算法),对文本特征进行提取,保留重要词,舍弃次要词;特征项权重计算用来确定特征权值,后者被用来构造分类器,直接关系到文本分类效果。分类器构造分为训练与测试两个阶段,训练阶段被用来构造分类器;测试阶段利用测试集已有的类标号信息对分类器进行评价,获取分类准确性的评判:分类算法被用来对文本进行分类。   本文在仔细分析前人工作的基础上,主要展开了下列研究:   (1)概述了文本分类的过程和相关技术,包括文本预处理、中文分词、向量空间模型、特征项选择、特征项权重计算等。   (2)给出了一个文本分类模型,并对模型的各模块进行了论述,特别描述了文本特征选择及特征项权重计算。   (3)改进了TF-IDF特征项权重算法,改进的特征项权重算法综合考虑了特征词在类间和类内的分布情况以及特征词在文本中的位置信息,给出了使用改进的特征项权重算法构造文本分类器的步骤。   (4)将改进的特征项权重算法用于开源的文本分类系统,并用开源文本集实验,分析比较改进算法的效果。
其他文献
随着网络和信息技术的发展,电子邮件已经成为人们沟通交流的重要工具。但是垃圾邮件的泛滥却给人们的工作和生活带来了极大的困扰。尤其从2005年开始,垃圾邮件制造者将垃圾信
传统的大型数据文件一般是存放在磁盘或光盘等二级存储介质上,应用程序必须将数据从硬盘或光盘调入内存后才能计算处理。一个适合的内存调度算法能够有效避免硬盘颠簸现象的
P2P网络突破了传统C/S或B/S这样不对称的计算模式,每个节点地位对等,可同时成为服务的使用者和提供者,这为大规模的信息共享、直接通信和协同工作提供了灵活的、可扩展的计算
随着科学技术的进步,视频监控系统正逐步朝着数字化、网络化、智能化的趋势发展。而达芬奇(DaVinci)技术的出现加速了这一进程的发展。达芬奇技术包括高性能的处理器、高度集
随着数据库系统在全球范围的广泛应用,分布式数据库系统的地位也越来越高。分布式事务的提交一直是分布式数据库研究的主要内容。其中的二阶段提交协议,由于其简单有效的特性
在机器学习领域中,标记实例是个代价很高且耗时的工作。作为机器学习领域的重要研究方向之一,主动学习旨在根据选择策略从无标记实例中选择信息量最大的部分实例交由专家标记
H.264又被称为MPEG-4-Part10,是2002年由国际电信联盟组织ITU-T的视频编码专家组(VCEG)和国际标准化组织ISO/IEC的活动图像专家组(MPEG)联合制定的视频编码新标准。它在继承
说话人识别技术是一种通过对目标说话人的语音进行处理与分析,从而判断出该说话人身份的技术。目前,说话人识别作为人与计算机进行交互的一种智能接口有着非常广泛的用途,它
本文研究了现有的动态取证技术,总结了动态取证过程中存在的问题,给出了将IDS、蜜罐系统、多Agent技术结合起来运用到计算机动态取证模型中的解决方案,构建了一个基于混合技术的
随着网络技术的飞速发展,信息借助于网络快速的传播,高速广域网和宽带城域网等正在企业通信网络中进行广泛的建设,促进了现代社会中企业信息化水平的提高,增强了企业的市场竞