中文文本数据分类研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:plcsolitary
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,特别是Internet应用的普及,网上信息成指数级增长,如何自动处理这些海量的信息,有效的保留大的文本集合成为了目前重要的研究课题。对文本进行有效管理方法之一就是将它们进行系统的分类,即文本数据分类。 文本数据分类是一项重要的智能信息处理技术,是文本检索技术的基础,在新闻机构分类、电子会议、电子邮件自动分类和信息过滤等方面极具应用价值。文本数据分类在传统的情报检索、网站索引体系结构的建立和WEB信息检索等方面也占有重要地位。文本数据分类以文本挖掘技术为基础与核心,是近年来数据挖掘和网络挖掘领域当中的一个研究热点。 本论文介绍了中文文本数据分类的信息处理基础、向量空间模型,探讨了自动分词技术,详细分析多种文本特征选择算法和贝叶斯文本数据分类模型,本论文通过大量实验深入研究了多种文本特征选择算法:互信息MI(Mutual Information),信息增益(Information Gain),X~2估计,文本证据权,并对互信息进行了改进。鉴于朴素贝叶斯的分类效果不佳,本论文又提出将机器学习中的Boosting思想结合到朴素贝叶斯的分类模型中,对朴素贝叶斯模型进行提升,实验证明,改进的互信息和给合了Boosting思想的朴素贝叶斯分类模型均产生良好的分类效果—分准率、分全率及F1值。
其他文献
近年来,各种各样的网络应用(如Facebook, QQ, Twitter,新浪微博等)不断涌现,伴随着这些网络应用,各种各样文本信息随之而来,其中不少应用产生的文本信息内容一般都比较短,我们称之为
研究表明在实际的无线局域网中存在着负载均衡和存在大量数据传输冗余等问题,严重影响了网络系统性能,同时也将导致用户间的带宽分配不公平等问题。在本文中,我们采集了某无线局
本文以分析移动智能网中现行网络数据为起点,研究了用户通话时长的概率分布规律和与SCP系统相关的若干性能问题。这些研究结果对于SCP系统性能优化有着重要的指导意义。本文的
为了实现高校教学管理系统的特殊要求,本文提出了基于J2EE技术对该系统进行开发研究,并结合了设计模式与软件工程方面的最新技术,设计完成了系统的主要功能框架。在本文中,首
伴随着科技进步和经济全球化,电信行业在服务内容、服务方式、服务质量上面临着日益加剧的竞争和严峻的挑战。在此背景下,电信自助服务系统已成为各大电信运营商在激烈的市场
关注点分离是软件工程领域中极为重要的原则。人们先后提出了结构化的开发方法和面向对象的开发方法以达到在整个软件开发过程当中实现更好的关注点分离的目的,促进了软件开发
21世纪是信息时代、知识经济时代,其基本特征是:全球经济一体化、信息网络化。制造业是一个国家国民经济的支柱性产业,世界各国都特别重视制造业信息化的发展。采用现代化的管理
本论文结合电子信息产业发展基金重点项目“下一代网络核心业务平台”,介绍了作者在系统研发过程中的主要工作,研究的侧重点选择在系统服务性能建模,系统可靠性建模等几个方面,主
随着网络入侵者水平的逐渐提高,入侵行为日益严重。网络使用者必须采用积极的防御技术和纵深的、多样的手段来保证网络的安全。入侵检测系统在网络安全中的作用日益突出,其研
随着网络带宽的不断增加和计算机性能的飞速提高,如何充分利用网络中所有的闲散资源,使网络的信息量更加丰富,成为信息共享技术研究的重点。网格技术正是适应这一要求而发展