基于统计方法的中文文本自动分类研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:GoldGhost
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人们已经从信息缺乏的时代过渡到信息极为丰富的数字化的时代。如何从这些海量信息中迅速有效地获得所需信息也就成为一项很重要的研究课题。为此目的,文本自动分类被研究者提出并进行了应用研究。研究文本自动分类具有重要意义,它可以大大的缩短了对资料的整理时间,为信息检索提供方便,有利于现实文档的存档管理。 本文主要是应用统计的方法对文本自动分类进行理论和实践的探讨。我们的工作主要从以下方面进行: 1.探讨了基于统计方法的文本自动分类的定义、常用模型和常用算法。 2.讨论了文本自动分类器一般方法、步骤及有关技术细节。 3.在向量空间模型下,实现了向量距离加权算法、代表向量算法、中心向量算法构造的三种分类器。对三种分类器分别以字、词为特征进行分类测试、分析发现:①使用相同的分类算法,用词作为特征项,比以字作为特征的分类效果好;②用不同的算法构造分类器对分类效果的影响很大,如中心向量算法在字、词特征下的分类效果优于其他两算法;在以字为特征的情况下,该算法的平均查全率80.73%,平均查准率82.94%;在以词为特征的情况下,该算法的平均查全率83.6%,平均查准率85.97%;③选用语料不同对分类效果也有影响,如用新浪网(www.sina.com.cn)网页语料进行测试,使用中心向量法分类器和词作为特征的情况下,平均准确率为89.31%,平均查全率为88.33%。 4.基于改进后的中心向量法重构自动分类器,测试取得了开放测试平均查全率90.35%、平均准确率90.87%和封闭测试平均查全率98.36%、平均准确率98.74%的分类效果,说明改进后的算法适合中文文本分类。 本文所得到的这些实验数据对于开发实际的文本分类系统具有指导意义。该研究可应用于网络信息检索、信息过滤、中文文本自动分类、中文网页自动分类等应用领域。
其他文献
多媒体技术、网络技术、通信技术、计算机技术的发展,促进了教育教学的发展。利用先进的软件开发技术和开发平台,根据学习者心理特点和发展水平,开发教学系统,为创设学习情景提供
本文以数据仓库技术为基础,以联机分析处理和数据挖掘工具为手段进行实施的一整套解决方案。数据挖掘和联机分析所需的相关数据都是从数据仓库中加载到分析数据集市或数据挖掘
随着信息技术的发展,E-Learning己经成为一种流行的学习方式。E-Learning打破了空间、时间的限制,为需要学习的用户提供了一种获得知识、接收教育的新途径。网络教学为传统教学
  本文提出了一个基于P2P的网络模式的在线电子钱包的软件系统结构,并使用Java和JXTA技术实现了该系统原型。尽管在系统中存在“客户端”和“服务器端”,但客户端和服务端实
随着Internet的迅速增长和要求唯一IP地址的无线设备的激增,下一代IP协议-IPv6开始走入人们的视野,而IPv6下无限设备的通信则需要移动IPv6的支持。 本研究在万林克公司的路
本文提出的是一个第5级交换的解决方案,称为VLServer。它类似一个介于七号网络和VOIP网络间的转发中心。首先VLServer不是定位成一个软交换中心的解决方案。它是将PSTN呼叫和V
近年来,互联网络以其快速的信息传递和广泛的资源共享深入到了人类社会的每一个角落.与此同时,网络犯罪与不良信息的传播也愈演愈烈,能够从互联网上获取相关信息,对网上数据
随着七号信令应用的普及以及七号信令网的日益庞大,传统信令网的维护手段已不能适应网络维护的需要。七号信令集中监测系统作为对信令网进行集中监测和维护管理的新手段将在网
嵌入式数据库管理系统是近几年才发展起来的一项比较新的数据管理技术,它以传统的数据库管理技术为基础,结合嵌入式环境的具体特点,实现对嵌入式设备中数据的方便、统一管理.
本文对流量工程的OSPF路由算法进行了研究。文章提出了基于流量工程的OSPF路由算法。该算法的核心思想是,在OSPF网络发生拥塞时,强制性地把到特定目的地的一条路径转化为最短路