一种富文本分类方法的研究与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:chensheng76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文介绍了一种可应用于富文本的分类方法。分类目标文本是符合OpenDocument规范的OpenOffice.org文档。本文通过分析常用的平文本分类方法在直接应用到富文本文档时表现较差的原因,提出了富文本分类建模时应该考虑的因素,并将其归纳为七个方面。本文从面向分类的角度深入地分析了OpenOffice.org文档,描述了从文档中抽取与分类最相关的内容和格式、结构以及文档描述信息的方法,构建了标签组件法、结构组件法和综合法三种不同的文本分类模型,最后用朴素贝叶斯方法实现了OpenOffcice.org文档的三种分类器。本文在复旦语料库完成了封闭测试,在随机下载的文档集上完成了开放测试,然后对实验结果进行了详细地分析。实验结果表明本文所提出的三种方法可以较好地解决OpenOffice.org文档的自动分类问题。
其他文献
随着我国“十一五规划”的提出,中央政府下了更大的决心以提高政府行政能力水平。电子政务近几年的飞速发展同时也见证了我国政府从传统“管理型”向现代“服务型”政府转变所
多计算机系统中的互连网络为处理器之间相互通信提供了一种有效的机制,是决定系统性能的重要因素之一。在互连网络中,节点间的通信由路由算法实现。路由算法决定了一条消息或
近年来,水平井已逐渐成为世界范围内油气藏增产的重要手段,这使得深入研究水平井的油藏工程理论,准确把握其生产动态成为必要。在水平井生产时,实际有效的产油长度并不是整个水平
生活在一个信息技术日新月异,网络技术推陈出新的时代,生活中,人们对获取数据的方式也不断发生变革。特别是近年来移动互联网技术的兴起,通过移动终端就能方便的获知用户方方面面
本项目为厦门大学计算机系与清华大学智能技术与系统国家重点实验室合作的国家军工863项目飞控计算机通讯卡子课题的进一步引伸。SCI协议是一种可支持高性能多处理器,一致性
学位
本文讨论了处理具优势对称部分的非对称非线性问题的不精确Newton方法。利用矩阵分裂技术,建立了求解此类问题的一类不精确Newton分裂极小参量法、不精确Newton分裂对称LQ法(简
在Web数据挖掘研究领域中,Web日志挖掘是最重要的应用研究方向之一。Web日志挖掘的目的是找出网站用户的访问模式,其过程主要包含三个步骤:数据预处理、模式识别和模式分析。在
本文提出了基于大规模双语平行语料库的双语语义词典的构建思想,在大规模英汉双语平行语料库词对齐以及双语词频统计的基础上,利用语义资源《知网》和WordNet,以及基于《知
针对当前对Agent安全的研究现状及其面临的困难,本文利用动态模糊逻辑作为形式化的描述工具,引入生物免疫系统的相关免疫机制,构造了一种新的Agent类型-免疫Agent,并在此基础
本文以编织物常见的几种疵点类型为研究对象,众所周知,编织物一般都是有规律的图像,而编织物中的疵点相对于编织物来说那就是异点即不符合编织物一般规律的图案。相角变换算法能