快速文档分类研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:NSWDAR
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文就提高文档分类效率进行了研究,提出了一种快速文档分类方法,其核心技术是一方面对文档训练库进行删减,另一方面,对文档建立相似度索引.该文取得了以下研究成果:1.提出了删减训练文档库的算法.针对训练文档库中训练文档对文档类的作用不同,在保证没有造成分类性能严重下降的前提下,可以删除一些作用不大或冗余的训练文档,加快文档分类过程.实验证明这个算法在各种不同分类情况下,都可以显著地加快分类速度而没有造成分类性能明显下降;2.提出了文档相似度索引算法,据我们所知,这是第一次将索引技术应用于文档分类.尽管目前实验中采用的索引技术并没有显著地改善分类速度,但是通过寻找新的高维索引技术来加快kNN分类速度的思想是可行的;3.提出了一种改进文档向量之间相似度计算的方法.针对文档向量矩阵实际中往往是稀疏矩阵的情况,我们采用词-文档的倒排表技术,可以一次高效地计算出测试文档与所有训练文档的相似度.
其他文献
该论文在基于CORBA的负载均衡研究及其容错机制设计方面的主要贡献在于:(1)归纳分析了目前已有的负载均衡解决方案以及它们在负载均衡容错研究和实现上的不足;(2)基于CORBA负载均
本文首先深入分析了分布式PDM系统的现状、应用技术特点。并对其发展趋势进行了展望,认为PDM技术和IT技术的结合是制造业发展的最终趋势。基于这个认识,本文分析了中小型企业当
该论文所设计的嵌入式系统研发平台以“龙芯”嵌入式微处理器为核心,结合嵌入式操作系统和应用软件,配置以必要的硬件支撑电路,开发GODSON嵌入式系统;同时提供了完善的嵌入式
无压缩视频服务系统的一个主要特点是数据量大、每秒的数据量约为20M字节,这样大的数据量不但要求播放时的服务器要有足够的I/O带宽用于数据播放,另外也要求节目在从上载工作
公用对象请求代理体系结构(CORBA)是国际对象管理组织(OMG)提出的一种分布式体系结构模型。它同MicroSoft的COM/DCOM/MTS/COM+,与Sun的EJB模型共同成为服务器端的三种主要的组件
该文基于Windows DNA框架设计多层分布对象系统过程中,需要解决多层结构的准确划分、组件的线程模型选用、怎样提高应用程序服务器的平衡负载能力、网络拥塞时如何最大程度的
目前存在的各种实现矿体三维重建的算法以及矿体体积计算方法都存在不同程度的局限性,也不能根据用户需求的精度计算矿体体积.该文通过介绍了一种计算机辅助矿体重建和计算矿
多媒体同步主要是解决多媒体对象流内同步和流间同步问题的.已提出的多媒体同步模型大都是把多媒体的各个组成部分表示为库所,把各部分之间的关系表示为变迁.由于不同的多媒
为了更好地满足用户对各类Internet业务服务质量越来越精细的要求,流量分类是实现有效网络管理的重要环节之一。传统的流量分类方法如基于端口号匹配、特征字段识别的方法,存
该文共分六章.第一章提出了网络安全的重要意义以及网络安全的分类,指出了入侵监测系统是新型的网络安全模型中必不可少的组成部分.另外还指出,在国外入侵监测系统蓬勃发展的