基于VSM文本分类系统的设计与实现

被引量 : 0次 | 上传用户:jzhiei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球计算机与通讯技术的飞速发展、互联网络的普及与应用,文本自动分类对于信息处理具有重要意义。本文提出了基于VSM文本分类系统的设计与实现,该系统的设计是针对大连市高新园区管委会信息化项目建设中文件分类管理实际需求而产生的,为文件分类由人工到计算机分类作了一项有意义的尝试。本文是对研究生期间所作研究工作的总结。文本分类已经成为处理和组织文本数据的一种关键技术。论文以文本信息处理为背景,从理论和应用的角度对文本信息的分类方法进行研究。论文首先介绍分类过程中涉及到的相关技术,包括文本表示方法(向量空间模型VSM Vector Space Model)、特征词的抽取、分类器的构造方法以及阈值的确定等。然后对系统进行了总体设计、各模块功能的详细设计和数据库的设计,重点讲述了朴素贝叶斯分类器算法描述及工作原理。利用JAVA语言实现了整个系统,包括文本预处理模块,向量空间转化模块,降维处理模块和分类器模块等。最后,以标杆数据Reuters21578数据集的进行测试。同时,还使用了高新园区实际文件数据完成测试,达到了较好的效果。
其他文献
《西乡南洲遗训》是西乡隆盛的代表作。《遗训》文字洗练,简明扼要,较好地表达了西乡的修身理念。它提出了抱朴守拙,示人以诚的人格特征;养心尚简,克己省身的修为方法;慎独精
农业机械化是用各种动力和配套农机具装备农业,从而实现农业生产工具的现代化。实现农业机械化,可以减轻劳动强度,大幅度提高劳动生产率、资源利用率和产品商品率,促进农村经济和
故障现象一辆2013款新君越,搭载LAF发动机和GF6-2自动变速器,行驶里程18000km,客户反映仪表盘故障灯点亮。故障诊断与排除接车后验证故障现象为发动机故障灯常亮,用GDS2对车
使用轮枝链霉菌(Streptoverticillium)SK4.001进行发酵产酶,研究了摇瓶的补料分批发酵方法。研究发现,发酵24h后1次性补入浓度为1.5%的甘油以及1.5%的蛋白胨,即C:N比为1:1时,
在WTO主导的自由贸易谈判进展缓慢的情况下,区域经济合作组织迅速发展,区域内部贸易比重不断上升。中国是南亚地区的重要邻国,但是与南亚区域合作联盟(SAARC)的陆路经贸关系一直不
美军是世界上最早开展军事集装箱运输的军队,其军事集装箱运输发展最为完善。由于美国积极推行霸权主义和实施全球战略,美军采用集装箱运输方式运输大量装备和物资,以保障海
针对传统的架空配电线路信息管理方法的缺陷,利用3ds Max、VB和Access 2003数据库,基于科学、系统、可视化的管理理念,开发了架空配电线路信息管理系统。该信息管理系统根据
背景:对于人工膝关节置换后的下肢深静脉血栓形成,近年来逐渐得到重视,然而在临床中究竟如何早期发现下肢深静脉血栓。是否每个置换后患者都需常规行下肢血管B超或者其他有创
背景:随着社会逐渐老龄化和骨质疏松人数的增加,股骨转子间骨折发生率呈逐渐上升趋势。目的:检索股骨转子间骨折的研究文献资料,利用SCI数据库文献检索和深度分析功能对其发
该如何润滑风力发电机组这样的庞然大物?风电机组属于大型高精度、高价值运转设备,风机的所有轴承、齿轮等部件均处于频繁启停、高负荷连续运转的工况条件。如何实现良好润滑便
报纸