基于支持向量机的中文网页自动分类系统

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:pisahaochima
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要实现了一个基于支持向量机的中文网页内容的自动分类系统,介绍并实现了局域网内通过网卡截获网络数据报并对数据报进行重组,生成了HTML页面,再结合HTML页面内容提取技术得到了纯文本文件,这些保证了系统的实时性。 文章对几种常用的中文自动分词算法进行了说明,并指出了不足之处,在此基础上提出并实现了一种新的基于Bigram的无词典分词和特征词抽取算法,这是本文的一个创新之处。此算法不仅能够提高特征词抽取的准确性、很大程度上降低了特征词的维数,提高了系统的分类性能,并且可以根据不同的训练集生成不同的特征词分词词典,具有很好的扩展性和灵活性。在介绍和比较了几种常用的文本自动分类算法的性能和适用环境的基础上,采用了支持向量机算法的序列最小最优化训练算法实现了中文网页的自动分类,提高了系统的效率和准确性。系统可以在出现较大的分类误差时,通过对分类器重新训练进行修正,不需要人工添加特征词等工作,具有很好的自学习功能,为更广泛的应用打下了基础。实验结果表明,此系统可满足一般文本分类系统的要求,并具有实时性、灵活性、可扩展性、易用性及广泛的应用性等特性。
其他文献
针对智能IC卡操作系统中的某些问题进行了深入的研究,剖析如何按照ISO7816国际标准,设计与实现一个多任务智能IC卡操作系统.首先对IC卡操作系统的结构模型做了深入的研究,给
随着网络技术的发展,现代远程教育已经成为教学中越来越重要的组成部分。但是在远程教育中,学生和教学机构在地理上处在不同的位置,这使得一些实验很难再到实验室去进行了。因此
学位
嵌入式设备是数字化时代的一大主流产品。嵌入式软件是数字化产品的核心,而嵌入式操作系统和开发工具又是嵌入式软件的基础和龙头。在嵌入式软件开发过程中,调试工作最终需要
数据分类是按照一组数据对象的特征给出数据对象数学划分的过程,已经在统计学、机器学习、神经网络以及专家系统中被广泛研究。近来,它又成为数据挖掘的一个重要研究方面。实际
目前,校园网络正在飞速地发展,这就造成网络中服务器剧增,应用系统急速增加。另外,由于许多应用系统都是各自管理自己的用户,使得同一用户在使用上网、收邮件,选课和网上学习等不同
近年来,由于我国汽车行业的迅猛发展,汽车配套零部件生产厂家为提高产量,大量采用新的生产技术,不断扩大生产能力和提高生产自动化程度。起动机性能自动测试系统就是适应汽车起动
尺寸标注是工程制图过程中相当重要的一环。没有尺寸标注的产品设计是完全没有意义的,是根本不可能加工出产品的。统计表明,尺寸标注工作占整个工程图纸绘制工作量的 40%-60%。当今的一系列的计算机辅助设计软件,典型的如 Autodesk 公司出品的ACAD 软件,提供了强大的绘图功能,使得工程制图的绘图速度和绘图质量得到很大的提高。然而,图形绘制初步完成后,对于尺寸标注系统的信息检查,仍然依赖于设计师
随着信息技术的不断发展,人们收集了大量的数据,迫切的需要将数据转化为信息。人们对信息技术的期望从基本数据处理到关系信息系统到辅助战略决策的决策支持应用。基于数据仓库
网格是近年来出现的一组架构在互联网络服务之上的新兴技术,旨在支持虚拟组织的资源共享与协同工作。人们承认网格是下一代软件技术之一,但对网格“革命性体系结构”的构成、网