中文Web文本自动分类的研究与实现

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:yishaphoto123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,人们从Web上可以获得的信息资源越来越多,涉及到社会生活的各个方面,这也导致了网络信息过载(Information Overload)问题,从而促使Web挖掘技术和Web信息检索技术迅速发展。处理海量数据涉及到数据挖掘和数据库中的知识发现,“分类”就是一个重要方法。本文对文本自动分类中所涉及的各项技术进行了全面的论述,并通过测试对关键技术进行了深入的研究。对现有的各中文分词方法进行深入分析,并提出了基于最大匹配法(MM)和逆向最大匹配法(RMM)改进的一种分词算法。对文本特征获取方法进行深入研究,分析各方法的特点,比较各自优缺点,提出文档频度与词条频度综合算法。讨论了SVM分类方法并实现了一个文本分类器,通过对其性能进行评估,认为此分类系统具有较高的准确率和效率。
其他文献
当前,世界各国都在实施信息化带动工业化的发展战略,包括中国在内的许多国家将软件产业作为国民经济的支柱产业,软件生产进入了以改善软件过程为中心的软件工程时代。而软件过程
网络业务流的自相似性对于网络链路传输控制过程中的丢包率、吞吐量以及队列容量会产生严重的影响,导致自相似业务流下的网络链路传输控制性能与传统模型的结论有较大差异,意味
本课题通过在高性能计算机机群曙光3000上实现对水泥熟料X-射线图像的分析,提取水泥熟料各物相的组成比例,并且利用智能技术建立水泥微观结构参数与力学性能(28天抗压强度)的
随着企业信息化的不断深入,包括经销管理在内的企业信息系统日益复杂,开发难度不断加大,在开发过程中采用先进的软件开发技术与软件开发工具显得尤为重要。为了支持某大型钢
随着科学技术的发展,互联网已成为我们生活密不可分的一部分,它为我们的生活提供了极大的便利,推动了社会的发展和进步,带给我们一个全新的时代,它广泛应用于商业、教育、娱乐等领
在因特网中,近总字节数的95%采用TCP进行传输,TCP端到端的拥塞控制策略对Internet的鲁棒性和稳定性具有重要的作用,拥塞控制一直是网络研究领域的热点之一。本文首先讨论了网络拥
对等网(简称P2P)技术是近年来业界研究与关注的一个热点,应用领域广泛,未来发展前景十分广阔。但是,P2P技术在发展过程中,也产生了一系列急需研究和解决的问题,通信安全就是
目前,随着电子政务系统信息化的发展,各种各样的电子政务信息积累的越来越多,信息孤岛、信息重复建设也越来越多,如何使政务信息资源具有应用程序可以理解的含义,并根据电子政务信
移动智能网技术发展到今天,已经在移动通信网上得到了广泛的应用,是运营商快速有效、经济而方便地生成和提供新业务的重要解决方案。近几年来移动通信市场的竞争愈加激烈,用户也
非正交的量子态是不可完全区分的,这是量子信息与量子计算的核心概念之一,在量子算法、量子密码等领域中扮演着关键角色。研究如何确定非正交量子状态的区分程度是信息论中的一