基于Web的中文文本分类的研究与实现

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:wenhonghe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文系统阐述并实现了一套 WEB 文本分类的技术。主要技术包括 WEB 文本收集、WEB 文本预处理、处理后的 WEB 文本的中文分词、预抽取训练样本及使用 SVM 方法进行文本训练和文本分类等。通过对系统功能的分析,我们把系统分成了 WEB 文本收集和预处理、中文分词、文本特征向量的提取、文本训练和分类等四部分。与一般文本分类器不同,我们首先需要收集 WEB 文本,对 WEB 文本进行预处理,保存其中文本信息的权重。在这部分,作者首先实现了抢先式多线程WEB 文本收集器,采用深度优先的算法获取特定类型的网页,接着根据 HTMLTag 文本的特点,实现了基于递归方式匹配的 WEB 文本预处理器,它用于去除WEB 文本中的 Tag 信息,并根据 Tag 对分类的重要程度设置权重。在中文分词部分,作者使用经改进的全二分最大匹配快速分词算法,根据汉字编码体系、汉语词特点形成了分词词典,再针对该分词词典具体实现了此算法。此外,为了能够达到更好分词性能,作者结合了正向匹配和逆向匹配两种方式。经实验证明,系统实现的分词算法可以达到很好的分词效果,在准确性和速度上基本上都满足了文本分类的需要。在文本特征向量的提取部分中,作者使用了一种基于词和类别的互信息量预抽取训练样本的方法,这种方法不仅相对简单,而且在保证分类器性能的情况下,可以允许我们适当地选择训练样本,减少支持向量,从而提高支持向量机(SVM)的训练和分类速度,此外作者使用了 TF—IDF 公式来计算向量的权重。在文本特征向量的提取部分,介绍了 SVM 的基本理论以及目前 SVM 方法在文本分类中的应用情况,以及使用开源软件包 LIBSVM,利用获得的文本特征向量及其权重来生成输入文档,进行文本训练和分类的过程。总之,本课题实现了 WEB 文本收集、WEB 文本预处理、中文分词、特征向量提取、文本训练和文本分类等 WEB 文本分类的关键技术,并在研究的基础上提出了一套特征抽取及文本分类的方案。
其他文献
激烈的市场竞争迫使上市公司经营战略由追逐短期的项目盈利逐步转向追逐长期的企业价值最大化,企业间的竞争表现为综合能力的竞争。企业绩效评价作为利益相关者对企业经营状况
学位
本文从同余理论中的中国剩余定理出发,阐述了其在现代密码技术中的广泛运用与影响。在此基础上,本文主要完成了以下工作:第一,指出了一种基于中国剩余定理的群签名方案的系统缺陷
近年来,随着政府部门加快信息化建设的步伐,房地产管理部门的“数字房产”系列工程也相继展开。其中,房地产测绘信息是开展房地产日常管理业务的数据源头,因此,开发一套能对房地产
二维图形相似性变换模型的研究及应用二维图形相似性关系的研究对二维图形的理解有着十分重要的意义。本文首先介绍了二维图形相似性规律的研究背景和研究现状,并指出研究二维
目前,具有视频分析处理能力、可对运动目标实现识别和跟踪的智能化视频监控系统已成为研究的热点和主流。 针对智能视频监控系统中运动目标的识别跟踪问题,本文研究了动背景
学位
随着信息技术的高速发展,人们的安全意识越来越强,同时对安全、方便的身份认证技术提出了更高的要求。目前,传统的安全技术已经不能满足当前的要求,于是人们把目光转向生物识别领
软件文档是软件的重要组成部分,提高软件文档的质量对于软件质量的提高起着很大的作用。随着软件工程标准化的发展,软件文档规范化已经受到了各个行业的高度重视,提出了各种行业
随着INTERNET的发展,互联网络环境下的信息安全由于涉及到国家安全和社会稳定,已日益受到各国政府部门和社会各界的重视。信息安全的关键内容是密码理论,而密码理论的核心则是密
学位
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。人们希望将这些数据转换成有用的信息和知识,以便更好地利用这些数据,给决策制定提供数据支持