基于中文Web文本的分类研究与系统实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sxq5588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术的发展,网络信息变得越来越海量,同时也越来越复杂,人们在浏览网页新闻时能否快速找到自己感兴趣的类别是判别该网站优劣的一个重要标准,传统的是靠人工方法对网页文本进行分类,面对如今的海量信息依靠人工分类的方案变得不可行,因此文本自动分类技术应运而生。又由于中文文本相对于英文文本的特殊性,一些传统的分类算法并不完全适用于中文文本,中文文本分类之前还要进行必要的预处理。因此很有必要对中文Web文本分类进行理论与实验应用研究。  本文首先介绍了文本分类的背景、意义以及国内外研究现状,接着介绍中文文本分类的关键技术,包括Web文本预处理、中文分词以及停用词处理;文本表示的几种模型以及文本向量之间相似度计算的公式;重点介绍了几种特征选择算法,在介绍分类评价指标的基础上通过实验证明了卡方统计算法在特征降维方面的优越性。接下来介绍了几种常用的文本分类算法及其特征,其中详细介绍了朴素贝叶斯(Na(i)veBayes)算法,提出了对算法进行条件概率的m估计以及平滑处理的改进公式,并通过实验比较了文档型模型与词频型模型;对K最近邻算法(KNN)的公式进行了改进,并通过对比实验证明了改进后KNN算法相对于传统算法分类效果的提高。  由于支持向量机(SVM)算法在机器学习领域起着越来越重要的作用,本文还详细介绍了支持向量机的理论基础,讨论了对于SVM线性可分与线性不可分问题、训练方法、核函数与参数选择问题以及多类分类问题。此外给出了构造组合分类器的几种方法,并通过实验证明了SVM分类器核函数的不同对于分类结果的差异,通过对比实验证明了SVM分类器相比于其他分类器分类效果的优越性,并通过另一实验证明了组合分类器对于分类效果能够起到提升作用。  最后,针对娱乐新闻Web文本信息的特殊性,即文本包含多个和主题不相关的类别信息,设计并实现了Web娱乐新闻文本自动分类与评论生成系统,并通过实验证明了分类算法的有效性。
其他文献
当代信息化世界中,人类视觉性地认识世界主要通过图像、图形、视频等形式。图像已经成为飞速发展的社会形态中重要的信息载体。图像的边缘是对图像最基本的描述之一,能够大致
随着社交网络的兴起和物联网的快速发展,各种形式的数据正发生爆炸式的增长和堆积。如今Apache Hadoop已成为大数据行业发展背后的驱动力,而且成为了许多企业的首选。Hadoop
随着无线网络的发展,无线网络的安全也成为了社会关注的热点,而作为现在国内广泛使用的WAPI(Wireless Authentication Privacy Infrastructure)无线网络标准,对于其中使用的
本文介绍了无线传感器网络路由算法的发展情况。由于在实际应用中的重要性,在过去数十年,其一直是热点研究领域。在这篇论文中,针对不同配置的传感器网络,对一些最常用的算法进行
随着计算机技术的发展,虚拟现实技术逐步渗入人类生活的各个领域。虚拟现实仿真系统是虚拟现实技术的重要应用之一,此仿真系统通过使用虚拟现实技术向用户提供了一种具有高逼
微博热点话题发现是指从大量微博中挖掘出话题,并根据话题热度评估方法选出热点话题。它可以帮助人们从海量的信息中,便捷地选出用户感兴趣或者需要的信息,并对政府舆情指导
从单核处理器时代开始,任务调度的研究就倍受众多专家、学者的关注,任务调度的结果直接影响操作系统的性能,系统性能的提升不仅要依靠自身的硬件水平,还取决于加载在硬件之上的软
近年来,随着社会的进步和数字信息化的高速发展,图像在日常生活中得到了广泛应用。然而,由于各种图像处理设备性能的不完善,导致图像在获取、传输和存储的过程中容易受到各类
推荐系统作为一种新型的信息过滤技术手段,可以有效解决信息过载问题。然而,随着互联网信息的内容复杂度、访问人数、攻击手段的快速增加与变化,现有推荐系统暴露了很多不足,
形式概念分析是德国数学家Wille教授于1982年提出的。经过三十年的发展,已经应用于多个领域,如知识发现、机器学习等。形式概念分析的核心数据结构是概念格,因此其应用的核心就