基于中文Web文本的分类研究与系统实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户：sxq5588

【摘要】

：

随着计算机网络技术的发展，网络信息变得越来越海量，同时也越来越复杂，人们在浏览网页新闻时能否快速找到自己感兴趣的类别是判别该网站优劣的一个重要标准，传统的是靠人工方法对

【作者】

：

义天鹏

【机构】

：

厦门大学

【出处】

：

厦门大学

【发表日期】

：

2013年期

【关键词】

：

网络信息文本分类支持向量机特征选择朴素贝叶斯 K最近邻算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机网络技术的发展，网络信息变得越来越海量，同时也越来越复杂，人们在浏览网页新闻时能否快速找到自己感兴趣的类别是判别该网站优劣的一个重要标准，传统的是靠人工方法对网页文本进行分类，面对如今的海量信息依靠人工分类的方案变得不可行，因此文本自动分类技术应运而生。又由于中文文本相对于英文文本的特殊性，一些传统的分类算法并不完全适用于中文文本，中文文本分类之前还要进行必要的预处理。因此很有必要对中文Web文本分类进行理论与实验应用研究。　　本文首先介绍了文本分类的背景、意义以及国内外研究现状，接着介绍中文文本分类的关键技术，包括Web文本预处理、中文分词以及停用词处理;文本表示的几种模型以及文本向量之间相似度计算的公式;重点介绍了几种特征选择算法，在介绍分类评价指标的基础上通过实验证明了卡方统计算法在特征降维方面的优越性。接下来介绍了几种常用的文本分类算法及其特征，其中详细介绍了朴素贝叶斯(Na(i)veBayes)算法，提出了对算法进行条件概率的m估计以及平滑处理的改进公式，并通过实验比较了文档型模型与词频型模型;对K最近邻算法（KNN)的公式进行了改进，并通过对比实验证明了改进后KNN算法相对于传统算法分类效果的提高。　　由于支持向量机(SVM)算法在机器学习领域起着越来越重要的作用，本文还详细介绍了支持向量机的理论基础，讨论了对于SVM线性可分与线性不可分问题、训练方法、核函数与参数选择问题以及多类分类问题。此外给出了构造组合分类器的几种方法，并通过实验证明了SVM分类器核函数的不同对于分类结果的差异，通过对比实验证明了SVM分类器相比于其他分类器分类效果的优越性，并通过另一实验证明了组合分类器对于分类效果能够起到提升作用。　　最后，针对娱乐新闻Web文本信息的特殊性，即文本包含多个和主题不相关的类别信息，设计并实现了Web娱乐新闻文本自动分类与评论生成系统，并通过实验证明了分类算法的有效性。

其他文献

基于人工免疫原理的图像边缘检测算法研究

当代信息化世界中,人类视觉性地认识世界主要通过图像、图形、视频等形式。图像已经成为飞速发展的社会形态中重要的信息载体。图像的边缘是对图像最基本的描述之一,能够大致

学位

边缘检测阳性选择人工免疫网络非极大值抑制动态检测器

基于MapFile的HDFS小文件存取优化研究

随着社交网络的兴起和物联网的快速发展,各种形式的数据正发生爆炸式的增长和堆积。如今Apache Hadoop已成为大数据行业发展背后的驱动力,而且成为了许多企业的首选。Hadoop

学位

HDFSMapFile小文件存取缓存

分组密码算法SMS4的安全性分析

随着无线网络的发展,无线网络的安全也成为了社会关注的热点,而作为现在国内广泛使用的WAPI(Wireless Authentication Privacy Infrastructure)无线网络标准,对于其中使用的

学位

SMS4分组密码算法不可能差分分析差分路径差分攻击

无线传感器网络中的一种高能效算法

本文介绍了无线传感器网络路由算法的发展情况。由于在实际应用中的重要性，在过去数十年，其一直是热点研究领域。在这篇论文中，针对不同配置的传感器网络，对一些最常用的算法进行

学位

无线传感器网络路由算法参数配置簇首选择机制

基于径向基函数的点模型自适应插值算法研究

随着计算机技术的发展,虚拟现实技术逐步渗入人类生活的各个领域。虚拟现实仿真系统是虚拟现实技术的重要应用之一,此仿真系统通过使用虚拟现实技术向用户提供了一种具有高逼

学位

点云模型点云插值稀疏区域检测径向基函数模型形变

基于优化TF-IDF与词共现的微博热点话题发现研究

微博热点话题发现是指从大量微博中挖掘出话题,并根据话题热度评估方法选出热点话题。它可以帮助人们从海量的信息中,便捷地选出用户感兴趣或者需要的信息,并对政府舆情指导

学位

微博热点话题新词发现TF-IDF词共现模型热度值

基于异构多核的静态任务调度策略研究

从单核处理器时代开始，任务调度的研究就倍受众多专家、学者的关注，任务调度的结果直接影响操作系统的性能，系统性能的提升不仅要依靠自身的硬件水平，还取决于加载在硬件之上的软

学位

异构多核处理器静态任务调度有向无环图冗余任务Simics模拟器

基于快速局部均值估计的噪声水平估计算法及其应用研究

近年来,随着社会的进步和数字信息化的高速发展,图像在日常生活中得到了广泛应用。然而,由于各种图像处理设备性能的不完善,导致图像在获取、传输和存储的过程中容易受到各类

学位

图像去噪图像噪声水平评估局部均值估计K-means聚类BM3D算法

基于时域背离特征分析的托攻击检测算法研究

推荐系统作为一种新型的信息过滤技术手段,可以有效解决信息过载问题。然而,随着互联网信息的内容复杂度、访问人数、攻击手段的快速增加与变化,现有推荐系统暴露了很多不足,

学位

托攻击检测时域背离特征高斯混合模型数据差异度

基于模糊概念格的影视个性化推荐研究

形式概念分析是德国数学家Wille教授于1982年提出的。经过三十年的发展，已经应用于多个领域，如知识发现、机器学习等。形式概念分析的核心数据结构是概念格，因此其应用的核心就

学位

数据挖掘概念格模糊概念格关联规则挖掘个性化推荐

基于中文Web文本的分类研究与系统实现

与本文相关的学术论文