词间相关性对文本分类的影响

来源 :南京理工大学 | 被引量 : 0次 | 上传用户：nmjhurfdv

【摘要】

：

随着互联网技术的发展，存储于Web里的信息急剧膨胀，这些信息包括文本信息、声音信息、图像信息等，其中文本信息存储和传输技术相对比较简单，易于上传和下载，因此大部分信息以文本

【作者】

：

王雪飞

【机构】

：

南京理工大学

【出处】

：

南京理工大学

【发表日期】

：

2007年期

【关键词】

：

文本分类词间相关性朴素贝叶斯贝叶斯网络 2-P贝叶斯

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的发展，存储于Web里的信息急剧膨胀，这些信息包括文本信息、声音信息、图像信息等，其中文本信息存储和传输技术相对比较简单，易于上传和下载，因此大部分信息以文本形式存在，面对这些海量的文本信息，用户很容易迷失其中，在这种背景下，人们迫切需要一种技术快速地分析，过滤文本信息，文本分类技术有助于解决上述问题，它可以有效地组织和管理文本信息，帮助用户快速，准确地搜索到所需要的目标信息。本文分析了文本分类的相关理论和技术，以贝叶斯分类方法为基础，探讨了词间相关性对于文本分类的影响。传统的朴素贝叶斯分类方法以其快速，易于实现的特点被广泛应用于各种文本分类研究，它假定对于给定的类，所有属性之间是相互独立的，这样大大简化了计算，然而在现实世界的问题中，这个假定过于理想化，众多的实验也表明在某些情况下朴素贝叶斯分类器的性能并不理想。在上述背景下，本文首先研究了朴素贝叶斯模型，进而在考虑属性相关的条件下对朴素贝叶斯分类器作了一定的改进，提出了基于词间相关性估计的贝叶斯分类模型，接着研究了贝叶斯网络的理论和方法，利用贝叶斯网络可以描述数据项间依赖关系的特点将其应用于考虑词间相关性的文本分类，提出了基于“约束条件独立性假设”，考虑强相关项父亲的2-P贝叶斯分类模型。最后对三种分类模型进行了实验，实验结果表明考虑词间相关性后，文本分类的准确率得到了一定提高，词间相关性对文本分类具有积极的作用。

其他文献

基于混沌序列和RSA算法的图像加密技术的研究

在信息时代的今天,随着网络技术和多媒体技术的高速发展和广泛应用,越来越多的信息在网络上迅速方便地传输,但这同时也带来了信息安全隐患问题。因而,如何保护信息安全成为国

学位

图像加密混沌系统LDC复合混沌RSA图像压缩

QR二维条码自动识别系统的研究与实现

本文首先以QR二维条码为例，探讨了二维条码图像的定位与分割算法，利用Radon变换与Sobel边缘检测算法将条码图像从原始条码图像中有效地分割出来；然后分析了经过光学系统的条码图

学位

条码图像自动识别Fourier变换QR二维条码

无线传感器网络MAC层协议的研究

集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术。随机分布的大量传感器节点，以无线自组织的方式构成网络，通过节点中内置的各种类

学位

无线传感器网络MAC层协议媒体接入控制退避算法二进制指数退避

基于需求追踪的Web应用测试脚本修复和版本控制技术研究

当前,大量的Web应用都采取了快速迭代的开发方式,产品需求时常发生改变,产品的前台界面和后台业务逻辑通常也会随之改变。因此,需要进行大量严格的回归测试,验证功能是否能完

学位

自动化测试界面演化需求追踪性测试脚本修复版本控制

TD-SCDMA系统联合检测算法的研究与实现

由于采用了联合检测、智能天线等关键技术，TD-SCDMA 系统相对于WCDMA 和 CDMA2000 具有最好的频谱利用率，因此 TD-SCDMA 的相应关键技术是现在各个公司研究的重点。其中联合检

学位

移动通信TD-SCDMA信道估计干扰消除

基于数据挖掘的视频关键帧的提取

随着多媒体技术的快速发展，视频数据大量地增加，基于内容的视频检索的应用越来越广泛，而关键帧提取技术是视频分析和基于内容的视频检索的基础。一个镜头的关键帧就是反映该镜头

学位

视频检索数据挖掘视频关键帧运动信息数据处理

基于椭圆曲线密码支付系统研究和实现

随着电子商务的发展，电子支付安全问题已成为人们日益关注的热点。常用的电子支付的协议有SSL协议和SET协议。基于SSL协议的电子支付系统成本低、应用简单透明、相对简单且快

学位

椭圆曲线密码点乘运算ECDLPECDSAECDHSET协议

面向学术文献检索的P2P网络研究

Google Scholar为我们搜索各种来源的学术文献信息提供了一个简单易用的平台。它使用网络爬虫来把各种来源的文献信息集中存储到Google自己的数据库里，然后通过web向用户提供

学位

学术文献检索P2P网络网络爬虫元数据标准缓冲查询请求缓冲算法

基于生物信息学应用的混合架构集群系统研究

自从全基因组测序成为可能以来,基因组结构注释(包括了解基因组DNA中的基因组成、结构及其调控元件)成为生物信息学研究的重要问题,由于基因组结构注释系统的计算量庞大,需要

学位

生物信息学集群并行计算

数据挖掘在生物信息处理中的应用植物miRNAs的聚类与预测算法分析

当前核酸、蛋白质数据呈几何级数增长，如何从海量数据中获取有效信息成为生物信息学迫切需要解决的问题。数据挖掘技术就是从大量的数据中挖掘出有用的或者人们感兴趣的知识的

学位

聚类分析miRNAs关联规则数据挖掘生物信息处理预测算法

词间相关性对文本分类的影响

与本文相关的学术论文