词间相关性对文本分类的影响

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:nmjhurfdv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,存储于Web里的信息急剧膨胀,这些信息包括文本信息、声音信息、图像信息等,其中文本信息存储和传输技术相对比较简单,易于上传和下载,因此大部分信息以文本形式存在,面对这些海量的文本信息,用户很容易迷失其中,在这种背景下,人们迫切需要一种技术快速地分析,过滤文本信息,文本分类技术有助于解决上述问题,它可以有效地组织和管理文本信息,帮助用户快速,准确地搜索到所需要的目标信息。本文分析了文本分类的相关理论和技术,以贝叶斯分类方法为基础,探讨了词间相关性对于文本分类的影响。传统的朴素贝叶斯分类方法以其快速,易于实现的特点被广泛应用于各种文本分类研究,它假定对于给定的类,所有属性之间是相互独立的,这样大大简化了计算,然而在现实世界的问题中,这个假定过于理想化,众多的实验也表明在某些情况下朴素贝叶斯分类器的性能并不理想。在上述背景下,本文首先研究了朴素贝叶斯模型,进而在考虑属性相关的条件下对朴素贝叶斯分类器作了一定的改进,提出了基于词间相关性估计的贝叶斯分类模型,接着研究了贝叶斯网络的理论和方法,利用贝叶斯网络可以描述数据项间依赖关系的特点将其应用于考虑词间相关性的文本分类,提出了基于“约束条件独立性假设”,考虑强相关项父亲的2-P贝叶斯分类模型。最后对三种分类模型进行了实验,实验结果表明考虑词间相关性后,文本分类的准确率得到了一定提高,词间相关性对文本分类具有积极的作用。
其他文献
在信息时代的今天,随着网络技术和多媒体技术的高速发展和广泛应用,越来越多的信息在网络上迅速方便地传输,但这同时也带来了信息安全隐患问题。因而,如何保护信息安全成为国
本文首先以QR二维条码为例,探讨了二维条码图像的定位与分割算法,利用Radon变换与Sobel边缘检测算法将条码图像从原始条码图像中有效地分割出来;然后分析了经过光学系统的条码图
集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术。随机分布的大量传感器节点,以无线自组织的方式构成网络,通过节点中内置的各种类
当前,大量的Web应用都采取了快速迭代的开发方式,产品需求时常发生改变,产品的前台界面和后台业务逻辑通常也会随之改变。因此,需要进行大量严格的回归测试,验证功能是否能完
由于采用了联合检测、智能天线等关键技术,TD-SCDMA 系统相对于WCDMA 和 CDMA2000 具有最好的频谱利用率,因此 TD-SCDMA 的相应关键技术是现在各个公司研究的重点。其中联合检
随着多媒体技术的快速发展,视频数据大量地增加,基于内容的视频检索的应用越来越广泛,而关键帧提取技术是视频分析和基于内容的视频检索的基础。一个镜头的关键帧就是反映该镜头
随着电子商务的发展,电子支付安全问题已成为人们日益关注的热点。常用的电子支付的协议有SSL协议和SET协议。基于SSL协议的电子支付系统成本低、应用简单透明、相对简单且快
Google Scholar为我们搜索各种来源的学术文献信息提供了一个简单易用的平台。它使用网络爬虫来把各种来源的文献信息集中存储到Google自己的数据库里,然后通过web向用户提供
自从全基因组测序成为可能以来,基因组结构注释(包括了解基因组DNA中的基因组成、结构及其调控元件)成为生物信息学研究的重要问题,由于基因组结构注释系统的计算量庞大,需要
当前核酸、蛋白质数据呈几何级数增长,如何从海量数据中获取有效信息成为生物信息学迫切需要解决的问题。数据挖掘技术就是从大量的数据中挖掘出有用的或者人们感兴趣的知识的