基于粗糙集理论的文本分类研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:fsddz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络与信息技术的发展,信息量急剧扩增,给人们的工作和生活带来了极大方便。人们在享受日益丰富的信息的同时,也被其所淹没,想要搜索自己感兴趣的信息或者管理这些信息都变得越来越困难,这是一个迫切需要解决的问题。自动文本分类技术可以很好的帮助人们解决这些问题。文本分类是当今信息检索和数据挖掘等领域的研究热点,其主要任务是在预先给定类别标记集合的情况下,根据文本的内容来判定其类别属性。目前文本分类已在信息的组织与管理、信息过滤、信息检索等方面都有重要应用。现在已有很多分类算法应用到文本分类领域,比如K近邻方法、朴素贝叶斯方法、决策树方法以及支持向量机方法等。粗糙集理论是波兰华沙理工大学的坡那克(Pawlak)教授在1982年提出,这是一种分析不确定知识的强有力的数学工具。与目前常用的分类算法比较起来,将粗糙集理论应用到文本分类中具有以下优点:首先,粗糙集处理问题比较客观,不需要除所需处理的数据集合外的任何先验信息;其次,将粗糙集理论应用到文本分类可以在不影响分类精度的条件下降低特征向量的维数,并且可以得到显式表达的分类规则。特征加权是文本分类中的重要步骤。本文通过深入分析粗糙集理论和逆文本频率加权方法,提出了一种基于粗糙集的特征加权方法。在粗糙集理论中,近似分类质量和近似分类精度可以在全局的角度去分析特征词对文本分类的作用,可以利于粗糙集的这些方法对特征词进行加权。不过这两个度量只是体现了全局的一种重要性,加权过程是对每个文档中的特征词进行加权,所以在处理过程中还要考虑到单个文本的特性。在本文中笔者认为如果某个特征词在一类文本中文本频次比较高,而在其他类的文本频率又比较低,则该特征词含有比较多的分类信息,应该赋予较大的权重。本文结合逆文本频率加权方法的思想,将词频、近似分类质量和近似分类精度结合起来构建了新的加权公式。通过粗糙集的约简理论可以得到分类规则,但是在对新文本进行分类的过程中,经常遇到分类规则与新的对象不能很好匹配的情况。这主要是由于测试文本的多样性,通过对训练集的训练不能得到非常全面的分类规则。本文分析了常用的完全匹配与部分匹配方法,结合部分匹配与特征权重的思想,提出了一种基于权重的部分匹配方法,并实验证明应用新的基于权重的部分匹配方法可以改善规则匹配的正确率。最后,对本文的工作进行了总结,指出了取得的成果与不足,并对下一步研究工作进行了展望。
其他文献
P2p网络技术是计算机通信技术研究领域的热点之一。它致力于充分利用Internet 边缘的设备能力(计算能力、存储空间和文件资源等),实现资源共享。而随着新一代移动无线网络技术的
路面病害的早期发现与早期诊断是道路养护管理工作的重要内容,及时发现并及时处理有助于避免更大的人员和财产损失。目前我国高速公路城市道路等快速发展,传统养护行为完全人
云计算是一种新兴的商业计算模式,它是计算机技术发展过程中的重要里程碑。在云计算环境中,海量的资源被抽象进资源池,并封装成服务。面对云计算终端用户的服务请求,存在着满
3G技术为移动多媒体的应用和发展提供了良好的平台。CDMA2000 1xEVDO网络进入了商用阶段,通过CDMA2000 1xEVDO网络,我们可以实现可视电话、在线游戏、视频欣赏等需要较高数据
近年来,国内外雾霾天气多发,严重影响了交通安全和出行便利。在雾天情况下,由于大气对光线的散射作用,成像系统获取的图像会产生强烈的退化。这种退化过程导致场景被雾气所掩
数字家庭业务提供多媒体娱乐、通信和健康等服务,这些服务使人们的生活更加方便、多姿多彩。很多研究预测数字家庭服务将会有广阔的市场前景。随着信息技术的发展,互联网的迅
在模式识别领域中,基于图像的目标检测与识别始终是最具有实用价值和重要意义的研究方向之一,特别是在航空航天领域,它已经成为了卫星导航定位的一项关键技术。但目前该技术
视频序列中的目标跟踪技术是指在一段视频序列中寻找与指定目标最相似的部分,是计算机视觉领域的一个重要内容。目标跟踪技术在军事、航天、监控、生物医学和机器人技术等多
随着信息技术和通信技术的飞速发展以及网络技术的逐渐普及,信息安全成为当今社会的热门话题,身份识别技术也越来越为人们所重视。在传统的身份识别方法已经无法保证人们对信
软件无线电作为一种新兴的通信体系结构,因其标准化模块化的结构,具有很强的灵活性和开放性,而受到广泛关注并日渐普及。但经过宽带软件无线电接收前端的小信号通常会被大信