基于变精度粗糙集的文本分类研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:shihongxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,以电子形式的信息量飞速增长,为了有效地利用和管理海量信息,信息检索逐渐成为备受关注的领域。由于大多数的电子信息是以半结构化的文本形式存在,文本分类(Text Categorization)在信息检索中就显得尤为重要,并有着广泛的应用前景和研究价值。 本文主要在向量空间模型(VSM)框架下进行相关的研究,对该框架下的文本分类关键技术进行分析和阐述,重点探讨文本分类中的两大关键技术:特征选择和特征加权,在此基础上提出了基于变精度粗糙集理论的文本分类算法(CDD—VPRSW),并通过实验验证了该算法的有效性。 本文主要工作如下: 首先,分析特征选择的必要性并对目前比较常见的特征选择算法进行分析和比较。根据词在不同类间的分布差异情况,构造出基于类别区分程度因子的量度公式,并在此基础上提出基于类别差异的特征选择算法(CDD)。 其次,分析TF—IDF方法的缺点。通过对变精度粗糙集相关性质的研究,提出了基于变精度粗糙集特征词重要度的概念,并对TF—IDF进行改进,构造出新的特征词权重计算公式(VPRSW)。 最后,利用目前分类效果较好的K近邻算法和SVM算法在两个比较权威的语料集上进行实验,实验结采证明了CDD—VPRSW对分类效果有所提高。
其他文献
据最新的互联网发展状况统计报告显示[1],在中国2.1亿网民中约八成是网络音乐和影视的用户。可见,流媒体技术成为当今互联网的一项主流应用。由于流媒体具有带宽高、时延长等特
在中国石油勘探生产分公司信息化建设过程中,存在着勘探生产应用系统相互独立,难以进行信息整合与共享的问题,需要采取一些办法对这些应用进行集成。Web服务是建立在XML基础上,适
网格技术自20世纪90年代中期出现后,便引起人们的广泛关注,目前该技术正从科学计算领域转向广阔的工业领域。数据库在诸多领域的应用中扮演着不可或缺的角色,当前数据库系统
无线Ad Hoc网络是一种无线多跳的、无固定基础设施的移动对等网络。它由一组移动终端临时组成,具有多跳路由、动态拓扑、自组织等特性。组播是一种介于单播和广播之间的、一对
学位
本文在前人已有的工作基础上对智能规划领域的观测约简和互斥检测问题做进一步的研究。智能规划的研究领域在近年来得到了不少的扩展,比如不确定规划(NDP)放松了确定性系统的
目前,Web资源越来越丰富,内容越来越广泛,它已成为最重要的信息源。帮助用户快速、准确地查找和推荐有用的信息,具有广泛的应用背景和实用价值,已经成为近年来的研究热点。论
基于构件的开发和模型驱动的开发都是近年来软件工程领域中的热点。构件开发旨在通过标准化软件系统的组成元素,以构件为单位构造系统。模型驱动旨在通过提高软件的抽象层次,
织物疵点检测是纺织生产过程中一个重要的环节,常见的织物疵点达30余种。目前,国内绝大部分的纺织企业,对织物的疵点检测还是采用人工离线检测。人工检测效率低,易疲劳,而且容易出
运动模糊是指由于被摄物体与成像系统在拍摄记录的过程中产生相对运动而导致的图像模糊。运动模糊是成像过程中普遍存在的问题,在飞机或宇宙飞行器上等航空摄影拍下来的照片,