特征选择及其在文本信息处理中的应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:abuqifuni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择通常作为归纳学习的一个预处理操作,它旨在从原始数据的特征空间中选择一个最优的特征子集,使得在原始特征空间上的操作可以很好地在该特征子集空间上的操作来表示。特征选择预处理过程可以获得一个精简而高效的特征子集,籍此简化模式的表示和分类器的模型;同时较少的特征数量可以减轻因训练数据过少所引起的过度拟合问题(Over-fitting)。 尽管特征选择很早就得剑了广泛的研究,但是特征选择理论和方法仍然面临高维数据的挑战(如文本分类等领域包含高达数万维特征的数据),存在着效率上和性能上的缺陷。为了获得最优特征子集,大部分的特征选择方法需要对特征子集进行完全搜索,并计算在给定的评价标准下特征子集的的表现,因此搜索过程和评价过程需要耗费大量的计算时间,以目前的计算能力在数万维特征空间进行完全特征子集搜索是不可行的。根据国内外最新研究状况以及不断涌现出来的具有高维特征空间新领域的趋势,为了解决文本信息处理中的特征选择及其应用问题,主要在以下几个方面等进行了相关的研究。 首先,从优化分类器模型的基本假设的角度出发,文本分类的概率统计模型通常假设特征之间是独立的,比如信息检索中常用的朴素贝叶斯分类,贝叶斯分类由于简单、高效的特性,应用菲常普遍,常常作为基准算法与其他分类方法相比较。然而,在大规模的文本中,由于把词条作为特征,字词之间比较密切的语义关联导致了特征之间存在一定的依赖关系,这在一定程度上违反了贝叶斯假设,分类精确度受到影响。因此通过利用Chi2检验方法来度量特征的独立性和依赖性,以寻找最大化满足基本假设的特征子集为目标,提取那些与类最相关、相互依赖度最小的特征子集,获得类别域上的最佳特征子集,从根本上改善分类器的基本假设。 其次,通过分析特征之间存在着依赖关系,根据特征相关性理论将特征划分为四种类别:强相关、弱相关、无关和冗余特征,强相关特征和部分弱相关特征是特征选择的目标所在,面无关特征、冗余特征以及部分弱相关特征是要剔除的。通过Chi2检验统计方法,建立了Markov Blanket理论和特征楣关性之间的联系,理论上证明了强相关特征不存在Markov Blanket。提出了一种基于前向选择的近似Markov Blanket的特征选择算法,算法首先从构建一个包含强相关特征的目标特征子集开始,依次寻找其他特征是否在目标特征子集中存在Markov Blanket并剔除冗余特征,在寻找MarkovBlanket时,本文采用了启发式的近似方法,获得近似最优的特征子集。 再次,对于大部分特征选择方法要对特征进行离散化以后才能处理连续型数值特征的问题,提出了基于特征抽取进行特征选择的方法,对线性判别分析(LDA)方法施加特定的限制,将特征选择问题转换为LDA的优化问题。与LDA相同的是,提出的方法寻找一个具有最大化类间判别能力的特征子集,其计算复杂度呈线性并且容易计算和理解;与LDA不同的是,本文方法不转换或组合特征,也不需要计算散布矩阵的特征向量来获得最优判别向量,因此不要求散布矩阵的非奇异性质。 最后,WWW客户端的缓冲反映了用户豹最近兴趣,对Web Cache的缓冲机制进行分析并对Web链接结构做出分析假设,充分利用Web页面的链接信息,将WWW客户端缓冲页面建模为图模型,同时对文本信息进行特征选择,提出了基于幽链接的兴趣链接聚类算法,获得用户兴趣聚类。由于目前的用户兴趣剖像表示方法无法实现搜索的查询扩展,因此本文提出一种新的用户兴趣剖像特征表示一一关联规则组合的方法,关联规则考虑了词条和词条间的语义关联关系,而关联组合克服了关联规则中的无用规则,可以有效的被利用来进行查询扩展,最后提出一个基于查询扩展的个性化搜索系统框架。
其他文献
网格的出现,引起了互联网浪潮的一次新的革命。传统的互联网实现了计算机硬件的连通,Web技术实现了网页和网络资源的手工互联,而网格技术试图实现互联网上所有资源的全面连通
MPEG-4视频编码标准是视频压缩领域第一个基于第二代编码技术的标准,是一种视频内容可交互的新的编码标准,对视频对象提供了形状编码、运动估计和补偿、纹理编码、Sprite编码
生活水平的提高促使人们更加关注自身的身体状况和健康信息,人们迫切需要-种与传统医院医疗方式不同的、更为有效的健康服务方式。因此,社区卫生服务这一崭新的健康服务方式
语义Web服务(Semantic Web Serivces)技术通过使用本体为Web服务的描述提供语义信息,使Web服务能够为机器所理解成为可能,并且为Web服务的自动发现提供了技术基础。语义Web服务
人体动作识别研究涉及了很多学科,比如计算机视觉、机器学习、模式识别、信号处理、数字图像处理、人工智能等,具有非常重要的理论研究价值。同时人体动作识别技术也有很广阔
图像分割是很多高级图像处理技术(如可视化、图像压缩、医学图像诊断等)的重要基础工作。迄今为止,已经有很多种不同的图像分割方法提出。阈值法因其实现的简单性而成为图像
三维显示一直是学术界的研究热点。时至今日已经经过了多年的发展,在产业和学术界都出现了许多不同门类和外观的三维显示解决方案,然而此领域的研究热度没有任何降温。近年来
近年来,随着储能技术的发展,锂离子电池以其高效优质的特性在储能系统中的应用愈加广泛,对储能锂离子电池系统的管理成为了储能技术研究的热点之本文研究了一种新型软碳负极
随着社会信息化步伐的加快,信息安全正在成为人们研究的热点。由于生物识别技术具有不可复制,不可移植,不可仿造的特点,使得生物识别技术在信息安全领域的应用越来越广泛。在
网格的特点包括:节点的数量比较大;节点之间的异构性;每个节点具有高度的自治性。在网格系统中,大量的动态和异构资源给网格资源发现带来巨大的挑战。   本论文提出了采用自组