论文部分内容阅读
特征选择通常作为归纳学习的一个预处理操作,它旨在从原始数据的特征空间中选择一个最优的特征子集,使得在原始特征空间上的操作可以很好地在该特征子集空间上的操作来表示。特征选择预处理过程可以获得一个精简而高效的特征子集,籍此简化模式的表示和分类器的模型;同时较少的特征数量可以减轻因训练数据过少所引起的过度拟合问题(Over-fitting)。
尽管特征选择很早就得剑了广泛的研究,但是特征选择理论和方法仍然面临高维数据的挑战(如文本分类等领域包含高达数万维特征的数据),存在着效率上和性能上的缺陷。为了获得最优特征子集,大部分的特征选择方法需要对特征子集进行完全搜索,并计算在给定的评价标准下特征子集的的表现,因此搜索过程和评价过程需要耗费大量的计算时间,以目前的计算能力在数万维特征空间进行完全特征子集搜索是不可行的。根据国内外最新研究状况以及不断涌现出来的具有高维特征空间新领域的趋势,为了解决文本信息处理中的特征选择及其应用问题,主要在以下几个方面等进行了相关的研究。
首先,从优化分类器模型的基本假设的角度出发,文本分类的概率统计模型通常假设特征之间是独立的,比如信息检索中常用的朴素贝叶斯分类,贝叶斯分类由于简单、高效的特性,应用菲常普遍,常常作为基准算法与其他分类方法相比较。然而,在大规模的文本中,由于把词条作为特征,字词之间比较密切的语义关联导致了特征之间存在一定的依赖关系,这在一定程度上违反了贝叶斯假设,分类精确度受到影响。因此通过利用Chi2检验方法来度量特征的独立性和依赖性,以寻找最大化满足基本假设的特征子集为目标,提取那些与类最相关、相互依赖度最小的特征子集,获得类别域上的最佳特征子集,从根本上改善分类器的基本假设。
其次,通过分析特征之间存在着依赖关系,根据特征相关性理论将特征划分为四种类别:强相关、弱相关、无关和冗余特征,强相关特征和部分弱相关特征是特征选择的目标所在,面无关特征、冗余特征以及部分弱相关特征是要剔除的。通过Chi2检验统计方法,建立了Markov Blanket理论和特征楣关性之间的联系,理论上证明了强相关特征不存在Markov Blanket。提出了一种基于前向选择的近似Markov Blanket的特征选择算法,算法首先从构建一个包含强相关特征的目标特征子集开始,依次寻找其他特征是否在目标特征子集中存在Markov Blanket并剔除冗余特征,在寻找MarkovBlanket时,本文采用了启发式的近似方法,获得近似最优的特征子集。
再次,对于大部分特征选择方法要对特征进行离散化以后才能处理连续型数值特征的问题,提出了基于特征抽取进行特征选择的方法,对线性判别分析(LDA)方法施加特定的限制,将特征选择问题转换为LDA的优化问题。与LDA相同的是,提出的方法寻找一个具有最大化类间判别能力的特征子集,其计算复杂度呈线性并且容易计算和理解;与LDA不同的是,本文方法不转换或组合特征,也不需要计算散布矩阵的特征向量来获得最优判别向量,因此不要求散布矩阵的非奇异性质。
最后,WWW客户端的缓冲反映了用户豹最近兴趣,对Web Cache的缓冲机制进行分析并对Web链接结构做出分析假设,充分利用Web页面的链接信息,将WWW客户端缓冲页面建模为图模型,同时对文本信息进行特征选择,提出了基于幽链接的兴趣链接聚类算法,获得用户兴趣聚类。由于目前的用户兴趣剖像表示方法无法实现搜索的查询扩展,因此本文提出一种新的用户兴趣剖像特征表示一一关联规则组合的方法,关联规则考虑了词条和词条间的语义关联关系,而关联组合克服了关联规则中的无用规则,可以有效的被利用来进行查询扩展,最后提出一个基于查询扩展的个性化搜索系统框架。