论文部分内容阅读
1.半监督学习中的Co-training算法,通常假设两个特征视图具备一致性和独立性的要求,然而实际应用中同时满足上述条件且自然划分的视图往往不存在,且二者的独立性很难直接评判。本文提出了结合TEF-WA技术的Co-training改进算法TV-SC和TV-DC,通过评估两个基分类器之间的差异性,可间接评估两个特征视图的独立性,并通过实验证明了所提方法的有效性。
2.针对Co-training方法的独立性假设问题,提出了利用互信息(MI)或者CHI统计量评估特征之间的相互独立性,建立特征独立模型(Mutual Independence Model,MID-Model)。基于该模型提出的特征子集划分算法PMID,能有效地将一个特征集合划分成两个独立性较强的特征子集,并从理论上对二者的独立性进行了论证,进而提出了对Co-training的改进算法SC-PMID。
3.提出了基于投票信息熵的样本权重维护新策略,对样本权重的调整不仅考虑样本是否被当前基分类器分错,而且考虑前几轮基分类器对该样本的投票分歧。同时,基分类器的信任度计算,引入了平均投票熵,当错误率相同时,对基分类器间的差异性贡献大的基分类器将获得更大的信任度。进而提出了基于投票信息熵和多视图的AdaBoost改进算法BoostVE,理论分析证明BoostVE算法的最小训练错误上界优于AdaBoost。
4.基于半监督学习和集成学习方法,提出了置信度重取样的SemiBoost-CS分类模型。采用基于最大差距和基于相似近邻两种方法,计算未标注样本的置信度,按照置信度重采样,不仅选取一定比例置信度较高的未标注样本,而且选择一定比例置信度较低的未标注样本,以不同的策略添加到标注样本集。这样既能提高基分类器的正确性,又可以增加基分类器间的差异性,从而提高集成分类器的性能。
文本分类(Text Categorization,TC)是机器学习、数据挖掘、网络挖掘、自然语言处理等领域的研究热点,在信息组织和管理、网络信息过滤等领域都有着广泛的应用,但目前面临缺少标注样本、分类精度难以进一步提高等诸多挑战。本文采用机器学习领域的半监督学习和集成学习机制,重点对半监督学习的代表算法Co-training以及集成学习中的AdaBoost方法进行了深入探讨,开展了如下创新性研究。
(1)提出了结合TEF-WA技术对Co-training的改进算法TV-SC和TV-DC,通过评估两个基分类器之间的差异性,可间接评估两个特征视图的独立性,并通过实验证明了所提方法的有效性。
(2)提出了基于特征独立模型的特征子集划分算法PMID,能有效地将一个特征集合划分成两个独立性较强的子集,进而提出了改进的半监督分类算法SC-PMID。理论分析和实验结果表明,SC-PMID算法明显优于结合随机分割法的Co-training算法。
(3)提出了基于投票信息熵和多视图的AdaBoost改进算法BoostVE,采用基于投票信息熵的样本权重维护新策略,能有效提高Naive Bayesian文本分类器的泛化能力。理论分析证明改进的BoostVE算法的最小训练错误上界优于AdaBoost。
(4)基于半监督学习和集成学习,提出了置信度重取样的SemiBoost-CS分类模型,给出了基于最大差距和基于相似近邻两种置信度计算方法。实验表明利用少量标注样本和大量未标注样本,SemiBoost-CS分类模型能够明显提升NaiveBayesian文本分类器的性能指标。
(5)在上述研究的基础上,使用VC++6.0设计实现了中英文文本分类系统SECTCS,集成了论文所提出的各种分类算法,并在20-newsgroup数据集和中文新闻数据集上进行了大量的对比实验。