论文部分内容阅读
Internet的迅猛发展使得网页分类技术的应用越来越广。这种技术通过将web网页进行分类、组织和检索,达到有效组织处理海量网页的目的,它是主题搜索、个性化信息检索、搜索引擎的目录导航以及信息过滤等领域的核心技术。
网页提供的特征通常多达数万个,直接基于这数万个变量的建模难度相当大,这就使得特征提取成为网页分类的一个关键步骤。但是,传统特征提取方法存在两个明显的不足:其一,传统的MI度量方法过分倾向于低频词和小样本类别,降低了抽取出的特征的代表性。其二,传统的特征选择方法只是简单地按特征度量的分值依次选取具有最大分值的特征,忽略了特征的组合对类别的偏向程度,导致单个特征较优,但组合起来却未必最优,从而降低了分类器的性能。
本文的主要创新之处在于,在MI(互信息)度量的基础上提出一种新的度量-MIDN特征度量(定义见4.2.2节),并提出两种新的特征选择方法:BBS_S(BiasBalanced Selection by Score)和BBS_N(Bias Balanced Selection by Number)算法(见4.3.2节)。这两种方法分别以每个类别获得的类偏向度、特征个数的方差最小为目标,修正了传统方法造成的特征对类别的偏向程度不一致的问题。在搜狐门户网站的新闻库数据上的实验证明,本文提出的两种新算法,比传统算法的分类性能要更好。