多分类器集成分类是什么?
多分类器系统的基本思想是通过对分类器集合中分类器的选择与组合,获得比任何单一分类器更高的精度。由于不同分类器能够提供关于待分类模式的互补信息,因此组合分类器作为一种有效的方法, 能够获取比任何单一-分类器(包括最好的分类器)更好的分类精度。
就组合结构而言,多分类器的组合分为串联(级联)和并联两种形式,采用级联形式时前一级分类器为后一级分类 器提供分类信息,参与下一级分类器的分类;在并联形式时各分类器是独立设计的,组合的目的就是将各单个分类器的结果以适当的方式综合起来成为最终识别结果。按是否由训练样本产生多分类器或者是否由同类分类器构成多分类器系统可以将其分为基于训练样本的多分类器集成和基于分类器的多分类器集成。
基于训练样本的多分类器集成研究通常是由同类分类器生成的多分类器系统,常用方法有Bagging, AdaBoost, MultiBoost 算法。Bagging 采用随机有放回的抽样,构造大小相同的训练样本集,最后通过投票得出分类结果。 AdaBoost 则是对每一个样本分配权重,在训练过程中,增加分类错误样本的权值,使学习算法集中在特定示例样本,从而加强算法的学习能力。 Bagging 主要是减少分类误差,而Aaloot能够同时减小分类误差和偏差,在分类淮确性方面要高于Baging, MutiBoost 算法能够综合Bagging和Adaboost,进步降低偏差 和误差,从而提高分类精度。
Randomn Forest是利用Botstrap方法生成有差异的训练样本集,并在此基础上引入了随机选择属性。其随机策略主要体现在以下两方面:第- 是随机选取训练样本集:使用Bagging方法形成每棵树训练集;第二是随机选取分裂属性集:从属性集中随机选择一定数量的属性,然后采用最好的分裂。相比于Bagging和Boosting,随机森林具有以下优点:随机森林能够较好地容忍噪声,利用大数定律有效降低过拟合的概率,能够估计模型的泛化误差,对于不均衡的分类数据可以抑制误差。 因此,随机森林往往能够获得比Bagging和Boosting更为可靠的结果。Random Forest算法对变量数目不敏感,因为它仅仅使用一个用户定义的参数。另外,它使用分裂的方式来限制变量数目,能够有效地降低计算复杂度和树节点之间的相关性,这使得Random For-est能够很好地处理高维数据,并且无须做特征选择,而且分类速度比Bagging和Boos-ting要快。正因为这些优点,Random Forest 在城市土地利用/覆盖分类上受到广泛应用。
Rotation Forest主要思想是通过同时提高个体分类器精度和分类器之间差异性来提高分类精度。差异性通过随机选择特征和旋转空间(主成分分析)得到提升而个体分类器精度通过搜索所有的主成分分量参与分类得到提高。Rotaion Foret其中一个重要步骤通过Botstap选择训练集不仅能够避免获得相同的主成分转换系数而且能够增强成员分类器的差异性。
并联的分类器集成算法主要有投票法、模糊积分法、贝叶斯平均法、D-S 证据理论、意见一致性法、动态分类器集成法等。投票多数规则将最多数分类器致分类的类别判为待分类像元的类别。当多个类别获得的投票数目相同时,往往随机选择其中一个类别作为最终的结果。此外也可以对各个不同的结果按照分类好坏设置不同的权重,进行加权投票。贝叶斯平均法是针对软分类器的分类器集成方法,就是平均各个分类器的后验概率估计,然后根据平均的后验概率的大小,确定待分类像元的类别。证据理论也称为Dempster Shafer理论,最先由Dempster 提出,后经Shafer进一步发展而来。与Bayesian理论相比,证据理论将概率论中的单点赋值扩展到集合赋值,能更容易地处理未知因素引起的不确定性。Dempster Shafer理论通过辨别框架、信任函数、似然函数和概率分配函数进行知识的表达和处理。模糊积分是一种有效的信息融合方法。相对证据理论中各个证据要求相互独立,而模糊积分则不要求相互独立,同时考虑到了分类器的可靠性。Smits利用分类器动态选择及其改进模型进行了遥感多分类器集成研究,并指出通常单个分类器局部具有最高精度,因此局部特征空间采用不同分类器,可以增加遥感图像分类精度。
对不同的分类结果进行集成,首先要计算分类结果的差异性,集成相似的分类结果不会提高分类精度。Foody从相似度、非劣性等三方面讨论,说明对于揭示分类精度的多样性,分类精度差异的置信区间可能比假设检验更有效。另外,可以通过计算差异性测度来比较分类结果之间的差异。多分类器差异性的测度大体分为一对一差异性测度和非一对一差异性测度。 前者是强调分类器两两之间的差异性,然后取均值作为整个分类器集合的差异性;后者直接着眼于整个分类器集合,计算整体的差异性。常用的一对一差异性测度有Kappa统计量(K1 和1k2)、交互信息(mutual information,MI)、Q统计量、相关系数(p)、 双错测度(double fault, DF)、 不一致性测度(disa-greement measure, Dis) 、相同错误测度(same fault, SF)、带有权重的错误和正确结果(weighted count of errors andcorrect results, WCEC)等。非一-对一 - 差异性测度包括熵(entropy)、同步失误测度( coincident failure diversity, CFD)、 Kohavi-Wolpert variance(KW)、评判区间一致性(interrater agreement, IA)、难度变量(difficulty, 0)和广义多样性(generalized diversity, GD)等。