高光谱遥感的图像数据降维的常用方法
高光谱遥感的图像数据降维的常用方法
高光谱遥感图像所具有的大量光谱波段为地物信息提取提供了极其丰富的信息,有利于更精细的地物分类,然而波段的增多也会导致信息的冗余和数据处理复杂性的提高。
数据降维满足下面条件:尽可能保留数据的特征信息;去除数据冗余与相关性。
主要从特征选择和特征提取两方面进行降维处理。
1.特征选择
特征选择是光谱组合,即从原光谱波段数为NN的波段中选择MM个波段(N>M)(N>M),可能的光谱组合数为
N!M!(N−M)!
N!M!(N−M)!
在这里可以采用Band Index 方法进行光谱波段选择降维。
*Band Index 方法:*Hyperspectral 遥感图像根据相关性分为KK组(如shortwave light、visible light、near-infrared),设每个组中的波段数为 nl(l=1,2,⋯,k)nl(l=1,2,⋯,k)。用pijpij 表示波段ii 与波段jj的相关系数 ,σiσi 表示波段ii的方差,RaRa表示波段ii与不同组其他波段相关系数的绝对值的和,RwRw 表示波段ii与同组其他波段的相关系数的绝对值的均值,则有
Rw=1nl∑|pij|
Rw=1nl∑|pij|
从而波段ii的Band Index 可表示为:
Pi=σiRa+Rw
Pi=σiRa+Rw
通过观察,我们知道随着方差增大,波段包含的信息越多;随着相关系数降低,波段的独立性越高。
Band Index 是一个重要参数,其反映了波段总体包含特征信息和相关性。
通过结合Band Index 和目标物体有效的光谱范围(effiective spectral scope of object),我们可以进行波段选择,进而下一步识别分类。
2.特征提取
高光谱的数据降维技术是以图像特征提取为目的,利用低维数据来有效地表达高维数据的特征,同时也压缩了数据量,更有利于信息的快速提取。数据降维包含的内容非常广泛,高光谱遥感图像主要以降低光谱维度和提取光谱维度特征为主。
上一节的特征选择就讲到了在原始特征空间进行特征选择形成原始空间的一个子空间的特征选择方法,接下来介绍线性变换方法 :Y=BXY=BX ,从高维数据空间中,产生一个合适的低维子空间(不是简单的特征选择组合),使数据在这个空间的分布可以在某种最优意义上描述原来的数据。
(1)主成分分析
主成分分析(PCA)是最基本的高光谱数据降维方法,在高光谱数据压缩、去相关、消噪和特征提取中发挥了巨大的作用。PCA 变换又称为霍特林变换(hotelling transform)和K-L (karhunen-loeve)变换。变换后的各主成分分量彼此不相关,且随主成分编号的增加该分量包含的信息量减少。
在高光谱遥感数据的PCA变换中,一般将每个波段当作一个向量来处理,设高光谱遥感数据有pp个波段,图像空间维度为m×nm×n,则具体处理流程:
图像向量化:输入图像数据可以表示成X=(x1,x2,⋯,xp)TX=(x1,x2,⋯,xp)T,其中 xixi 表示为一个 N×1N×1 列向量,这里有N=m×nN=m×n。即将图像按行或按列展开有规则连接起来,称为一个向量。
向量中心化:将向量组中的所有向量减去向量组的均值向量,即 Y=X−E(X)Y=X−E(X)。
计算向量组 YY 的协方差矩阵 ΣΣ。
求协方差矩阵 ΣΣ的特征值矩阵 ΛΛ 和特征向量矩阵 AA。
进行主成分变换, Z=ATYZ=ATY。
PCA变换是基于信息量的一种正交线性变换,变换后的图像信息主要集中在前几个主成分分量中,在变换域中丢弃信息量小的成分分量,经过反变换后仍能得到复原图像的近似图像。
在PCA变换的基础上提出了分块主成分分析方法、定向主成分分析方法(DPCA)和选择主成分方法(selective PCA)。
但PCA 变换存在两个明显的缺陷:一是图像数值变换影响明显;二是变换后的信噪比并不一定随着主成分编号的增加而降低。针对这两个问题分别发展了标准化的PCA(standardized PCA, SPCA) 和残差调整的PCA(residual-scaled PCA, RPCA)。
(2)最大噪声分数变换
当噪声方差或噪声在图像各波段分布不均匀时,基于方差最大化的PCA方法并不能保证图像质量随着主成分的增大而降低。所以这里引入最大噪声分数(maximum noise fraction,MNF) 变换 ,该变换根据图像质量排列成分。MNF 方法主要采用SNR和噪声比例来描述图像质量参数。
假设X=[x1,x2,⋯,xp]TX=[x1,x2,⋯,xp]T是 p×Np×N 矩阵,行向量组的均值向量 E(X)=0E(X)=0,协方差矩阵 D(X)=ΣD(X)=Σ ,假设
X=S+N
X=S+N
其中SS和NN分别指图像中的信号和噪声,且两者不相关。
设 ΣSΣS 和 ΣNΣN 分别为SS和NN的协方差矩阵。这里假设噪声为加性噪声,则噪声比例可表示为:
Var{N}/Var{X}
Var{N}/Var{X}
MNF 变换是一种线性变换,则有
Zi=aTiX,i=1,⋯,p
Zi=aiTX,i=1,⋯,p
ZiZi 的噪声比例在所有正交于Zj(j=1,⋯,i−1)Zj(j=1,⋯,i−1) 的成分中最大,将 aiai标准化,
aTiΣai=1
aiTΣai=1
由此,MNF变换表示为:
Z=ATX
Z=ATX
式中,线性变换系数矩阵 A=[a1,a2,⋯,ap]A=[a1,a2,⋯,ap]为矩阵 Σ−1ΣNΣ−1ΣN的特征向量矩阵,则有
Σ−1ΣNA=ΛA
Σ−1ΣNA=ΛA
式中,对角线矩阵 ΛΛ 为特征值矩阵,第ii个元素为特征值 λiλi,对应成分的噪声比例为
Var{aTiN}Var{aTiZ}=aTiΣNaiaTiΣai
Var{aiTN}Var{aiTZ}=aiTΣNaiaiTΣai
MNF 变换最后变换结果的成分按照信噪比的大小排序。
(3)其他常见变换
其他常见的变换包含 最小/最大自相关因子分析(minimum/maximum autocorrelation factor, MAF)、 噪声调整的主成分分析(NPCA) 、 典型相关分析(CCA)、 独立成分分析(independent compnent analysis, ICA)、 投影寻踪(projection pursuit, PP) 、 非负矩阵分解 和 非线性主成分分析(Kernel PCA, KPCA)等。
这些方法都各有其局限性和适用范围,需要根据数据质量和不同的应用需要选择适宜的方法。
通过对常用的 CPCA、SPCA、MAF 和MNF 的优缺点进行总结,比较在目标探测的高光谱数据降维中的方法,得到下表性能分析:
可以由表总结为:
CPCA 的优势在于信息损失小,变换后数据结构变化小,但是该方法受数值和噪声影响大;
SPCA的优势在于受数值影响小,且在信息保留和数据结构保留保持两方面也不错,但该方法受噪声影响大;
MNF 受数值和噪声影响小,同时信息损失小,但变换后数据结构影响很大;
MAF 性能最差,不适用于目标探测中的高光谱数据降维。