中英文核心期刊咨询网

当前位置:首页>>电子论文 > 正文

一种遥感影像自动识别耕地类型的机器学习算法

发布时间:2020-02-17

  摘要:耕地作为重要的土地资源,关系着国家的粮食安全问题,因此迫切需求快速准确获取耕地信息的方法。传统的遥感影像监督分类方法以训练样本和待分类像元/图斑的光谱特征或纹理特征的一致性作为分类依据,这对训练样本的依赖性较强。对此提出了一种基于影像窗口子区的耕地类型自动识别算法,通过提取一定大小影像窗口子区的多光谱和多层次特征,利用机器学习算法,实现影像窗口子区耕地和非耕地类型的自动判别。依据该算法,可以通过建立某个区域内遥感影像耕地类型的特征库,实现对影像窗口子区类别的非监督自动判别,提高目前分类算法的自动化程度。以东北地区高空间分辨率遥感影像为例进行实验,精度达到了90.8%。该算法为耕地信息自动化快速获取提供了技术支持,也可用于遥感影像中某一种纯净地物类型的快速提取。

一种遥感影像自动识别耕地类型的机器学习算法

  关键词:影像窗口子区;特征库;机器学习;耕地自动识别

  0引言

  耕地作为重要的土地利用/土地覆盖类型,其数量、质量和空间分布范围关系着人类社会和经济的发展,关乎国家粮食安全问题,且与生态环境保护紧密相连[1-2]。高效获取耕地信息,是土地利用/土地覆盖研究领域的热点之一。

  遥感技术为提取耕地类型提供了更加快速、全面、准确的手段,其中基于像元和面向对象的监督分类方法较为常用[3-4]。基于像元的分类方法中,需要从影像中选择特定的训练样本,获得样本的光谱特征,建立每个类别的判定函数[5],然后利用判定函数对待分类数据进行类别判定[6]。面向对象的分类方法首先对遥感影像进行分割[7],将分割后的斑块作为研究对象[8],然后选择特定的斑块作为训练样本,获取其光谱和几何等特征,建立不同类别的判定函数,对待分类斑块进行分类[9]。

  由于遥感影像的光谱特征受观测几何条件和地表类型变化的影响比较大,所以“同物异谱”现象较为严重[10],这导致在利用光谱特征进行地物类别判断时受条件限制较强。此外,进行监督分类时选择的训练样本用于同一幅影像分类时精度较高[11],但处理其他多幅影像时精度显著降低;而针对不同影像重新选择训练样本则效率较低[12]。在高空间分辨率遥感影像中,分类方法的精度与效率的矛盾更加突出,自动化程度需求更强[13]。

  为了兼顾遥感影像分类方法的精度与效率,本文提出了一种基于影像窗口子区的耕地类型自动识别算法。该算法通过对影像的规则划分获取一定大小的影像窗口子区,在提取多光谱和多层次特征的基础上,利用机器学习算法,自动识别影像窗口子区耕地和非耕地类型。以东北地区的高空间分辨率遥感影像为例,建立实验数据集以构建该区域特征库,实现耕地和非耕地类型的非监督自动识别,大大提高了分类算法的自动化程度;同时也对影像窗口子区尺度和样本容量进行了探讨。

  1算法原理及流程

  结合高空间分辨率遥感数据特点,本文提出的基于影像窗口子区的耕地类型自动识别算法分为3个步骤:首先,通过获取一定数量典型地类的纯净窗口子区构建实验数据集;然后,对实验数据集进行多光谱、多层次特征提取,建立不同地类的特征库;最后,采用机器学习分类算法实现各地类的自动识别。

  1.1实验数据集构建

  高空间分辨率遥感影像数据中,典型地物类型会在一定的窗口尺度内保持良好的均一性,这样尺度的窗口称为纯净窗口子区,该尺度可作为该类型的空间展布尺度[14],可用一定数量影像窗口子区中纯净窗口子区所占比例表示该尺度下地物的纯净度。依照耕地类型的空间展布尺度,通过随机对遥感影像的规则切分,获取一定数量的影像窗口子区,构建实验数据集,作为样本集。

  构建的实验数据集包括3个方面的属性:典型地物类型、样本容量和各类型所占比例。典型地物类型由研究区典型地物构成决定;样本容量大小影响分类算法的效率和精度[15];各类型所占比例反映地类的结构,按照土地利用/土地覆盖各类型面积比确定[16]。

  1.2特征库建立

  构建了实验数据集之后,将对其影像窗口子区进行多光谱、多层次特征提取以建立特征库,作为对影像进行识别分类的依据。

  多光谱特征是针对遥感影像多波段数据特点,按照波段数将遥感影像拆分为多个灰度图像,将多波段多图像的光谱特征作为特征库建立的基础。

  多层次特征是由对影像的初级特征到高级特征的抽象所得[17-18],包括尺度不变特征变换(scale-invariantfeaturetransform,SIFT)、稀疏编码和最大化池化。SIFT是对影像特征的初级提取,反映了影像的关键点和局部特征[19]。在其基础上,进行稀疏编码表示,获得更高层次的特征[20]。其求解过程包括训练阶段和编码阶段:训练阶段是对训练数据图像的SIFT特征进行稀疏编码,同时求解稀疏编码约束函数中的稀疏编码表示和字典;编码阶段是利用学习得到的最优字典,对测试数据图像的SIFT特征进行稀疏编码,求解其稀疏编码表示。得到稀疏编码表示后,通常需要对其进行最大化池化,将向量中各维相应的最大分量组成一个特征向量来表示该影像,获得多层次特征。

  1.3地类识别

  针对不同地类的特征,利用支持向量机(supportvectormachine,SVM)算法对不同地类进行训练,构建类别判别函数[21]。首先,对待分类影像进行与特征库相同的特征提取,再利用判别函数进行地类识别;然后将影像识别结果进行融合,统计同一个影像窗口子区的所有灰度图像类别,将其众数作为该窗口子区的地物类型,实现耕地类型与非耕地类型的自动识别。基于影像窗口子区的耕地类型自动识别算法的具体流程如图1所示。

  2数据源与实验结果

  实验数据源选择0.4m空间分辨率的Pleiades卫星遥感数据,共4个波段,分别为蓝光波段B1、绿光波段B2、红光波段B3和近红外波段B4。

  研究区位于我国东北地区的望奎县、大庆市、梅河口市和嫩江县4个典型区,分别位于东北地区的不同方位,典型地物类型主要包括耕地、林地、居民地和水体等,基本反映了东北地区的主要地物类型。研究区位置分布及遥感影像如图2和图3所示。其中嫩江县有3个时相数据。

  如图2和图3所示,在研究区内,包含了成片的耕地和非耕地区域,其中非耕地类型主要是林地和居民地。因此本文提出的算法主要以识别耕地、林地和居民地为主要目标。

  2.1地物类型和样本选取结果

  由土地利用/土地覆盖数据,得到研究区内耕地、林地和居民地类型所占面积比例分别约为65%,35%和5%,以此作为样本选取的依据。

  为获取纯净窗口子区大小,通过统计窗口子区尺度与纯净度的关系曲线,获得不同尺度下地物的纯净度。本文随机选择256像元×256像元,384像元×384像元,512像元×512像元,640像元×640像元和768像元×768像元的影像窗口子区各150景,目视判别其是否为纯净窗口子区,并分别计算纯净度,统计结果曲线如图4所示,图中红色点为实验最终选取的纯净窗口子区尺度,蓝色点为未选取的其他纯净窗口子区尺度。

  从图4可以看出,随着影像窗口子区尺度不断增大,地物纯净度不断降低。在保证影像窗口子区纯净度的前提下,考虑算法模型的效率问题,则影像窗口子区大小选取512像元×512像元,纯净度为85.3%,对应实际地面尺寸为200m×200m,基本符合东北地区耕地类型的空间展布尺度。依据该影像窗口子区尺度,通过对高空间分辨率影像的随机切分,构建实验数据集,各地物类型影像窗口子区如表1所示。

  2.2样本容量选取结果

  为了获取训练/验证数据集样本容量大小,本文从实验数据集中选取容量大小分别为572,385,291,197,143和100的样本,测试数据集样本总容量保持883不变。各类型样本数依据土地利用/土地覆盖面积百分比选取,训练/验证数据集样本容量统计如表2所示。以不同训练/验证数据集样本容量,按照本文提出的自动识别算法进行对比实验,获得各方案分类精度,统计结果如图5所示。

  本文主要研究对象为耕地类型,因此将林地和居民地进行合并,作为非耕地类型。从图5中可以看出,随着训练/验证数据集样本容量的增加,居民地分类精度大幅上升,林地和非耕地分类精度有一定幅度的提高,耕地分类精度也有上升趋势。为保障各类型识别精度要求,训练/验证数据集样本容量选择为572,耕地分类精度为97.0%,林地分类精度为81.6%,居民地分类精度为63.6%,非耕地分类精度为79.5%,总体精度为90.8%。

  2.3不同特征库条件下的自动识别精度

  在确定了影像窗口子区尺度和样本容量后,选择了2套不同特征库的构建方案进行对比实验,分别对多光谱数据的多波段多图像以及合成单图像进行特征提取构建特征库,并对构建的特征库进行了多次精度验证。各方案模型在验证阶段的分类精度均值和方差如表3所示。

  从表3可以看出,选择多波段多图像的自动识别方法精度较高,在验证阶段达到84.0%,远高于合成单图像的自动识别方法。

  2.4基于特征库的耕地类型识别精度

  利用训练所得模型,对测试数据集进行识别分类,并将类型识别结果与已知标签对比获取其分类精度。各方案模型在测试阶段的不同地物类型识别精度如表4所示。

  从表3可见,多波段多图像的自动识别方法总体精度较高,在测试阶段达到了90.8%,具有较为理想的自动识别效果。利用该方法,以构建某一区域特征库为基础,实现对耕地类型的非监督分类,大大增强了分类方法的自动化程度。

  3结论与讨论

  本文提出了一种遥感影像自动识别耕地类型的机器学习算法,基于对影像的规则切分获取一定大小的影像窗口子区,通过提取其多光谱和多层次特征,利用机器学习算法,实现耕地和非耕地类型的自动判别。通过研究,得到了以下结论:

  1)与传统基于像元和面向对象分析方法相比,本文算法仅以规则切分后的影像纯净窗口子区作为研究对象进行识别,无需对单一像元进行分析处理,也避免了对高空间分辨率影像进行复杂的分割操作。研究表明,窗口子区尺度和样本容量的选择是决定分类精度与效率的主要参量,即窗口子区尺度选择的纯净度和样本容量选择的代表性是分类精度的关键,为了兼顾工作效率,应选择满足纯净度要求的最大窗口子区尺度和满足分类精度要求的最小样本容量。本文中研究区典型地物纯净窗口子区的尺度选择为200m×200m,纯净度可达85.3%,是较为合理的影像窗口子区可识别尺度;随机获取该尺度下的影像窗口子区,训练/验证数据集样本容量选择572,测试数据集样本容量为883,是兼顾精度与效率的较好选择。

  2)通过对图像提取多光谱和多层次特征信息,构建特征库,利用机器学习算法,实现了对高空间分辨率遥感影像任意窗口子区耕地类型的自动识别,精度达到了90.8%。通过不同特征库条件下的对比实验发现,训练过程中所采用的策略会对分类精度产生影响,在只利用合成单图像进行多层次特征提取与识别分类时,精度下降到了87.1%。可见基于多光谱和多层次特征的地类识别机器学习算法可充分利用多光谱数据特征,提高分类模型的性能。

  3)通过特征库的构建,使遥感影像分类过程中主要关注纯净窗口子区的规则切分以获取样本对象,同时本文算法所选取的训练样本并不局限于同一景影像中,因此适用于某一区域内大量遥感数据的自动化分类处理。在得到影像块数据集后进行特征提取,即可利用特征库进行地物类别自动识别,简化了分类阶段的训练过程,实现非监督的耕地识别,提高了分类算法的自动化程度,同时也可以用于从遥感影像中某一种纯净地物类型的快速提取。

  本文研究也发现了一些不足之处,如识别的精度受到训练样本代表性及纯净度的限制。若训练样本中耕地和非耕地的混合样本数超过15%,不满足窗口子区纯净度要求时,会导致获取特征的不稳定,从而对分类精度有一定影响。因此,在训练阶段需要采用一定训练样本的选取策略才能保证分类结果的精度。今后的研究工作将着重探讨纯净窗口子区的自动获取与快速高效的自动分类研究。

  一种遥感影像自动识别耕地类型的机器学习算法相关期刊推荐:《国土资源遥感》(季刊)创刊于1989年,是由国土资源部主管,中国国土资源航空物探遥感中心主办的技术性刊物。主要刊登实用性强的遥感、GIS及GPS(3S)技术理论及其应用论文,宣传3S技术在国土资源调查与开发、国土整治的规划与管理,环境和灾害监测,水文地质、工程地质勘查,建设工程选址、选线及城市规划等领域应用的新方法和重要成果,以从事国土资源遥感及其相关研究领域的研究人员、应用人员及大专院校有关师生为读者对象。

回到顶部