Imágenes satelitales y matemática: ¿Qué podemos aportar a la ecología usando machine learning?

Maia Numerosky
Eryx
Published in
12 min readAug 20, 2020

--

En este post vamos a hablar de lo útiles que pueden ser algunos métodos de machine learning en el análisis de imágenes satelitales para conocer mejor los humedales del Paraná.

Primero les quiero contar acerca de la tragedia que allí se está viviendo: la pérdida de muchísimos de estos ambientes debido a los recientes incendios de enorme magnitud. Después les daré algunos detalles del trabajo que estoy haciendo para mi tesis de licenciatura, analizando a través de clustering y estadística imágenes satelitales del Paraná en humedales protegidos.

Humo sobre el agua

Durante las últimas semanas hemos visto cómo ardían las islas del Paraná: el fuego se vio desde Rosario, el humo llegó hasta Buenos Aires.

Son alrededor de 5 mil focos de incendio que, desde hace más de unas semanas, cubren los humedales del Río Paraná. Desde febrero, los incendios consumieron un total de 50 mil hectáreas.

Vista aérea de los incendios. Fuente: http://noticias.unsam.edu.ar/2020/08/10/el-delta-en-llamas-incendios-en-las-islas-del-bajo-parana/

Pero ¿Qué es un humedal? Hay muchísimas definiciones, pero podemos decir sin miedo a equivocarnos demasiado que los humedales son ambientes que no son ni acuáticos ni terrestres, aunque comparten muchas características con ambos, por su presencia permanente de agua. Están conectados con otros humedales y demás ambientes acuáticos, y naturalmente inundados de manera estacional.

Por eso es que cumplen diversas y valiosas funciones ecológicas, tales como el abastecimiento de agua dulce, la amortiguación de las inundaciones, la estabilización de costas, la protección contra las tormentas y la depuración de las aguas. Además de eso, son hábitats de la mayor diversidad biológica del mundo y son fundamentales para contener el cambio climático por su captación de gases de efecto invernadero. En Argentina alrededor de 21,5% de nuestro territorio está formado por humedales, superando ampliamente el porcentaje a nivel global, que se calcula entre un 5 y 7%.

Estimación de la superficie ocupada por humedales a escala regional según cartografía de suelos. Benzaquen et. al. 2017.

Desafortunadamente, una gran cantidad de humedales se ha perdido en nuestro país en las últimas décadas, y las pérdidas continúan hoy. Estas pérdidas se deben principalmente a modificaciones en el régimen hídrico (canalizaciones, diques, drenajes) para evitar sus inundaciones naturales e incendios que por lo general tienen como fin la limpieza de las pasturas para la cría de ganado.

Muchas veces en Argentina se ha intentado legislar para protegerlos, estableciendo presupuestos mínimos para su conservación y uso sostenible. Es decir, que puedan cumplir sus propósitos para la sociedad y la economía pero preservándolos para que no pierdan sus valiosas funciones ecológicas. Estas leyes fueron impulsadas por legisladores, científicos/as y organizaciones ambientalistas, no obstante, grandes lobbies mineros, agropecuarios e inmobiliarios han trabado estas iniciativas.

Humedales representativos de la zona del Delta del Paraná más afectada por los incendios de este año. Fotos: N. Morandeira y Archivo del Laboratorio de Ecología, Teledetección y Ecoinformática (LETyE, iA-UNSAM)

Pero vamos al Delta del Paraná. Este ocupa unos 19.300 kilómetros cuadrados y contiene uno de los 23 sitios RAMSAR de Argentina, áreas naturales protegidas formadas por humedales de todo el mundo. Es sobre este área que estoy haciendo mi tesis de Licenciatura en Matemática en el Instituto de Investigaciones e Ingeniería Ambiental (3iA) de la UNSAM.

A esta altura cabe preguntarse ¿Qué tiene que ver la matemática con cuidar el Paraná? Ya llegamos, pronto responderemos esta pregunta.

Pero está clarísimo que para poder cuidar y conservar los humedales es imprescindible conocerlos:

  • ¿Qué tipo de flora y fauna hay en cada uno de los sistemas de humedales del país?
  • ¿Cómo son los ciclos de inundaciones?
  • ¿En qué medida se está reduciendo su tamaño a lo largo del tiempo?
  • ¿Cuál es el clima?
  • ¿Cuáles son las actividades económicas (por ejemplo ganadería, agricultura, pesca, comercio de bienes locales) que se realizan allí?
  • ¿Cuál es su población?
  • ¿Qué peligros corren estos ecosistemas y qué medidas se pueden tomar para protegerlos?

Estas son algunas de las preguntas que se intentan responder al elaborar un Inventario Nacional de Humedales. La confección del mismo es fundamental para su conservación.

Sin embargo, para armar un inventario hay que recorrer y conocer los humedales, que ocupan 600.000km² de territorio… Estudiarlos en detalle parece una tarea imposible.

¿Cómo hacemos?

En las últimas décadas se popularizó el uso de la teledetección, es decir, el análisis de imágenes satelitales, para poder entender mejor estos ecosistemas.

Así, se pueden interpretar patrones de paisajes de distintas características, localizar fuentes de entrada y salida de agua además de su nivel, clasificar los humedales según su vegetación, sus propiedades geomórficas (tipo de suelo, altura, etc), su temperatura (hola, incendios, ¿les suena?) y su evolución a lo largo del tiempo.

Por suerte estamos llenos de imágenes satelitales. Hay un montón. Y cuando digo un montón, hablo en serio: hay más de 3,2 millones de gigabytes en los 400 sets de datos del Land Processes Distributed Active Archive Center de la NASA , que además no es la única fuente de datos de estas imágenes.

Las imágenes que analizo contienen un número llamado NDVI, siglas en inglés para Índice de Vegetación de Diferencia Normalizada. Este se utiliza para estimar la cantidad, calidad y desarrollo de la vegetación basándose en la medición de la intensidad de la radiación de ciertas bandas del espectro electromagnético que la vegetación emite o refleja. En resumen: un NDVI cercano a -1 nos dice que en ese lugar hay básicamente rocas, uno cercano a 0 nos indica agua y uno más parecido a 1 nos habla de una vegetación más frondosa.

NDVI del sitio RAMSAR del Paraná. Fuente: elaboración propia en base a datos de LPDAAC-NASA.

¿Cuál es nuestra meta al analizar el NDVI? Queremos ver si, al encontrar patrones de este índice, estos se corresponden con patrones en el paisaje. Con esto último me refiero a regiones que comparten características entre sí en términos de dinámica fluvial, red de drenaje y elevación. Además de eso, dado que el NDVI es un “índice verde”, es decir que su valor nos indica el índice de vegetación, si este tiene relación con la geomorfología y la dinámica fluvial podemos comprender mejor los vínculos entre todas esas características.

Entonces, ¿qué tenemos y qué vamos a hacer?

Como les decía, hay un montón de formas de analizar los humedales desde nuestras casas a través de las imágenes satelitales. Los satélites Terra y Aqua de la NASA orbitan la Tierra y la recorren cada día. A bordo de los mismos se encuentra el instrumento MODIS, nuestro juguete preferido, que tiene un nombre simpático pero en realidad es una sigla para Moderate Resolution Imaging Spectroradiometer.

El producto que ofrece NASA y utilizo para mi tesis consiste en composiciones de dieciséis imágenes (una por día) que son el resultado de un algoritmo bastante complicado cuyo objetivo es obtener (para cada período de 16 días) una imagen representativa que minimice la sombra, las nubes y los residuos atmosféricos. Es decir, que se vea “lo mejor posible” y esté lista para que juguemos. Sí, la NASA manipula las imágenes satelitales. No, no es para engañarnos con que la Tierra no es plana.

Entonces, ahora sí: tenemos 410 imágenes MODIS, cada una representa dieciséis días de NDVI (esta viene a ser la resolución temporal) y tiene una resolución espacial de 250m. Estos son 141856 píxels en cada imagen, es decir más de 58 millones en total.

Antes de usar métodos de clustering, intentamos varios métodos de reducción de dimensionalidad.

El que se utilizó en otros trabajos fue pasar de un arreglo de 410 x 141856 a uno de 24 x 141856. ¿Cómo? A las imágenes de enero (son unas cuantas) les tomamos la media y la desviación estándar (podemos sumar imágenes entre sí, ya que cada pixel representa un valor de índice verde). Lo mismo hacemos para febrero, marzo, todos los meses, obteniendo dos imágenes por mes. Por eso es que pasamos de tener 410 a 24 imágenes. Esto asume que las imágenes de todos los septiembres, por ejemplo, serán parecidas entre sí, año a año, lo cual puede traernos algunos problemas.

Otro enfoque posible es una reducción de dimensionalidad más clásica usando Componentes Principales (PCA) o Factor Analysis. Estos métodos consisten en asumir que nuestros datos toman la siguiente forma:

donde el último término es el término correspondiente al “ruido” que sigue una distribución normal multivariada de media 0. Si asumimos que la matriz de covarianza de la misma es un múltiplo de la matriz identidad (lo llamamos ruido homocedástico) llegamos al clásico PCA. Si flexibilizamos esta suposición y le pedimos a la covarianza que sea solamente una matriz diagonal (pero no necesariamente todas las varianzas iguales) tenemos Factor Analysis.

Para implementar estos dos métodos utilizamos la famosa biblioteca scikit-learn. Junto con estos dos métodos de reducción de dimensionalidad implementa un score, que nos devuelve la likelihood o verosimilitud de los datos para ese modelo.

Pero antes de empezar debemos especificarle al método a cuántos componentes principales (o dimensiones) queremos reducir nuestros datos. Recordemos que tenemos 410 por ahora. Por eso es que experimenté con PCA y Factor Analysis con un número variado de componentes. Naturalmente, a medida que esta cantidad iba aumentando, el score subía, dado que el ajuste (y por lo tanto la verosimilitud) es mejor. Sin embargo, nuestro objetivo es reducir la dimensionalidad para así tener un modelo más simple. Así que necesitamos algo que nos indique en qué momento aumentar la cantidad de componentes no nos ayuda demasiado (en el sentido de que el score aumenta poco). Esto es lo que hace el método knee o rodilla, que encontró ese número de componentes para cada uno de esos métodos (es la línea vertical en los gráficos, 13 para PCA y 14 para FA).

Una vez que elegimos nuestro método de reducción de dimensionalidad favorito podemos proceder a buscar clusters de NDVI.

Para esto utilizamos de nuevo scikit-learn con su método GMM. ¿Qué es esto? Implementa el algoritmo de expectation-maximization para ajustar modelos que son una mezcla de gaussianas. Podemos pensarlo como una generalización del clásico método de clustering K-means, pero para el caso en el cual las varianzas de las gaussianas no son iguales entre sí. Es decir que no necesariamente busca clusters esféricos sino también de formas distintas.

Ejemplos de distintos tipos de matrices de covarianza para GMM. Fuente: scikit-learn.

Una de las dificultades de este método es que necesitamos especificar cuántos clusters queremos que encuentre.

Pensemos que si proponemos que cada pixel sea un cluster tenemos un ajuste perfecto de nuestros datos. Pero parte de la gracia de machine learning es construir un modelo que nos permita describir nuestros datos de manera más simple y, sobre todo, generalizable. Por otro lado, si elegimos una cantidad excesivamente baja de clusters estos pueden no representar la variabilidad de los datos. Es decir, pueden quedar en un mismo cluster pixels que son muy distintos entre sí.

Un criterio cuantitativo para balancear estas dos cuestiones es el BIC o Bayesian Information Criterion,

Para resumirlo de manera simple, el primer término nos habla de la complejidad del modelo en términos de la cantidad de clusters (o más precisamente la cantidad de parámetros a estimar, en este caso medias y varianzas de las gaussianas) y la cantidad de píxels. El segundo término resta la verosimilitud (o likelihood) de los datos reales cuando elegimos este modelo. Es decir que cuanto menor es el BIC estamos en presencia de un modelo más simple o que ajusta mejor a los datos, o ambas. En este caso, por ejemplo, fuimos probando con distinta cantidad de clusters (entre 40 y 60) y lo que vemos es que con 54 alcanzamos el BIC más chico (en este ejemplo primero hice reducción de dimensionalidad con PCA).

Una vez que tenemos esos 54 clusters podemos complementar este análisis con el conocimiento existente del terreno y los estudios ya realizados. De esta manera, para simplificar nuestro modelo y validarlo con datos experimentales, el próximo paso será “fusionar” clusters que tienen características similares. Esto es lo que me tendrá ocupada las próximas semanas trabajando con ecólogas que conocen el área y la han estudiado durante muchos años.

De esta manera nos acercaremos a nuestro objetivo final: utilizar datos geomórficos y de redes de drenaje para ver si hay una correlación entre los mismos y las unidades de NDVI que vamos a haber encontrado. Para esto, utilizaremos una versión modificada del test estadístico de chi-cuadrado. Pero eso queda para otro artículo.

En resumen (esto es lo que tenés que leer si te dio fiaca toda la parte anterior): el NDVI es el número que aparece en cada píxel de las imágenes satelitales que analizamos, y nos indica el nivel de vegetación. Estamos buscando clusters de NDVI para intentar relacionarlos con mediciones de otras propiedades de los humedales, como el tipo de suelo o la red de drenaje. Si logramos hacer esto, tendremos más herramientas para analizar, a través de la teledetección, los humedales en cuestión.

Leyes ambientales y matemática como herramienta

En este post les pude contar un poco el trabajo que estoy haciendo para mi tesis, intentando profundizar la comprensión de los humedales a través del análisis de las imágenes satelitales de los mismos.

Con esto puedo decir que me embarqué en un trabajo que implica salir de la zona de confort de una matemática: ecología y machine learning no son temas que una aprende en la carrera. Tampoco la misma nos prepara para estar cómodas trasladando nuestras ideas al código. Sin embargo, me di cuenta de que esta tesis podría ser una buena excusa para formarme en asuntos que me apasionan y adquirir habilidades que (una vez terminada la tesis) seguiré aplicando en Eryx.

¿Por qué estos temas me encantan? Porque demuestran -y ponen a prueba- la capacidad de la ciencia para comprender y transformar la realidad. La matemática que más me gusta es la que intenta ser una herramienta para resolver problemas que no necesariamente sean de la propia disciplina, sino también de otras ciencias naturales y sociales.

Estoy convencida de que, en un contexto de emergencia climática y ecológica, es fundamental poner la mayor cantidad posible de recursos al servicio del conocimiento de estos problemas para su abordaje y resolución a través de la interacción entre las ciencias y las políticas públicas, un abordaje que por su enorme complejidad debe ser interdisciplinario.

En este momento se encuentra en discusión en Argentina una Ley Nacional de Humedales, con el objetivo de que existan presupuestos mínimos para la protección y uso racional y sostenible de los mismos, contemplando las necesidades de quienes allí viven. Además de eso, establece multas para quienes cometan daños sobre los humedales como los que están ocurriendo ahora.

Muchas de las personas que están elaborando el Inventario Nacional de Humedales forman parte del 3iA de la UNSAM y vienen peleando hace muchos años por esta ley, aportando su conocimiento para así enriquecerla. ¿De qué manera? Elaborando propuestas para el uso sostenible de los humedales, procurando que sigan cumpliendo sus funciones para las actividades que allí se llevan a cabo pero conservando sus características ecológicas a largo plazo. Poniendo sobre la mesa la importancia de un financiamiento adecuado para garantizar la aplicación de la ley. Remarcando la necesidad de un Programa Nacional de Conservación y Uso Sustentable de los Humedales, que tenga distintos objetivos: la coordinación a nivel federal para la implementación de estas políticas, la restauración de humedales dañados, la actualización constante del conocimiento técnico y la educación ambiental, además de las evaluaciones de impacto para medir las posibles repercusiones de las actividades que allí se realicen.

La labor de estos científicos y científicas, además de la lucha de las organizaciones ambientalistas es tan motivadora como inspiradora. Espero que sus propuestas sean parte de la discusión parlamentaria y la redacción de los proyectos, y que podamos alegrarnos pronto, en medio de incendios y pandemia, por la sanción de esta ley.

Bibliografía

--

--