Observatorio de I+D+i UPM

Memorias de investigación
Communications at congresses:
La regresión logística penalizada: una alternativa para reducir la intensidad de muestreo en modelos de nicho ecológico
Year:2011
Research Areas
  • Statistics,
  • Ecology
Information
Abstract
Los modelos de nicho ecológico estiman la idoneidad del hábitat para una especie en función de un conjunto de factores ecológicos. Este tipo de modelos tienen variadas aplicaciones forestales, como la selección de especies para la repoblación forestal, la identificación de poblaciones sensibles al cambio climático o la evaluación del riesgo de daños por patógenos. Los modelos de nicho ecológico se ajustan usando muestras de localidades en las que la especie está presente y se conocen los valores de las variables ecológicas consideradas. La obtención de esos datos es un proceso costoso y es habitual que las muestras sean pequeñas. Por el contrario, el número de variables ecológicas a considerar es cada vez mayor debido a la disponibilidad creciente de cartografía temática de resolución espacial aceptable (mapas climáticos, fisiográficos, etc.). Otro factor que aumenta la complejidad de los modelos es la posibilidad de considerar que la respuesta de las especies a los factores ecológicos no es lineal. Los algoritmos que permiten modelizar respuestas más flexibes suelen obtener mejores capacidades predictivas pero a cambio de aumentar la complejidad del modelo. Ajustar modelos complejos con muestras pequeñas causa problemas de sobreajuste y las predicciones de esos modelos en situaciones ajenas a la muestra de entrenamiento empeoran. Una forma de combatir el sobreajuste es la regularización. Las técnicas de regularización generan predicciones sesgadas respecto a la muestra de entrenamiento pero que predicen mejor en muestras independientes. La regresión logística es un método frecuentemente utilizado para construir modelos de nicho ecológico. En la mayoría de los casos se usa la estimación de máxima verosimilitud estándar para obtener los coeficientes de regresión y en pocas ocasiones se han usado técnicas de regularización como la regresión penalizada o tipo Lasso en el ámbito de los modelos de nicho ecológico. En este trabajo evaluamos la mejora que implica usar regresión logística penalizada, cuantificando cuánto mayor tiene que ser la muestra usada por un modelo de regresión estándar para obtener una capacidad predictiva igual a la penalizada. Usando la mitad de las parcelas del Tercer Inventario Forestal Nacional de España (IFN), se simularon muestras de tamaño creciente (de 10 a 1280 presencias) para 13 especies arbóreas de las familias Pinaceae y Fagaceae. Para cada especie y tamaño de muestra se ajustaron dos modelos de regresión logística: uno estándar y otro penalizado. Ambos modelos usaron las mismas variables independientes (10 climáticas y 1 litológica) y el mismo grado de flexibilidad (splines cúbicos restringidos de 4 nodos). Con la otra mitad de las parcelas del IFN (45.940), se evaluó la capacidad de las predicciones de ambos modelos para discriminar entre presencias y ausencias usando el área bajo la curva receptor-operador (AUC). Finalmente se calculó cuantas veces mayor tiene que ser, en promedio, la muestra de un modelo de regresión logística estándar para obtener un valor igual de AUC que el obtenido por la regresión penalizada. La proporción entre los tamaños de muestra usados para los modelos de regresión logística estándar y los modelos penalizados de la misma capacidad predictiva varió entre 3 y aproximadamente 1, en función del tamaño de muestra considerado. Si ajustamos un modelo penalizado con 10 presencias, necesitaremos el triple de parcelas en la muestra para obtener la misma calidad media en las predicciones con una regresión estándar, el doble si partimos de 20 presencias y un 30% más si partimos de 60. A partir de 80 presencias no hay prácticamente diferencias entre las muestras necesarias para ambos métodos. Los resultados permiten recomendar el uso de la regresión logística penalizada para los modelos de nicho ecológico que se ajusten con muestras pequeñas.
International
No
Congress
III Reunion del Grupo de Trabajo de Modelizacion Forestal de la Sociedad Española de Ciencias Forestales
960
Place
Lugo, España
Reviewers
Si
ISBN/ISSN
000-00-0000-000-0
Start Date
04/05/2011
End Date
06/05/2011
From page
20
To page
21
III Reunion del Grupo de Trabajo de Modelizacion Forestal. Libro de resúmenes
Participants
  • Autor: Aitor Gaston Gonzalez (UPM)
  • Autor: Juan Ignacio Garcia Viñas (UPM)
Research Group, Departaments and Institutes related
  • Creador: Grupo de Investigación: Ecología y Gestión Forestal Sostenible
S2i 2020 Observatorio de investigación @ UPM con la colaboración del Consejo Social UPM
Cofinanciación del MINECO en el marco del Programa INNCIDE 2011 (OTR-2011-0236)
Cofinanciación del MINECO en el marco del Programa INNPACTO (IPT-020000-2010-22)