GOLEM Blog: biogeografía

Mostrando entradas con la etiqueta biogeografía. Mostrar todas las entradas

24 junio 2007

El gran viaje

Spencer Wells es el director del Genographic Project, un proyecto con un objetivo espectacular: reconstruir el gran viaje que llevó a nuestros antepasados desde África al resto del mundo en los últimos 60000 años.
El GP, financiado por la NGS, IBM y la Waitt Family Foundation, pretende descifrar tiempo y espacio de la dispersión de nuestros ancestros por el mundo. Un viaje épico del que no quedan recuerdos ni leyendas ya que comenzó hace demasiado tiempo.
Hace 60000 años los antepasados de todos nosotros salieron de África en una diáspora que les llevó a colonizar el mundo. No quedan recuerdos ni leyendas pero sí datos en nuestros cromosomas.
Según Wells, en aquellos momentos la población humana en África apenas llegaba a los 2000 individuos, al borde de la extinción. Este fue el origen de la diáspora que dispersó a nuestro lejanos abuelos por todo el mundo. Los motivos se desconocen aunque probablemente sean tan simples como ir detrás de los animales impulsados por las cambiantes condiciones climáticas: sequías, glaciaciones... La primera etapa fue el actual Oriente Medio para luego tomar dos rutas distiantas, un grupo siguió la costa asiática llegando a Australia mientras el otro se internó hacia el Asia central.
El GP data el paso del estrecho de Bering hace 13000 años por parte un grupo de Siberia. De ese grupo estiman que sobrevivieron muy pocos, apenas media docena, que luego dieron origen a todos los nativos americanos. Otras metas se alcanzaron antes: China hace 35000 años, Europa hace 30000. Aquí se encontraron con los neandertales de los cuales no se ha encontrado traza alguna en nuestro genoma como ya comentamos en este blog.
Para llegar a estos resultados se ha analizado parte del ADN de unos cientos de miles de personas de todo el mundo. Por un lado se examina el cromosoma Y, de herencia exclusivamente masculina, y por otro el ADN mitocondrial, que proviene sólo de la madre. Estas dos "parcelas" de ADN no se recombinan y sus alteraciones se deben exclusivamente a mutaciones. La aparición de una nueva diferencia entre individuos pueden ser identificada e interpretada como un hito o marca temporal. El conjunto de todas ellas permite reconstruir un árbol genético global y reconstruir la mayor aventura de nuestra historia.
Hasta el momento, las muestras de sangre de unas 250000 personas han sido procesadas en los centros regionales París, Johannesburgo, Adelaida, Beirut, Belo Horizonte...) y luego incluidos en una base de datos común. Para los hombres se analiza el DNA del cromosoma Y en busca de los orígenes de la línea parental masculina. Para las mujeres se analiza el ADN mitocondrial para rastrear la línea matriarcal. Nuestro origen se ha rastreado hasta hace 200000 años, cuando todos vivíamos en África.
Los resultados actuales pueden verse en el Atlas of the Human Journey (Flash).

Fragmento de uno de los mapas del Atlas

El proyecto es urgente porque en nuestro mundo actual el antiguo aislamiento genético ya no existe. En pocas décadas, siglos como mucho, nuestros genes se habrán remezclado de tal forma que los marcadores se habrán diluido. Eso no es ni bueno ni malo, sólo una etapa más en nuestra historia, pero la información debe recogerse ahora para que la memoria de nuestro gran viaje no se pierda para siempre.

Nota: aunque no es gratis (hay que comprar un kit para enviar la muestra) estamos invitados a enviar nuestro ADN y a obtener nuestro viaje particular hacia el pasado. ¿De verdad somos parientes de estos?

04 junio 2007

EnRedados

Verán que me he prodigado menos este mes, apenas un par de entradas semanales. Les daré la explicación pertinente comenzando por decir que no me gusta la gestión. Aún así, cuando un par de colegas me pidieron que respondiera a una convocatoria de la CYTED no pude negarme a pesar del indudable impacto que la cosa tendría en mi calidad de vida.
CYTED es el acrónimo de Programa Iberoamericano de Ciencia y Tecnología para el Desarrollo, una institución que publica convocatorias periódicamente sobre áreas estratégicas como agroalimentación, salud, desarrollo sostenible o tecnologías de la información. La idea general es clara: unir en redes colaborativas a grupos de investigación para, mediante el intercambio de conocimientos, técnicas y personas, generar un efecto sinérgico que potencie el conocimiento en esas áreas.
Planteamos una Red Temática para analizar las previsiones de los modelos de cambio climático en diversos escenarios y su repercusión en los bosques de Colombia, México, Ecuador, Argentina, Bolivia y España.
Aceptado el reto, estas semanas hemos estado organizando un proyecto donde intervienen México, Colombia, Bolivia, Argentina, Ecuador y España, del que me ha tocado la coordinación. Como novedad se me ocurrió montar un wiki como herramienta de colaboración dado, además, el poco tiempo disponible, la dispersión de los grupos y la dificultad de comunicarse a seis bandas con facilidad. La experiencia ha sido buena y del wiki salió el proyecto que fue presentado el pasado día 31 a la CYTED.
Una parte relevante del proyecto es el compromiso de que datos, métodos, resultados y documentación serán públicos. La otra es el propio proyecto que, aparte de reuniones y cursos de formación mutuos, analizará el posible impacto del cambio climático sobre la distribución de los ecosistemas forestales de cada país.

Dicho así suena fuerte pero el esquema es simple: supongan que un bosque aparece a media ladera de una cordillera. Analizando el clima nos damos cuenta de que la zona donde aparece ese bosque coincide con bastante fidelidad con una combinación de temperaturas máximas menores de 25ºC (límite inferior en altitud) y mínimas superiores a -5ºC (límite superior en altitud).
Si un modelo de cambio climático señala que las temperaturas máximas aumentarán 2ºC y las mínimas se reducirán 3ºC (incremento de la continentalidad por tanto), la consecuencia previsible es que el bosque reducirá su extensión porque el límite inferior subirá en altitud y el superior bajará estrechando la zona compatible.
Basándonos en este método, el proyecto plantea generar las zonas compatibles para los principales bosques de todos los países que intervienen en la Red a partir de datos climáticos actuales. Y luego, en la fase siguiente, se repetirán las estimaciones modificando los mapas climáticos de acuerdo con los 4 modelos de cambio climático (MCC) más extendidos y 4 escenarios posibles (crecimiento sostenible, exponencial...).
La idea es comparar la distribución actual con la prevista por todos los MCC y ver qué se gana, qué se pierde y dónde.
Lógicamente, la cosa es algo más compleja que lo escrito arriba. Sólo en cuanto a los métodos estadísticos posibles llevamos trabajando tres años en nuestro grupo, realizando ensayos controlados con una docena de opciones y analizando los resultados para descartar algunas opciones y usar otras.

Mapa de distribución potencial del roble (Quercus petraea) en la Liébana (Cantabria) construido a partir de variables climáticas, topográficas y litológicas.

Fíjense que no hemos dicho nada sobre la exactitud o no de los MCC porque este ejercicio no la da por supuesta ni mucho menos. Es más, está previsto analizar los siguientes parámetros:

coherencia de las previsiones de los 4 MCC para cada variable climática (usamos 19) en cada tipo de escenario en cada país.
coherencia de las previsiones de cambios de distribución de cada bosque en cada tipo de escenario y en cada país.

El motivo es que puede pasar que los MCC predigan cosas distintas entre sí lo cual, según la magnitud de la discrepancia, generaría fuertes sospechas sobre los modelos y, ya de paso, invalidaría los posibles resultados. En cualquier caso, se analizará si existen zonas para las que todos los MCC predicen lo mismo: pérdidas, ganancias o ausencia de cambios en la extensión del bosque.

¿Cuál es la utilidad práctica de esto? Pues que al sectorizar las zonas de cambio y estabilidad datos información para orientar las políticas de gestión ambiental. Por ejemplo, sería razonable que las zonas de bosque que previsiblemente van a perderse sean prioritarias a la hora de destinar recursos para su estudio mientras duren, que las que supuestamente van a mejorar puedan protegerse de actuaciones agresivas basadas en que ahora no valen demasiado y que las que van a seguir igual puedan preservarse manteniéndolas como están. Claro que plasmar esto en normativa legal es una parte en la que nosotros ya no entramos.

Para finalizar: una de las peculiaridades de todo este asunto es que prácticamente todo lo necesario para llevar adelante este proyecto está disponible en internet sin restricciones de ningún tipo:

Documentación:

Modelos de cambio climático: CGCM2 (Coupled Atmosphere Ocean General Circulation Model, Canadian Center for Climate Modelling and Analysis), CSIRO2 (Commonwealth Scientific and Industrial Research Organization), HadCM3 (UK Hadley Centre for Climate Prediction and Research) y PCM (Parallel Climate Model, US National Center for Atmospheric Research)
Escenarios: se plantearán los denominados SRES-A1, A2, B1 y B2, descritos en The SRES Scenarios cuya descripción exhaustiva puede encontrarse en el Special Report of Emission Scenarios.

Datos:

de clima actual: descargables en la base de datos WorldClim de la Universidad de Berkeley.
previsiones de cambio: Tyndall Centre for Climate Change Research.
todo junto a diversas resoluciones en Climate data de DIVA-GIS.

Programas:

el mencionado DIVA-GIS
Sextante, una iniciativa extremeña libre y gratuita.

El desenlace en noviembre.

22 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (y, por fin, 5)

La técnica definitiva para obtener resultados completamente independientes de los anteriores fue una combinación de escalamiento multidimensional (MDS, multidimensional scaling en guiri) y análisis de Procrustes (la Wikipedia nunca dejará de sorprenderme).
En una explicación casera pero comprensible, el MDS toma una matriz de distancias (o similitudes) y construye un mapa en un espacio n-dimensional de forma que a cada objeto en la matriz se le asigna una localización que respete al máximo el conjunto de distancias originales.
Un ejemplo simple: abajo tienen las distancias entre cinco ciudades españolas. El MDS les asigna las coordenadas de la derecha que, en este caso, permiten representarlas en un plano.

Que el espacio de representación sea de dos dimensiones o más depende de las relaciones entre los objetos y de su número. Lógicamente, deben usarse las dimensiones necesarias para que la fidelidad con la que el “mapa” representa la matriz sea suficiente lo cual se decide a través de los estadísticos pertinentes. El aspecto de este mapa es el siguiente:

La representación en este espacio común no tiene porqué coincidir con la del espacio geográfico aunque en este caso no se diferencia demasiado.

Lo que hicimos en nuestro trabajo fue someter a esta técnica la totalidad de matrices de similitud florística, conectividad por vientos, etc. Como resultado obtuvimos los correspondientes mapas que, en este caso, algo más complejo, son tridimensionales. El MDS se aplicó mediante el algoritmo PROXSCAL desarrollado en la Universidad de Leiden. Si alguien quiere ver los entresijos del método puede descargar este PDF. PROXSCAL estaba incluido en la versión 11.5 de SPSS de la que disponíamos de licencia campus.
Vale, ya hemos conseguido una tonelada más de ficheros con coordenadas ¿y ahora qué?

El uso del MDS se debió a que habíamos encontrado una técnica idónea para comparar el ajuste entre los distintos mapas obtenidos. Esta técnica, llamada transformación de Procrustes, superpone dos mapas e intenta, mediante giros, traslaciones y cambios de escala, ajustarlos lo mejor posible. Siguiendo con el ejemplo de las ciudades, supongamos que hemos hecho otra matriz pero de tiempos de acceso en vez de distancias. La sometemos al MDS y luego las superponemos en un espacio común rotando, escalando y desplazando la segunda sobre la primera hasta reducir al mínimo los desajustes. El resultado gráfico sería algo así como lo siguiente:

Donde los vectores de color naranja son los errores del ajuste (normalmente el ajuste no es perfecto). Estos vectores o residuos nos permiten calcular un estadístico que nos expresa el éxito de la operación y que puede usarse como estimadores del grado de asociación entre las matrices que dieron origen a los mapas.

Podrán suponer lo que sigue: la transformación de Procrustes se aplicó a todos los pares de mapas de similitud florística con la conectividad máxima, distancia geográfica y tiempos de separación geológica. Y los resultados del proceso fueron los valores de ajuste entre las matrices así como su significación estadística. Como en el caso de PopTools, tuvimos la suerte de que hay gente generosa por ahí afuera y los análisis fueron realizados con un programita llamado PROTEST gracias a que Donald A. Jackson tuvo a bien ponerlo en internet a libre disposición. PROTEST no sólo realiza la transformación y calcula el ajuste sino que nos da la significación del mismo mediante técnicas de aleatorización. El resultado es un estadístico de ajuste llamado m² y su valor de significación P.
La significación estadística se expresa mediante valores de P, un símbolo que representa la probabilidad de que los ajustes observados se deban al azar, es decir, no reflejen relaciones reales entre las matrices originales. Por tanto, si P es pequeño nos ponemos muy contentos. Echemos por fin un vistazo a los resultados finales. Recuerden que estamos comparando entre hipótesis: el que tenga el menor valor de P gana.

Los resultados pueden resumirse de la forma siguiente: la hipótesis de la dispersión a larga distancia por el viento muestra unos valores de ajuste extremadamente significativos y siempre mucho más elevados que las hipótesis alternativas. Sólo en el caso de los helechos la distancia geográfica tiene una significación estadística equivalente.
La vicarianza aparece como una hipótesis claramente insuficiente para explicar la similitud actual de los tres primeros grupos taxonómicos estudiados. No hemos podido incluir a los helechos en este análisis. El motivo es que el número de localidades que pertenecieron a Gondwana y donde este grupo está presente en la actualidad es muy reducido, ya que por motivos climáticos no crecen en la Antártida ni en las islas subantárticas. Al no poder incluir estas localidades en los análisis, el tamaño de la muestra se reduce excesivamente. Insistiremos aquí en que una parte de las islas actuales es de origen volcánico y relativamente reciente, por lo que la vicarianza en versión "dura" nunca podría explicar la presencia de las especies en la actualidad: estas islas nunca formaron parte de Gondwana.
La hipótesis geodésica, basada en la distancia actual, se ajusta bien sólo en el caso de los helechos. En el resto, la significación estadística es siempre mucho peor que la correspondiente a la dispersión eólica.
Como conclusión, los análisis aportan una evidencia sólida a favor de la dispersión eólica a larga distancia como factor determinante de la similitud florística en los grupos que hemos analizado. Paralelamente, se muestra que la vicarianza no es un mecanismo que explique la presencia o ausencia de las especies actuales, aunque tal vez pueda serlo a niveles taxonómicos más generales. Y además, todo se hace con datos objetivos, públicos e independientes.

Una cosa en la que quiero insistir es en el coste económico de este trabajo: cero. Esto quiere decir que no hemos tenido financiación y una buena parte del trabajo se ha hecho con datos y software gratuitos. Incluso el análisis de coste anisotrópico podría hacerse hoy con una excelente aplicación libre llamada SEXTANTE.
Finalmente, también es bueno comentar que a lo largo de este trabajo hubo que estudiar. Y mucho. Nunca habíamos usado las técnicas que finalmente se utilizaron por lo que la bibliografía revisada buscando soluciones a los problemas que iban surgiendo fue grande. Y no se trata sólo de encontrar las técnicas sino de aprender a usarlas con la mínima solvencia como para estar seguros de no cometer errores básicos, siempre posibles cuando uno se aventura en terrenos desconocidos.
Y como se dice en las charlas: quedo a su disposición para lo que quieran preguntar, el culebrón ha terminado.

20 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (4)

Disponemos ya de las 4 matrices de similaridad, una de distancia geodésica, otra de vicarianza y un par de centenares de conectividad por viento. El siguiente problema es comparar las primeras con el resto.
La comparación de matrices se hace habitualmente mediante el test de Mantel y ese fue nuestro primer análisis.
El test de Mantel estima la correlación existente entre dos matrices, pongamos A y B. La hipótesis nula es que los valores de ambas matrices no están correlacionados linealmente y la alternativa que existe una correlación superior a lo que cabría esperar por azar. El estadístico resultante es un coeficiente de correlación con rango entre -1 y +1.
Su significación estadística se estima mediante aleatorización: las filas y columnas de la matriz B se permutan al azar y para cada caso se calcula el estadístico correspondiente. Se supone que estas permutaciones, de ser cierta la correlación, tenderán a empeorar el coeficiente de correlación y, en caso contrario, harán que fluctue al azar. Tras realizar un número elevado de permutaciones, la posición relativa del estadístico inicial en la lista ordenada de coeficientes permite asignarle un valor de significación. En esta publicación se da la formulación, más detalles y algunos ejemplos del test.
Aquí aparece uno de los problemas típicos de muchos trabajos y que nunca sale a la luz: hay que localizar un programa que haga el test y, dado que nuestra vida es finita, que no nos la complique demasiado con su funcionamiento y los formatos de entrada y salida de datos.
Una búsqueda cuidadosa y bastante buena suerte hizo que diéramos con PopTools, que nos solucionó el problema. Aprovecho para hacerle publicidad: PopTools es un módulo para MS Excel desarrollado por Greg Hood del CSIRO (Australia). Además de añadir docenas de funciones matriciales, de simulación y procesos estocásticos, es gratuito y puede descargarse vía internet.
Poptools trata al usuario con amabilidad y nos permitió calcular con aceptable rapidez todos los coeficientes de correlación y su significación estadística. La representación gráfica de los resultados para los musgos es la siguiente (para el periodo inicial, actualmente tenemos una serie más amplia):

[pinche encima para ampliar]

En abscisas tenemos la serie temporal con los intervalos de 10 días. En ordenadas se representa el coeficiente de correlación. La línea rojiza sobre el valor 0.2 corresponde a un nivel de significación de 0.001.
Al ver estos nos convencimos de que íbamos por el buen camino. Los resultados mostraban correlaciones muy significativas entre la conectividad por vientos y la similaridad florística durante dos tercios del año. La correlación muestra ciclos anuales ya que al aproximarse el fin de año sus valores caen incluso por debajo de la línea de significación del 0.001. Los gráficos para hepáticas y líquenes son muy similares y sólo difiere el de los helechos donde no se observan los descensos de correlación de fin de año. Discutiremos el significado de estas diferencias en el último post.
Esta fase del trabajo muestra una relación muy significativa entre los vientos y la similaridad florística. Lógicamente había que compararlos con los de la hipótesis neutral. Para ello elegimos los periodos de máxima conectividad anuales, donde la colonización es más probable y los comparamos con la proximidad geográfica. Los resultados fueron los siguientes:

Podemos observar que los valores para la hipótesis neutral (columna de proximidad geográfica) o r(GP) son menores que los de viento r(WC) pero no mucho. De hecho, si comparamos por ejemplo 0.579 que es el r(GP) para musgos y 0.617, el r(WC) de 2003, la diferencia no es estadísticamente significativa para el tamaño muestral que tenemos.
Sin embargo, hay un argumento que el editor y los referees aceptaron y que es el siguiente:

tomados individualmente no podemos rechazar la hipótesis nula H0: r(WC) = r(GP)
pero estamos analizando un conjunto de 20 pares de coeficientes de correlación que pueden considerarse por su naturaleza de forma conjunta
en este conjunto, 17 de los 20 coeficientes r(WC) son mayores que los correspondientes r(GP) y sólo 3 son menores (los subrayados) lo que expresamos como 17-3.
si la hipótesis nula es cierta, esperaríamos encontrar valores de r(WC) mayores y menores que r(GP) aproximadamente a partes iguales: 10-10.
La suma de probabilidades de encontrar los resultados actuales (17-3) o peores (18-2, 19-1 y 20-0) por azar es 0.0007.

La idea, por tanto, es que existe una señal ahí que sobresale del ruido y que nos dice que el viento funciona mejor como variable explicativa que la mera distancia ya que la probabilidad de que los valores encontrados se deban al azar es muy baja. Aún así, con esta prueba no podíamos quedar contentos ni suponer que habíamos obtenido resultados definitivos. Además, siempre estaba ahí la sospecha de que los coeficientes podían ser inadecuados porque para estimarlos es necesario calcular desviaciones estándar y el significado de ese parámetro pierde sentido con distribuciones no gaussianas. La normalidad, podrán suponer, no es una condición que a los coeficientes de similaridad les apetezca cumplir ni de lejos.
Era necesario, por tanto, buscar una alternativa diferente a los tests de Mantel. Ya les adelanto que será una mezcla de dos técnicas llamadas respectivamente escalamiento multidimensonal y análisis de Procrustes. Y no se preocupen, que bajo esos nombres un tanto intimidantes subyacen métodos muy simples de entender.

13 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (3 de media docena o así)

Todos sabemos que llegar de un sitio a otro en bicicleta depende, forma física aparte, de dos factores: la pendiente y el viento. En nuestro trabajo la pendiente no es una variable relevante ya que estamos sobre la superficie del mar. Pero el viento sí lo es. Si echamos un puñado de esporas al aire desde A y no hay viento, caerán a nuestros pies. Si el viento sopla hacia B llegarán más fácilmente si la velocidad es alta y menos si es baja. Si el viento sopla en dirección contraria, no llegarán. Todo tipo de situaciones y ángulos intermedios son posibles. Este conjunto de obviedades nos conduce a un tipo de cálculo llamado "de coste anisotrópico” y que, en nuestro caso, mide el coste o esfuerzo para llegar de A a B sobre un campo de vientos. Por ejemplo, en la figura de abajo, viajar desde la esquina inferior derecha hasta la superior izquierda tiene un coste mucho menor que al contrario (los colores representan la velocidad del viento).

Fragmento de mapa de vientos con la velocidad representada por el color

Nuestro objetivo es fácil de suponer: vamos a calcular el coste de ir desde cada uno de los 27 lugares estudiados a todos los demás. De ahí saldrá una matriz de conectividad que podrá ser comparada con las de similaridad florística.
En esta fase del trabajo nos encontramos con un par de problemas. El primero es de software: sólo encontramos dos aplicaciones que hicieran cálculo de coste anisotrópico y sólo teníamos opción de probar una gracias a una licencia de unos colegas.
Costó lo suyo porque, aunque las opciones de cálculo son muy completas, el programa no es demasiado amable y tampoco era muy evidente cómo poner la aplicación a funcionar sin que todo saliera con valores nulos o absurdos por defectos de diverso tipo, a veces bastante esotéricos. Al cabo de unos días de reunión y cachondeo en Cáceres (lo cortés no quita lo valiente) conseguimos que todo funcionara correctamente y se generaran mapas de accesibilidad (o su inversa, coste). Para construir un mapa sólo es necesario introducir el punto de origen (por ejemplo, las coordenadas de Bouvet) y situarlo dentro de una matriz de unos pocos miles de filas y columnas donde cada celdilla contiene los valores de acimut y de velocidad del viento. El resultado es un mapa como el de abajo, que representa el coste desde Bouvet (a la izquierda, al borde de la zona blanca) hasta el resto del territorio para el periodo 1-10 de febrero de 2002. Colores claros representan conectividad alta (coste bajo) y viceversa.

Mapa de accesibilidad desde Bouvet. Proyección polar estereográfica con centro en el Polo Sur

Lo primero que salta a la vista es la estructura circular del coste asociado al viento en el sentido de giro de las agujas del reloj: es más fácil que Bouvet conecte con el otro lado de la Antártida que con Sudáfrica, aunque esté geográficamente mucho más cerca. Eso significa que el viento muestra patrones muy diferentes a la hipótesis neutral (isotrópica) y, veremos más adelante, a la de vicarianza.
Pero ya hemos dicho que los vientos cambian. Por ese motivo, estos modelos de coste (uno para cada lugar) se calcularon sobre los vientos existentes en periodos de diez días: actualmente tenemos un total de 36 modelos por año x 5.5 años x 27 lugares = algo más de 5300 modelos (pronto analizaremos el año 2006).
El conjunto de modelos representa la evolución espacial y temporal de la conectividad en esta amplia zona del Hemisferio Sur con lo que podemos construir las matrices de conectividad (unas 200) sin más problemas que no hacerse un lío con los números y los directorios.
Al final de esta etapa el proyecto ocupaba algo más de 230 Gb en el disco del ordenador y llegaba la hora de empezar a comparar matrices y sacar resultados.

09 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (2)

Nos quedábamos el otro día con el cálculo de las 4 matrices que representan la similaridad florística para los 4 grupos estudiados entre los 27 lugares del trabajo. Lo que ven a continuación es un trocito de la matriz correspondiente a los musgos para las primeras cinco localidades. Los coeficientes están en el rango 0-1.

Obviamente, los problemas para construir las matrices de “distancias” de acuerdo con cada una de las hipótesis que queremos comprobar son distintos en cada caso.

La más simple es la distancia geográfica, que calculamos a partir de las coordenadas geográficas de los lugares. Al ser curva la superficie terrestre, el cálculo de la distancia no es inmediato pero hay “calculadoras geodésicas” que nos dan la solución para dos puntos cualesquiera situados sobre un elipsoide que se usa como modelo de la superficie terrestre. Con esta calculadora el cálculo de las distancias y su estandarización en el rango 0-1 es cuestión de media hora. La matriz inferior muestra los valores para las mismas localidades que la de arriba.

La matriz correspondiente a la hipótesis de la vicarianza es más incierta y necesita una breve explicación. Las zonas que hemos definido pueden dividirse en dos grupos: las que han estado unidas alguna vez en el supercontinente Gondwana y las que no. Gondwana se fragmentó progresivamente desde hace unos 200 millones de años y la hipótesis de la vicarianza defiende que la similaridad florística será inversamente proporcional al tiempo que hace que se separaron las diversas zonas. Lógicamente, es necesario establecer ese tiempo, cosa nada fácil para nosotros que, además, no nos lo creíamos. Para evitar problemas, usamos los datos de Isabel Sanmartín y Fredrik Ronquist de la Universidad de Uppsala y cuya representación gráfica (cladograma geológico, lo llaman) les pongo a continuación. Sanmartín y Ronquist son partidarios de la explicación vicariancista por lo que sus estimaciones son las más adecuadas para no introducir prejuicios por nuestra parte (eso queda bonito y científicamente correcto, en realidad es no tenemos mucha idea de este tipo de cálculos).

De estas distancias temporales se derivan de forma inmediata la matriz de distancias que usaremos en las pruebas estadísticas. Observarán, sin embargo, que no disponemos de datos para los 27 lugares, lo cual es lógico porque hay algunos que no existían hace ese tiempo. Por poner un ejemplo, Bouvet es una isla volcánica relativamente reciente por lo que no podemos establecer un vínculo geológico con Gondwana. La reducción del tamaño de muestra tendrá como consecuencia un aumento de la incertidumbre estadística y tal vez invalide los resultados pero eso nos lo dirán los estadísticos.

Finalmente, deberíamos calcular las distancia sobre el viento y eso es algo más complicado.
Hasta el momento del trabajo, los datos sobre el viento se limitaban a los tomados por globos sonda, boyas meteorológicas y barcos. Los resultados eran mapas sinópticos como el siguiente:

Y con eso no podemos hacer nada porque se trata de trayectorias genéricas trazadas a partir de datos dispersos. Pero desde junio de 1999 la solución estaba volando a 800 km de altura.

Se trata de un satélite de la NASA que lleva un “Quick Scatterometer” (QuikSCAT para los amigos) del que ya les hablé anteriormente. Lo mejor del asunto es que los datos de viento son de cobertura mundial (sobre los océanos), con una resolución mínima de 25 km y tomados diariamente. Además pueden descargarse libremente en el ftp del PO.DAAC con lo que seguimos sin gastar un euro en información.
Abajo tienen un mapa grosero (la densidad de datos es mucho mayor) de los vientos medios del día 5 de enero del 2001, donde el acimut se representa por la flechitas y la velocidad por el color.

Tras descargar unos cuantos gigas de datos en bruto tuvimos que invertir un par de meses en desarrollar el flujo de trabajo que permitiera leer los ficheros originales y transformar los datos a un formato legible por nuestras aplicaciones informáticas y a una proyección geográfica adecuada para el análisis. El que quiera ver una explicación de estas fases de “trabajo sucio” pero imprescindible puede echar un vistazo a esta publicación. Como los vientos cambian, no es razonable hacer un único análisis promediando los valores sino que es necesario hacer múltiples análisis para periodos cortos de tiempo. Decidimos calcular la accesibilidad a intervalos de 10 días para lo cual calculamos los valores de acimut y velocidad medios para cada pixel del área de trabajo. El trabajo en esta etapa ocupaba 34 Gb en el disco.

En la próxima entrega del culebrón veremos como se usan los vientos para hacer el cálculo de la accesibilidad desde un sitio a otro: malos valores cuando el viento sopla en contra o no sopla y buenos valores con viento fuerte a favor. Como ir en bicicleta.

05 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (1)

Ya saben que una parte del conocimiento científico se adquiere proponiendo hipótesis que luego deberían ser sometidas a prueba. Sin embargo, la ciencia está llena de hipótesis que nunca han sido comprobadas a pesar de lo cual a veces se asientan fuertemente y adquieren la pinta de conocimiento consolidado cuando, en realidad, su validez es poco más que especulación.
Hace cuatro años, un colega y yo nos planteamos resolver uno de esos viejos problemas que estaban pidiendo a gritos algo de apoyo experimental.
El problema es muy simple de plantear: si examinamos las floras de diversos lugares del mundo encontramos similitudes y diferencias (Perogrullo dixit). Esta realidad se ha reflejado en mapas de provincias y regiones fitogeográficas donde el mundo se divide en zonas de flora similar. Pero estos mapas son sólo la representación de la realidad. La pregunta pendiente es ¿cuál es la explicación?

Para explicar la distribución global de las especies vegetales en el mundo se han propuesto varios mecanismos. Las hipótesis más extendidas son, muy sintetizadas, las siguientes:

Hipótesis de la vicarianza (HV), propuesta en la década de los 70, que propone que las similitudes y diferencias actuales dependen de la historia geológica de los continentes. Si un continente se fragmenta y estos fragmentos alejan a causa de la deriva continental, las poblaciones de todas las especies que vivían en él quedan aisladas entre sí. La evolución en cada fragmento será independiente a partir de la fragmentación porque no hay intercambio genético. Si esto es cierto, la flora de dos lugares será tanto más parecida como cercana haya sido su separación.
Hipótesis geodésica (HG), que propone que la similaridad entre dos lugares es función inversa de la distancia geográfica entre ellos. La idea subyacente es que cada lugar dispersa semillas, esporas y propágulos en general en todas direcciones y que la probabilidad de que lleguen a otro lugar depende de la inversa de la distancia.
Hipótesis de dispersión a larga distancia (HD), que propone un mecanismo similar al anterior pero donde la dispersión está dirigida por el viento por lo que la "distancia" entre dos sitios debe medirse como la facilidad de acceso mediante los flujos de viento existentes. El viento interviene como medio de transporte por lo que este mecanismo, si funciona, lo haría con semillas, esporas o fragmentos ligeros. Los cocos y los bisontes quedan excluidos.

Fíjense que la HV asume que la distribución actual de las especies depende de un proceso histórico de millones de años (más de 200 si partimos de la fragmentación de Gondwana), mientras que las otras dos suponen implícitamente que son procesos actuales de dispersión los que explicarían mejor esa distribución. La HG no excluye la dispersión por el viento pero la supone igual en todas direcciones (isotrópica) mientras que la HD la supone anisotrópica.

Este fue el panorama que me planteó J en una llamada telefónica a principios del año 2002. El reto era interesante y la primera pregunta evidente ¿estamos en disposición de solucionar esto? La respuesta dependía de dos cosas: un diseño experimental que permitiera contrastar las tres hipótesis y datos y herramientas suficientes para llevarlo a cabo.
Tras unas cuantas discusiones llegamos a un diseño experimental simple, al menos en principio (acuérdense de Hannibal Lecter citando, creo recordar, a Marco Aurelio: "Alice, simplicidad y primeros principios").

Elegir unos cuantos grupos de plantas que conozcamos bien y un conjunto de lugares para comparar, elaborar una lista de las especies que hay en cada lugar y calcular un índice de similaridad entre todos ellos. Por ejemplo, entre el sitio x y el sitio y tendremos una similaridad S(x, y) que es la misma que la S(y, x).
Calcular las "distancias" entre cada lugar x e y de acuerdo con cada una de las tres hipótesis. En el caso anterior tendríamos DHV(x, y), DHG(x, y) y DHD(x, y).
Comparar la similitud entre las diferentes D**(x, y) y las S(x, y)
Ganador: la hipótesis D** que tenga una mayor similitud con la S

Resuelto (¡ja!) el boceto de diseño experimental, pasamos a los datos. Empezamos por los biológicos: uno o mejor varios grupos vegetales o animales de lugares a diferentes distancias entre sí. Cuantos más mejor porque de esa forma será más fácil separar la señal del ruido. Pero ¿dónde? ¿en Europa? ¿en América de Sur?
Hoy veo que la decisión sobre el escenario que hizo J fue crítica: una buena parte del hemisferio Sur terrestre pero eligiendo, además de algunas zonas continentales periféricas, sitios realmente aislados entre sí: islas. El punto clave es la reducción del ruido en el modelo: el mar es un enorme sumidero que impide el transporte por tierra o en saltos sucesivos con lo que el escenario se "limpia" de transportes contaminantes (recordemos que dos hipótesis son de dispersión y la otra geológica).

Pueden suponer ustedes la tarea siguiente ¿qué grupos incluimos? Por motivos diversos elegimos cuatro: musgos, líquenes, hepáticas y helechos, que podrían tratarse independientemente para aumentar la fiabilidad del análisis.

A partir de ese momento, los componentes del grupo se pusieron a buscar datos en la bibliografía (yo me libré de esta etapa, ufff). J los musgos, P los helechos, A e I los líquenes. Semanas de búsquedas, peticiones y consultas, cientos de artículos, unas docenas de libros... que acabaron con la construcción de cuatro grandes checklists, una para cada grupo. La lista de lugares incluye desde Tierra del Fuego hasta Bouvet pasando por la Península Antártica: 27 lugares muy diferentes y distribuidos por todo el hemisferio austral.

Lugares incluidos en el estudio

Una checklist no es otra cosa que una tabla donde en las columnas están las especies, en las filas los lugares y en las intersecciones un 1 o un 0 en función de que la especie esté presente o no. Fácil.
Al final trabajamos con un total de 1851 especies incluyendo los cuatro grupos.

Las checklists permiten abordar la siguiente tarea con facilidad: el cálculo de un índice de similaridad. Utilizamos el índice de Ochiai que tiene en cuenta las especies compartidas o no entre cada par de lugares y que varía entre 0 y 1. El resultado de esta etapa es ya una referencia para el resto de los análisis: tenemos 4 matrices de similaridad de 27x27, una para cada grupo taxonómico. Obviamente, las matrices son simétricas y la diagonal es la unidad.
Es importante destacar que las matrices han sido construidas a partir de datos bibliográficos gratuitos y disponibles para todo el mundo. Algunos conjuntos de datos se pidieron a los especialistas y debemos reconocer que la respuesta fue rápida y positiva, aquí no hubo la cerrazón que dicen es tan característica en los científicos.

El siguiente paso es construir las matrices de "distancias" entre los 27 lugares correspondientes a cada una de las hipótesis a comprobar. Eso será en la próxima entrega.

GOLEM Blog

Mis datos

Lecturas

Archivo del blog

24 junio 2007

El gran viaje

04 junio 2007

EnRedados

22 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (y, por fin, 5)

20 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (4)

13 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (3 de media docena o así)

09 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (2)

05 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (1)

Páginas

Seguir el blog, fotos y demás en

Tal vez mis mejores posts

Navegando: un post al azar

Seguidores

Mapa de visitas y pagerank

Licencia

Mis datos

Lecturas

Para suscribirse al blog

Archivo del blog

24 junio 2007

04 junio 2007

22 febrero 2007

20 febrero 2007

13 febrero 2007

09 febrero 2007

05 febrero 2007

Páginas

Seguir el blog, fotos y demás en

Tal vez mis mejores posts

Navegando: un post al azar

Seguidores

Mapa de visitas y pagerank

Licencia