Categoría: Ciencia para pensar mejor

Virus, mapas y urnas

Gracias al interés por la evolución del Covid-19 los medios (bueno, algunos) han ido aprendiendo lo que es una gráfica logarítmica[1] (aquí tienen por ejemplo, los excelentes gráficos del Financial Times).  Esto está muy bien, pero todavía les faltan cosas por aprender. Por ejemplo para interpretar mapas como este de incidencia de Covid-19:

20200408_dgsp_tiac19_mundis_d43

Lo publican varios medios, por ejemplo El Confidencial y El Mundo, basándose en datos de la Comunidad de Madrid que se pueden encontrar aquí, en versión interactiva y, mejor aún, en formato excel.

Los periodistas están para procesar la información en bruto, señalar lo realmente significativo y hacer que la entendamos mejor ¿Qué nos explican aquí? El Mundo, tras mencionar los municipios con más contagios (que, señala, “no sorprenden al tratarse de los lugares más poblados de la comunidad”…) explica que:

Más interesante es el análisis de la tasa de contagios por cada 100.000 habitantes, que pone en relación la incidencia del virus con la cantidad de residentes Así, en el Corredor del Henares se localizan varios de los términos con mayor tasa de afectados. Se trata de SantorcazCorpaLos Santos de la HumosaMecoValverde de Alcalá o Villalbilla, todos con datos superiores a los de la ciudad de Madrid, que tiene 743 casos confirmados por cada 100.000 habitantes. En la misma zona, entre los municipios de más población destacan Alcalá de Henares (943), San Fernando de Henares (645) o Torrejón de Ardoz (562).

El Confidencial, por su parte, señala que

Leganés, los municipios cercanos a Alcalá de Henares y Arganda del Rey y las pequeñas localidades de la Sierra Norte son algunas de las zonas con mayor número de positivos por habitante.

¿Realmente es esto significativo? En realidad, en el mapa no se ve ningún patrón claro. Y llama la atención que junto a esas “pequeñas localidades de la Sierra Norte” con una altísima incidencia, aparecen otros municipios en blanco, en los que apenas hay casos. ¿No es también sospechoso que los municipios del corredor del Henares de los que habla El Mundo (Santorcaz, Corpa, etc) sean todos minúsculos?[2] .

Lo que en realidad estamos viendo no son datos significativos, sino un fenómeno muy conocido en estadística, pero, por lo que se ve, ignorado por los periodistas: que en las muestras pequeñas es mucho más probable encontrarse, por puro azar, valores extremos.

Imaginemos una enorme urna con seis millones y medio de bolas. De éstas, 40.000 son negras y las demás son blancas. Ahora supongamos que extraemos 48 bolas. Es probable que la proporción de bolas negras en esa muestra se aleje bastante de la de la urna: basta con que saquemos, por ejemplo, 1 bola negra, para que la proporción sea de 1/48=2%, muy por encima de la proporción de la urna que no llega al 0,7%. Pues bien: esa urna es la Comunidad de Madrid, las bolas negras son los casos confirmados de Covid-19… y la muestra de 48 bolas es La Hiruela, uno de esos municipios de la Sierra Norte con una tasa de incidencia astronómica: 9.000 casos por cada 100.000 habitantes, lo que que en términos absolutos son 5 enfermos.

Moraleja: es de esperar que los municipios más pequeños sea los “mas afectados”… y también los “menos afectados” (porque, si de esas 48 bolas no sale ninguna negra, ¡tenemos una incidencia de cero!).

Vamos a verlo en una gráfica (logarítmica, ya que nos hemos acostumbrado):

Efectivamente: todos los valores más extremos de la tasa de incidencia se concentran en los municipios (o distritos) de menos población. ¿Qué tenemos que hacer para encontrar lo realmente significativo, eso que deberían hacer los periodistas por nosotros? Esto:

Aquí representamos los casos confirmados, no las tasas, y calculamos una recta de ajuste que nos marca los auténticos casos anómalos: los municipios o distritos (estos, con el fondo coloreado) que están muy por encima o muy por debajo de la recta. Toda la nube de puntos pegada al origen son los municipios pequeños, y ahora se ve que no son para nada anómalos. Y se ve también que hay casos realmente curiosos, como que dos municipios vecinos, y aparentemente muy similares, como Getafe y Leganés estén en extremos opuestos. ¿Por qué? Quizá algún periodista que no se distraiga con las “pequeñas localidades de la Sierra Norte” lo investigue.

NOTAS:

[1] O mejor dicho semilogarítmica (con el eje y logarítmico y el eje x lineal)
[2] Salvo Meco, que casi llega a los 14.000 habitantes, pero tiene en realidad una tasa de 801 contagios por 100.000 habitantes, sólo un poco más alta que la media de la Comunidad de Madrid.

Imprevisible

Hay cosas imprevisibles desde cualquier punto de vista, incluso científico. Lo dice nuestra ministra de defensa en esta entrevista en El Mundo. ¿Es posible tal grado de imprevisibilidad? Veánlo ustedes mismos:

Postdata: una sugerencia de lectura para esta cuarentena:

La peste

Post anteriores:
Coronavirus: lo que los datos dicen a un físico
El coste exponencial de la inacción

Coronavirus: lo que los datos dicen a un físico

Una de las afirmaciones que más se repiten en esta crisis sanitaria que vivimos es que el análisis epidemiológico es muy complicado y que no se pueden hacer predicciones porque la situación es “dinámica” (expresión muy del gusto del gobierno últimamente), de modo que hay que ir actuando en función de los datos de cada día (y, como corolario, se deduce que nadie habría podido ver venir esto antes del 10 o el 12 de marzo… pero mejor no insistamos).

Todo esto puede que sea cierto si queremos predicciones exactas. Y suele creerse que la ciencia sirve precisamente para eso (otra expresión favorita de los portavoces del gobierno es que “hay que escuchar a los científicos”). Pero es un error muy común, y, lo estamos viendo, muy peligroso. La ciencia sirve, antes que nada, para hacer estimaciones de orden de magnitud. Y, por supuesto, que un fenómeno sea “dinámico” no significa para nada que no se pueda hacer tal cosa. Sólo hay que conocer cómo es esa dinámica. Y basta con conocerla de modo aproximado si sólo buscamos un orden de magnitud.

Esto se hace todos los días y a todas horas en física: nunca hagas un cálculo complicado  si no sabes lo que (más o menos) tiene que salir. Es una actitud tan enraizada en la profesión que el legendario John Archibald Wheeler la llamó “primer principio moral“. Esos complicados modelos epidemiológicos están muy bien, pero primero hay que saber más o menos lo que tiene que salir, y eso nos lo dice una estimación de orden de magnitud.

En el caso de una epidemia es de sobra conocido que la dinámica es aproximadamente exponencial. Y de este simple conocimiento se derivan consecuencias dramáticas. En este post voy a analizar los datos como lo haría un físico, si en lugar de una epidemia se tratara de cualquier otro fenómeno que crece exponencialmente. Me lo exige el principio moral de Wheeler. 

*

Decíamos hace ya una semana que las medidas que tomó el gobierno parecía que se estaban empezando a notar, y ahora se confirma sin ningún género de dudas. Con los datos de la última semana, los contagios se duplican cada 4,1 días y los fallecimientos cada 2,8 días. Antes del estado de alarma, los periodos de duplicación eran de 2,0 y 1,4 días, respectivamente: el ritmo de crecimiento de la epidemia se ha reducido a la mitad.

Es una buena noticia, pero ¿qué significa en concreto? Que los (redondeando) 42.000 contagiados y 3.000 muertos de hoy se convertirán dentro de una semana en unos 137.000 contagiados y 17.000 muertos [1].  Si eso le parece una barbaridad, piense que con las tendencias anteriores al estado de alarma tendríamos dentro de una semana 475.000 casos y 96.000 muertos (y ahora, si la cabeza no le da vueltas, puede calcular como ejercicio los miles de muertos que nos habríamos ahorrado si se hubieran tomado las medidas a la vez que Italia, el 8 de marzo en vez del 14…).

Todo esto lo podemos ver en la gráfica siguiente[2]:

ContagiosyMuertes_dia24_tendencia2

Se han dibujado las tendencias obtenidas con los 7 días anteriores al estado de alarma (“tendencia hasta el 13/03/2020”) y los 7 posteriores (“tendencia desde el 14/03/2020”). Una gráfica logarítmica como esta permite ver a ojo el tiempo en el que los contagios o muertes se multiplican por 10. Con la tendencia actual, por ejemplo, vemos en la gráfica que las muertes tardan unos 9 días en multiplicarse por 10. Ahora, para encontrar el periodo de duplicación basta dividir por 3,32[3]. Así, 9/3,32=2,7 (aproximadamente 2,8 días, como habíamos dicho).

Un detalle importante para que estas gráficas sean significativas es elegir bien el origen de tiempos. Ante todo, no conviene representar los datos en la etapa temprana de la epidemia, porque los números son muy pequeños y la escala logarítmica los magnifica (lo lo olviden: ¡entre 1 y 10 hay la misma distancia en vertical que entre 1.000 y 10.000!). Como siempre hay fluctuaciones que no son significativas, este pequeño “ruido”, nada importante,  se amplifica mucho. Por eso hemos tomado el origen de la gráfica de contagios en 100 y el origen de la gráfica de muertes en 10.

Por otra parte, hay que poner para cada país el origen de tiempos en una fecha equivalente: por ejemplo, el día en el que se alcanzaron los 100 contagios o los 10 fallecimientos. Un detalle sutil pero importante: el retraso no es el mismo si se mide por los contagios que si se mide por los muertos. En los post anteriores (por ejemplo aquí) las dos gráficas tenían el mismo origen de tiempo (el día del contagio nº100), y Alemania resultaba un caso anómalo entre los países europeos porque tenía un número excepcionalmente bajo de fallecimientos (sobre ese “misterio alemán” se había especulado mucho últimamente). Al medir el tiempo desde el fallecimiento nº10, Alemania deja de ser una excepción y está en la misma línea que Italia y Francia.

¿Qué significa esto? Que la epidemia está más atrasada en Alemania de lo que sugería el número de contagios, seguramente porque han hecho muchos más tests que el resto de países europeos (más sobre esto un poco más adelante).

[Un inciso: para interpretar las gráficas puede ser útil el dato de los retrasos: tomando Italia como referencia, los retrasos en la gráfica de contagios son:
España=8,5 días, Alemania=7,5 días, Francia=7 días; Corea está adelantada 2 días a Italia.
Y los retrasos en la gráfica de fallecimientos son:
España:=11 días, Alemania=18 días, Francia=10 días; Corea=0 días]

*

Ahora la cuestión es: ¿cuándo lograremos “frenar la curva”? La mejor manera de verlo es representar los casos nuevos en función del tiempo:

CasosNuevosDiarios

[Nota: no hay que preocuparse porque las gráficas sean más “ruidosas” que las anteriores ni porque falten datos en Corea, es normal -pero sería un poco largo de explicar-]

Las dos gráficas anteriores muestran que Italia llegó a un máximo hace tres días, tanto en casos nuevos como en fallecidos diarios, y pese al repunte del último dato, es lógico esperar que recupere la tendencia descendente. Tenemos tendencias similares a Italia (la tendencia se ve en la pendiente de la gráfica) así que podemos estimar que alcanzaremos el pico de casos nuevos dentro de 5 o 6 días y el pico de fallecidos diarios dentro de 8 (ya que nuestro retraso es, respectivamente, de 8,5 y 11 días).

¿Cuál será la altura de esos picos? Una manera burda de estimarla es suponer que las curvas de Italia y España se van a mantener paralelas, como han venido haciendo a grandes rasgos. En la gráfica de contagios la distancia es, muy grosso modo, un factor 2, y en la de muertes algo más. Seamos optimistas y dejémoslo en 2 para ambos datos. Como el pico en  Italia ha sido de 6.550 casos nuevos y 793 fallecidos en un día, redondeamos a 6.500 y 800 y multiplicamos por 2 para obtener esta estimación: el pico de casos nuevos diarios será de unos 13.000 y se alcanzará el 30 o 31 de marzo; el pico de fallecimientos diarios será de unos 1.600 y se alcanzará en torno al 2 de abril[4].

Son órdenes de magnitud, y ojalá me equivoque (¡por exceso!). Pero eso es lo que me dicen los datos, y me atengo al primer principio moral de Wheeler.

*

Antes he dicho que la evolución de los fallecimientos en Alemania está bastante más retrasada que la evolución del número de casos, y que una explicación verosímil es que allí se han realizado muchos más tests, de modo que se vio venir la epidemia antes.

Eso implicaría que su número de contagios reportados sería más cercano al real que el de España e Italia, que estarían subestimando este dato. Una manera de intentar confirmar esta hipótesis es representar la fracción que representan los fallecidos respecto de los contagiados. Si subestimamos el número de contagiados, esta mortalidad aparente será mayor. Digo “aparente” porque los fallecimientos se producen con cierto retraso sobre los contagios, y no siempre es el mismo para todos los pacientes.

He hecho dos estimaciones burdas, una con números totales, dividiendo el número de muertos por el número de contagiados cinco días antes (gráfica siguiente, a la izquierda); otra, dividiendo los muertos de cada día por los contagiados cinco días antes (gráfica siguiente, a la derecha). La segunda estimación es en teoría algo más correcta que la primera pero tiene más ruido porque los datos diarios fluctúan más que los acumulados. Aquí tienen las gráficas:

MortalidadEstimada

En los dos casos los resultados son similares: la mortalidad se situaría en torno al 15% para España e Italia, al 8 o 10% para Francia, y al 1% para Alemania y Corea (no hagan caso a los últimos datos de la gráfica de la derecha para Corea: tienen mucho ruido porque los números de fallecimientos y contagios son ya muy pequeños).

Suponiendo que los sistemas sanitarios español e italiano no son mucho peores que el alemán o el coreano (de modo que la mortalidad real debería ser similar), y suponiendo que en esos países se detecta el 100% de los casos (un poco optimista, pero es lo más sencillo), resultaría que el número de casos real en España e Italia sería unas 15 veces mayor que el oficial.

*

Repito: todo esto son estimaciones de orden de magnitud. Los fenómenos no son impredecibles por ser dinámicos y los datos hablan. Al tratarse de exponenciales puede haber un error importante, pero no creo que sea de más de un factor 2 más o menos un 50%, o de un par de días más o menos.  Ojalá me equivoque, repito, y que sea por exceso.

NOTAS:

[1] Hay que multiplicar los datos actuales por 2^(7/4,1) y por 2^(7/2,8)]

[2] Quizá sería más correcto representar los datos normalizados a la población (muertes por millón de habitantes) pero lo único que cambiaría es que las curvas se desplazarían ligeramente en vertical, pero también en horizontal, porque el origen de tiempos sería un poco distinto. Ambos desplazamientos casi se cancelan, así que no merece la pena.

[3] 3,32 es el logaritmo en base 2 de 10.

[4] El número total de contagiados y de fallecidos seguirá aumentando después de ese día, claro, pero más despacio. Cuándo empezarán a disminuir los contagiados y cuándo dejará de haber fallecimientos es más difícil de saber: para eso sí necesitamos un modelo epidemiológico.

[Actualización, 06/04/20] ¿Se cumplieron mis predicciones? Estas son las gráficas actualizadas para contagios y muertos diarios:

ResultadoPrediccionesTasasEl famoso “pico” no es  muy picudo (habría que haberlo advertido), pero las fechas son casi exactas en los dos casos. Afortunadamente, me equivoqué por exceso en los valores: en vez de 13.000 contagios diarios (el 30 ó 31 de marzo), hemos alcanzado 8.195 (el 1 de abril) y en vez de 1.600 muertos diarios (el 2 de abril) hemos llegado a 961 (justamente el 2 de abril). Como se aprecia en la figura, hasta la fecha de la predicción las tendencias eran muy parecidas a las de Italia; a partir de ese día, nuestras curvas se “aplanaron” respecto a las suyas: esa es la causa del (bendito) error en los valores absolutos de mis predicciones.

Hay que advertir sin embargo, que no hay motivo para el triunfalismo: haber superado el “pico” en las gráficas de casos diarios no se traduce en ningún cambio llamativo en los casos acumulados. Siguen creciendo, cada vez más lentamente, pero falta mucho para que nos parezcamos a Corea, y lo hemos hecho rematadamente mal en comparación con ellos:ResultadoPrediccionesAbs

 

El coste exponencial de la inacción

Sólo tres días después de su implantación, las medidas que tomó el gobierno parece que se están empezando a notar, para bien. Con la tendencia hasta el 13 de marzo, los contagios se duplicaban cada 2 días y las muertes cada 1,4 días. Con la tendencia desde el 14 de marzo el ritmo es menor: los contagios se duplican cada 3,3 días y las muertes cada 2,5 días.

O de otra manera equivalente:

  • antes, en 6,8 días los contagios se multiplicaran por 10; ahora hacen falta 10,8 días
  • antes, en 4,8 días las muertes se multiplicaban por 10; ahora hacen falta 8,3 días.

Esto se puede apreciar muy bien en las siguientes gráficas:

ContagiosyMuertes_dia17_tendencia1

Hay que tener cierto cuidado con el lenguaje: uno está tentado de decir que se está “frenando la epidemia”, pero no es así: las muertes siguen aumentando, y por ahora a un ritmo vertiginoso, sólo que no tan vertiginoso como antes. Las medidas funcionan, pero un crecimiento exponencial no se para de un día para otro.

Ahora bien, ¿qué efecto habría tenido tomar medidas antes? El 8 de marzo se decretaba el aislamiento de la Lombardía y otras 14 provincias italianas, mientras en España el gobierno alentaba a participar en la manifestación del 8M¿Qué hubiera ocurrido si, mirándonos en el espejo de Italia, hubiéramos decretado la cuarentena a la vez que ellos? Aquí tienen las gráficas: 

ContagiosyMuertes_dia17_tendencia2

La línea verde de trazos es la proyección de los datos si la evolución que ha comenzado el 14 de marzo hubiera empezado el día 8. ¿Cuántas víctimas nos habríamos ahorrado? Vamos a verlo.

La siguiente tabla muestra, en la primera fila, los contagios y fallecimientos esperables si se hubiera mantenido la tendencia seguida hasta el 13 de marzo. La segunda fila muestra los datos reales de ayer: el total de contagios es un 82% del esperable y el de muertes el 53%. Es una mejora muy grande, sí, y es una buena noticia, pero si se hubiera actuado a la vez que Italia estaríamos mucho mejor: los números serían del 31% y el 25%.

TablaPredicciones

 

En resumen, mirando ahora a los números absolutos:  llevamos 9.942 contagiados y podríamos llevar 3.702; llevamos 342 muertos y podríamos llevar 158. Seis días de inacción nos han costado a día de hoy unos  6.240 contagiados y 184 muertos. 

Pero la cosa es bastante peor en realidad, por dos razones.

Primero, hemos hablado del coste hoy, pero el coste crece cada día… exponencialmente. En efecto, la distancia entre las líneas de trazos azul y verde es la estimación de lo que hemos perdido por el retraso. Se mantienen paralelas, pero eso es porque la escala es logarítmica: en realidad esa distancia constante representa un coste cada vez mayor: si en la gráfica de muertes corresponde hoy a unas 180, dentro de 8,3 días, cuando se prevé que las muertes se hayan multiplicado por 10, corresponderá a 1.800: mil ochocientas vidas perdidas. Y así sucesivamente: cuando el crecimiento es exponencial, el coste de la inacción crece exponencialmente con el tiempo.

Segundo, hemos supuesto que la tendencia inaugurada estos tres días se mantiene. Pero lo esperable, a la luz de la experiencia de Italia, es que con estas medidas restrictivas la pendiente vaya disminuyendo gradualmente (al fin y al cabo, para eso las tomamos: hasta que la gráfica no sea horizontal no habremos parado la epidemia). Si prolongamos nuestra tendencia hasta el 8 de marzo con la tendencia que adquirió Italia a partir de ese día, lo que obtenemos es la línea continua con puntos en verde:

ContagiosyMuertes_dia17_tendencia3

No llega hasta el último día porque Italia no nos lleva tanto adelanto, pero pueden ustedes estimar a ojo los contagios y los muertos que tenemos y no deberíamos tener (son bastantes más que los que da el cálculo anterior). Yo casi prefiero no hacerlo.

[Actualización, 19/03/20] Dos días después se confirman que los datos siguen muy de cerca la nueva tendencia inaugurada el 14 de marzo:

ContagiosyMuertes_dia18_tendencia2bis

Como las gráficas logarítmicas no son muy intuitivas para el que no está acostumbrado a manejarlas, he marcado los números sobre la gráfica. Ya expliqué que cada día que pasa el precio en contagios y muertes que hemos pagado por no actuar a tiempo va creciendo. Aquí tienen la tabla actualizada:

TablaPredicciones_dia18Seis días de inacción nos han costado a día de hoy (en realidad, a día de ayer) unos  9100 contagiados y unos 363 muertos. (las diferencias entre la segunda y la tercera filas). Son cotas inferiores, como expliqué al final del post… pero una vez más mejor no pensarlo.

*

Más sobre el coronavirus en este blog:
* El coronavirus exponencial [12/03/20]
* “No cabe descartar” dijo el presidente [14/03/20]

“No cabe descartar”, dijo el presidente

El presidente del Gobierno decía ayer “No cabe descartar que en la próxima semana alcancemos los más de 10.000 afectados”.

No cabe descartar, dijo el presidente. Veamos lo que dicen los datos.

La siguiente gráfica representa los casos declarados hasta ayer en España y otros cuatro países, contando el tiempo desde el día en el que se alcanzó el caso número 100. Estas gráficas comparativas se han popularizado en los medios, pero la nuestra tiene una diferencia importante: es logarítmica (como explicaba en el post anterior, eso significa que la distancia en el eje vertical entre 1 y 10 es la misma que entre 10 y 100, entre 100 y 1000, etc.)

Contagios_log_prediccion

Este tipo de gráfica tiene varias ventajas importantes:

  • Nos permite comprobar de un vistazo si el crecimiento es realmente exponencial (la gráfica es entonces una recta). Y efectivamente lo es en los cuatro países europeos, aunque Italia está consiguiendo disminuir ligeramente la pendiente (Corea lo hizo de manera espectacular muy pronto).
  • Podemos apreciar de un vistazo el tiempo que tarda en multiplicarse por 10 el número de casos. En España, aproximadamente cada siete días.
  • Eso nos permite hacer predicciones: si ahora tenemos 5.000 casos, dentro de una semana tendremos previsiblemente 50.000

¿Cómo de fiable es esa predicción? Si tenemos en cuenta que la tendencia desde que se declaró el caso 100 ha permanecido invariable (si acaso, la pendiente ha aumentado últimamente), y si tenemos en cuenta también que Italia, que nos lleva ocho días de adelanto, no ha conseguido apenas ralentizarla, yo diría que muy fiable.

Esto es lo esencial y lo puede entender cualquiera viendo la gráfica. Pero para que la cosa quede más científica, he ajustado una línea de tendencia, que aparece dibujada como una recta de puntos (la ecuación aparece en la figura). Resulta que el coeficiente de determinación R2 es de 0,99: el ajuste es muy bueno (el valor máximo de R2 es de 1). Con la ecuación de la figura y una calculadora pueden estimar con más precisión cuando se alcanzarán los 10.000 casos que “no cabe descartar” según nuestro presidente: para t=13,9 días. Como en estas gráficas t=0 está fijado el día 1 de marzo a mediodía, la predicción es que tendremos 10.000 casos para el día 13,9+1,5=15,4: mañana a mediodía.

[Aclaración (15/03/20): los datos cada día se conocen el día siguiente de madrugada;  la predicción es entonces que en los datos de la madrugada del 16 no habremos llegado a 10.000 y en los del día siguiente los habremos superado]

Hasta aquí hemos hablado de casos, es decir, de personas contagiadas. Pero lo realmente grave son los fallecidos. He aquí la gráfica:

Muertes_log_prediccion

Tenemos, con diferencia, la peor evolución. Hemos alcanzado a Italia, pero lo dramático no es eso, sino la pendiente. Las muertes se multiplican por 10 cada 4,8 días. ¿La predicción? 1.000 muertos el 17 de marzo, y 10.000 para el 21 o 22.

[Aclaración (15/03/20): esto significa que conoceremos esos datos el 18 y el 22 o 23]

Todo esto, claro, si no tomamos medidas realmente drásticas, como las de Corea. Aunque ni siquiera así se puede disminuir la pendiente de un día para otro.

[Actualización 16/03/20] Estas son las gráficas actualizadas. La predicción se realizó usando sólo los datos hasta el 13 de marzo. Parece que empiezan a reducirse las pendientes, sobre todo en la curva de fallecimientos. Ojalá se confirme los próximos días…

ContagiosyMuertes_dia16

(por cierto, las gráficas logarítmicas ya se están imponiendo en los medios más prestigiosos: aquí el Financial Times parece que me las hubiera copiado…)

[Actualización 17/03/20] Se va confirmando que desde el estado de alarma (en realidad, desde desde la víspera, día 13, cuando el presidente del gobierno lo anunció sin activarlo aún) cambia la tendencia. De hecho, ahora tenemos la misma pendiente que Italia, lo cual es bastante razonable porque hemos adoptado por fin unas medias parecidas. Ayer, además, el número de fallecimientos quedó bastante por debajo de la predicción: buenas noticias. Aquí están las gráficas:

ContagiosyMuertes_dia17

En el post hacía una predicción concreta, basándome en la tendencia hasta el 13 de marzo: que “si no tomamos medidas realmente drásticas (…) en los datos de la madrugada del 16 no habremos llegado a 10.000 contagios y en los del día siguiente los habremos superado“. ¿Qué ha ocurrido finalmente? Que ayer teníamos 7.844 y hoy 9.942: no hemos superado los 10.000 por muy poco, a pesar de que por fin se han tomado medidas drásticas. El crecimiento exponencial no se para así como así.

*

(Más sobre el coronavirus en el siguiente post y en el anterior)

El coronavirus exponencial

Uno de los problemas que estamos padeciendo en esta crisis del coronavirus es la desinformación. No es el más agudo, claro está, pero es importante, porque una sociedad bien informada toma decisiones más racionales, y eso, que siempre es conveniente, se convierte en esencial en una epidemia.

Es verdad que las radios, televisiones y periódicos no hablan de otra cosa, pero sus noticias son a menudo anecdóticas (tal o cual famoso infectado), irrelevantes (¡esas entrevistas a las señoras a la salida del Mercadona!), o, peor aún, buscan la rentabilidad política (y eso que ya hemos visto que el virus no distingue entre partidos: Irene Montero se contagia igual que Ortega Smith).

Incluso cuando los medios elaboran un especial informativo con las “claves para entender el coronavirus de Wuhan”, esa información exhaustiva no nos sirve en realidad para hacernos una idea clara de lo que ocurre. No sirve sobre todo por una razón: aunque pretenden informarnos sobre la evolución de la epidemia, no lo hacen. Lo que hacen es dar los números actualizados de muertos y contagiados. Y con eso no se entiende la evolución.

Entender la evolución de la epidemia es clave porque es lo que nos permite prever, al menos hasta cierto punto, lo que va a ocurrir, y por tanto tomar medidas adecuadas. Pero la evolución de una epidemia es sumamente antiintuitiva. Supongamos que cada infectado contagia a dos personas al día siguiente de ser contagiado y que ya no contagia a nadie más: una suposición muy optimista, que seguro que infravalora el caso del coronavirus. El primer día tenemos un infectado, el segundo dos más, el tercero cuatro más, el cuarto ocho más, y así sucesivamente. ¿Cuántos infectados tendremos al cabo de un mes?

La respuesta es que el día 31 tenemos 2^{31} -1=2.147.483.647: ¡más de dos mil millones! En un par de días más, toda la población mundial habría contraído el virus.

El problema es completamente análogo a la célebre leyenda del inventor del ajedrez, que pidió al brahman la modesta recompensa de un grano de trigo por la primera casilla del tablero, dos por la segunda, cuatro por la tercera, etc. No parecía mucho, pero al hacer la cuenta resulta que harían falta las cosechas de trigo del mundo entero durante más de mil años para pagarle (aquí lo explica la Wikipedia, además de demostrar la fórmula que he utilizado).

Quizá lo más interesante de esta historia es que seguramente usted la conoce, pero, a pesar de ello, probablemente ha infravalorado el número de contagios. Si no se toman medidas para evitar el contagio, el crecimiento de una epidemia es exponencial. Y nuestra intuición falla completamente ante un crecimiento exponencial. Incluso aunque estemos avisados, lo subestimamos sistemáticamente. Por eso dar el número de contagiados cada día no sirve. Sólo podemos hacernos una idea de su evolución si nos dan la gráfica. Por ejemplo, esto:

La gráfica la he elaborado yo con datos de esta extraordinaria página, que permite descargar en formato Excel los números actualizados de pacientes contagiados, fallecidos y curados para todos los países del mundo. Para cada país he desplazado el eje horizontal de manera que el día cero sea el día en el que se alcanzó o supero el número de 100 contagiados (he copiado la idea a Mark Handley que viene publicando este tipo de gráficas en su cuenta de Twitter).

Todos los países, salvo Corea a partir del día 7º u 8º, tienen un crecimiento aproximadamente exponencial. Y ya vemos aquí lo antiintuitivo que resulta: a la vista de la evolución de los 5 primeros días, no da la impresión de que se vaya a disparar el crecimiento como ocurre en Italia.

Hay, sin embargo, una manera mucho mejor de representar estos datos, un tipo de gráfica en la que “se les ve venir”. Se trata de poner la escala vertical de manera que las distancias no sean proporcionales a los valores sino a sus logaritmos: es decir, que la distancia entre 1 y 10 sea la misma que entre 10 y 100, entre 100 y 1000, etc. En esta escala logarítmica la gráfica de una exponencial es una recta. Y esto es lo que obtenemos con los datos del coronavirus:

Cualquier recta aquí es una exponencial, y su pendiente indica el tiempo que tarda en multiplicarse por 10 el número de contagiados.

Corea empezó muy rápido (al ritmo inicial, en dos días y medio se habrían multiplicado por 10 los contagios), pero ha conseguido vencer a la exponencial, y en el último tramo va camino de que se deje de aumentar el número de contagiados.

En contraste, los países europeos lo estamos haciendo mucho peor. Italia apenas ha conseguido disminuir la pendiente 18 días después de superar los 100 contagios, mientras que Francia y Alemania muestran una recta casi perfecta: cada 7 días y medio se multiplica por 10 el número de contagiados. El caso de España es el peor: ¡nuestra pendiente tiende a aumentar!

Esto es realmente dramático. Con los últimos datos, el número de casos en España se multiplica por 10 aproximadamente cada 6 días. En esta gráfica, actualizada a ayer, había 2.277 contagiados. Hagan la cuenta: a este ritmo, en 6 días habría 22.770, en 12 días 222.770, en 18 días 2.227.700…

Naturalmente, el crecimiento no puede seguir a ese ritmo: en un mes habría 222 millones y sólo hay 47 millones de españoles. Cuando casi todo el mundo está contagiado, el número diario de nuevos contagios tiene que disminuir a la fuerza. Pero no hace falta decir que esto no es ningún consuelo.

Para terminar, una gráfica que da que pensar: la del número de fallecimientos:

España no lo está haciendo nada bien: llevamos una tendencia peor aún que Italia. ¿Qué han hecho en Corea del Sur, qué hacen en Alemania? Deberíamos copiarlo urgentemente.

Actualización (13/03/2020): Añado gráficas con los datos de ayer; a sugerencia de un lector, ahora represento contagios y fallecimientos por cada millón de habitantes, lo que hace más correcto compararlos… y más evidente que somos el país que tiene una evolución peor (fíjense sobre todo el la pendiente de los últimos días, que es lo realmente crítico)

Contagios_log_dia13

Muertes_log_dia13

[Actualización 16/03/20] Estoy actualizando las gráficas en el siguiente post. El enlace que había utilizado para obtener los datos (este), muy bueno porque permite descargarse un excel con el histórico, no se actualiza desde el viernes, así que los datos nuevos los he obtenido, día a día, del panel informativo de la universidad Johns Hopkins.

Un discurso y dos problemas de Fermi (sobre el calentamiento global)

En el post anterior hablábamos de la superstición de la exactitud: la idea, implícita en toda la enseñanza obligatoria, de que un problema sólo puede tener una solución exacta, y si no la tiene o no la podemos obtener, entonces no hay nada que podamos decir sobre el problema. Con esta actitud se cultiva una visión en blanco y negro de la realidad: o tenemos una certeza absoluta sobre una cuestión o cualquier opinión es igualmente válida. Y así, en el ejemplo de las manifestaciones, la imposibilidad de contar a los manifestantes nos deja abandonados a la habitual “guerra de cifras” entre unos y otros.

Idolatrar la exactitud, paradójicamente (o no tanto: los extremos se tocan), nos entrega al relativismo y la propaganda.

Lo curioso es que esta actitud, que se pretende rigurosa y “científica” (y por eso la inculcamos en la escuela) es  diametralmente opuesta a la de la ciencia de verdad. La ciencia moderna sólo despegó cuando Galileo abandonó el ideal de precisión absoluta para proclamar que un acuerdo aproximado puede ser suficiente para confirmar una ley. Por ejemplo: una bola de piedra y otra de madera no tardan lo mismo en caer desde una torre, pero Galileo, en contra del rigor mal entendido de los aristotélicos, señalaba que la diferencia es suficientemente pequeña para afirmar que en realidad sí lo hacen… Sí lo hacen, bien entendido, en una realidad abstracta, idealizada, en la que el rozamiento del aire y otros “impedimentos materiales” no compliquen la simplicidad subyacente, esa que Galileo comparó a un libro escrito en caracteres matemáticos, donde podemos alcanzar el ideal de precisión.

La  ciencia, mucho más que un repertorio de “contenidos científicos”, es ante todo una actitud. Una manera de pensar que sólo funciona, como nos enseñó Galileo, gracias a la capacidad de hacer aproximaciones, de estimar los errores y de apreciar los órdenes de magnitud. Esas son las herramientas que permiten traducir nuestro confuso mundo cotidiano al lenguaje del libro de la Naturaleza.

Y el desarrollo de esta capacidad, dicho sea de paso, es lo que puede hacer que las asignaturas de ciencias tengan algo que aportar, “transversalmente” (como quieren nuestras leyes de educación), a la formación de ciudadanos responsables, autónomos y con espíritu crítico. Eso y no todas las fórmulas y fenómenos que se acumulan, inertes, en los libros de física de nuestro disparatado bachillerato de dos cursos…

Pero basta de discursos: pasemos mejor a un ejemplo concreto.

*

Todo el mundo ha oído hablar del calentamiento global y de cómo la principal causa son las emisiones de gases de efecto invernadero, sobre todo de CO2. Es un problema enormemente complejo si entramos en los detalles… pero aquí estamos para hacer aproximaciones. Así que en primera aproximación podemos escribir la cadena causal así:

Emisiones de CO2 ⇒ ­↑ [CO2] en la atmósfera ⇒ ↑­ T de la Tierra ⇒ ↑­ nivel del mar

La subida del nivel del mar -la amenaza más dramática del calentamiento global- es consecuencia del calentamiento de nuestro planeta, que a su vez se debe al aumento de la concentración de CO2 en la atmósfera por culpa de las emisiones humanas.

Pero todo esto es cualitativo. Para trabajar en el espíritu de Galileo lo primero es cuantificar. ¿Cómo de grandes son esos incrementos? Aquí traigo una gráfica para cada una de las principales magnitudes: la concentración de CO2, la temperatura y el ascenso del nivel del mar:

Variación de la concentración atmosférica de CO2 en los últimos años (Fuente:NASA).

 

Variación de la temperatura promedio de la Tierra en el último siglo (Fuente: NASA).

Ascenso del nivel del mar en las últimas décadas (Fuente: The Economist)

Midiendo a ojo la pendiente de cada gráfica encontramos estos incrementos en los últimos años:

Δ[CO2] ≈ 25 ppm/década (ppm=partes por millón)

ΔT ≈ 0,2ºC/década

Δhmar ≈ 3 cm/década

¿Podemos hacer algo con estos números? ¿Son razonables? ¿Tenemos que creerlos sin más o podríamos haberlos estimado, al menos en orden de magnitud? De momento vemos, con una regla de tres, que cada 100 ppm adicionales de CO2 se traducen en un calentamiento de 0,8ºC: hemos cuantificado el efecto invernadero, el eslabón principal de la cadena causal. Pero con este valor no podemos hacer gran cosa salvo creérnoslo. La relación entre CO2 en el aire y calentamiento no es en absoluto directa y es difícil estimarla sin bajar a los detalles de la física: espectros de absorción del CO2, ley de Planck, etc (aunque nunca se sabe: ¿se le ocurre a alguien una manera de hacerlo?).

Sin embargo, sí que podemos decir algo sobre el principio y el final de la cadena: estimar las emisiones de CO2 (al menos una parte importante), y también el ascenso del nivel del mar para un aumento dado de temperatura. Lo mejor es que no necesitamos calculadora y basta con saber unos pocos datos, casi todos conocidos -en teoría al menos- por un estudiante de bachillerato. En definitiva, que son cálculos que podemos hacer en un bar, con una servilleta de papel y un lápiz: lo que en física se llama back of the envelope calculation, la especialidad del legendario Enrico Fermi.

Así que les propongo dos “problemas de Fermi” (el primero es más fácil que el segundo):

1) Por lo que hemos visto en las gráficas, 1ºC de aumento de temperatura supone un aumento de nivel del mar de 15 cm. ¿Cuánto debería subir el mar debido a su dilatación térmica si ΔT=1ºC?

Pistas:

  1. Cuando un volumen V0 de agua aumenta su temperatura ΔT, se dilata un ΔV=βV0ΔT, siendo β el coeficiente de dilatación volúmica. Este coeficiente depende mucho de la temperatura: a 4ºC es 0, a 10ºC es 8·10-5 ºC-1 y a 20ºC es 20·10-5 ºC-1.
  2. El resto de los datos nos los inventamos, según lo que nos dicte nuestro sentido común.
  3. Para verificar nuestro resultado: curiosamente, este efecto de dilatación es más importante que la tan comentada fusión de los casquetes polares: da cuenta de aproximadamente 3/5 de la subida total del nivel del mar.

2) Estimar los kg de CO2 vertidos a la atmósfera en un año por un automóvil típico. A partir de este dato, calcular las emisiones de todos los vehículos de España y del mundo. A partir de este dato, estimar el aumento de la concentración anual de CO2 en la atmósfera.

Pistas:

  1. La gasolina es un hidrocarburo, formado por átomos de H y C. Como los primeros son 12 veces más ligeros que los segundos, podemos despreciar su masa.
  2. La masa atómica del oxígeno es 16 veces la del H.
  3. La densidad de la gasolina la tomamos como igual a la del agua.
  4. Consideramos que todo el CO2 vertido a la atmósfera en un año se queda en la atmósfera.
  5. No vamos a distinguir entre partes por millón en peso y partes por millón en átomos.
  6. La atmósfera ejerce una presión de 1 Kg/cm2 y el ecuador tiene una longitud de 40.000 km
  7. Suponemos que hay 45 millones de españoles y 7.500 millones de habitantes en el mundo.
  8. El resto de los datos nos los inventamos, según lo que nos dicte nuestro sentido común.
  9. Para verificar nuestro resultado: según se puede leer aquí, el transporte terrestre es el responsable de algo más del 15% de las emisiones de CO2.

*

¿Se animan ustedes? Cualquier intento de solución en los comentarios será bienvenido. Acabaré dando mis soluciones, pero sólo cuando haya pasado un tiempo prudencial…

*

Actualización: soluciones en el comentario del 23/11/19.

La Diada y la superstición de la exactitud

[Disclaimer: He elegido como ejemplo la Diada porque es una manifestación masiva que se repite todos los años, y porque he podido encontrar datos del recorrido para todas las últimas ediciones. Pero por desgracia, ocurre más o menos lo mismo con manifestaciones de todas las ideologías…]

La vida pública está llena de irracionalidades, pero una especialmente llamativa es la que aflora cada vez que una gran manifestación acapara los titulares. No falla: Si el colectivo A protesta contra el colectivo B, A dirá que la asistencia fue masiva y B dirá que sólo fueron cuatro gatos.

El sectarismo es consustancial al ser humano, pero de las instituciones oficiales deberíamos esperar una información más imparcial, ¿no? Bien, aquí pueden comparar los datos sobre la asistencia a las últimas Diadas, según la Guardia Urbana de Barcelona y la Delegación del Gobierno en Cataluña:

Ante tal grado de desacuerdo, y tan sistemático, está claro que no podemos confiar en la neutralidad de las instituciones… Es triste, pero ¿tenemos por eso que conformarnos con incertidumbres de casi un orden de magnitud?¿En una época en la que se ha medido la distancia de la Tierra a la Luna con una precisión de ±1 mm no va a ser posible contar el número de manifestantes en un margen de, digamos, ±100.000?

*

Naturalmente que es posible: basta alquilar una avioneta, tomar fotos de alta resolución y usar un programa de visión artificial para contar cabezas. Eso es lo que hizo una empresa llamada Lynce entre 2009 y 2011. Sus resultados fueron siempre órdenes de magnitud inferiores a los números pregonados por los convocantes, y casi siempre a los de los periódicos; recibió un aluvión de críticas por ello y tuvo que cerrar porque no llegó a ser rentable: los medios tampoco son neutrales y no estaban interesados en conocer los datos reales. Más información en este vídeo:

Es muy interesante que se obtuvieran siempre números drásticamente inferiores a los publicitados. La actividad de Lynce, y la polémica que generó, destapó lo que podíamos llamar un fraude informativo generalizado: el absoluto desinterés de los medios de comunicación por la verdad numérica, y su sometimiento a los intereses propagandísticos de los partidos políticos (y/o al sensacionalismo de los grandes números, porque generan más interés unas cifras hinchadas artificialmente que los datos reales). Posverdad numérica, lo llamé hace un par de años.

Lo cierto es que, pese a que lo hemos oído una y otra vez, ninguna manifestación ha reunido nunca a un millón de personas en España, como explica este magistral artículo de Alex Grijelmo. Ya en la época de Franco vitoreaban al Caudillo un millón de personas en la Plaza de Oriente… en la que difícilmente caben más de 40.000 (ver vídeo anterior, 1:05). Y desde entonces nada ha cambiado: el millón mágico se enarbola despojado de cualquier sentido cuantitativo, como si no fuera un número sino un mantra. Igual que en la Biblia “setenta veces siete” no significa “490 veces” sino “siempre”, el “millón” de manifestantes no significa que acudieran 106, sino algo así como “toda la gente decente de este país”.

*

El problema, claro, es que se nos quiere hacer creer que el “millón” de manifestantes es realmente 106, haciendo pasar por datos objetivos lo que no es más que propaganda. Y es muy sintomático el hecho de que nos traguemos el número, o que al menos no estemos alerta y lo cuestionemos. Esta indiferencia a lo cuantitativo nos está mostrando lo extendido que está el anumerismo en nuestra sociedad, y a la vez apunta a una de sus principales causas: la superstición de la exactitud.

Desde el colegio nos acostumbran pensar que las matemáticas consisten en hacer cuentas y que la única solución que vale para un problema es la solución exacta. Nunca se hace una estimación aproximada. El resultado es que casi todo el mundo cree, sin ser muy consciente de ello, que si no se puede conocer un dato con exactitud, no se puede conocer en absoluto. Así que nos parece normal resignarnos a que no se pueda saber cuántas personas han asistido a una manifestación.

Pero es justo lo contrario. La práctica de la ciencia nos enseña que la exactitud casi nunca es posible, pero casi siempre es innecesaria. Cuando los alumnos, educados en la superstición de la exactitud, llegan al laboratorio de física en 1º de carrera suelen dar resultados con ocho o nueve cifras decimales (¡las que quepan en la calculadora!)… pero no tienen ni idea del orden de magnitud de lo que tiene que salir (para reconocer cuando un resultado es absurdo), ni son capaces de estimar el error de sus resultados (para dar los decimales apropiados).

Si no fuéramos víctimas anuméricas de la superstición de la exactitud entenderíamos de inmediato que en realidad no es necesaria la avioneta, ni las fotos de alta resolución, ni el programa de visión artificial: todo esto es matar moscas a cañonazos. Porque no hace falta contar el número exacto de manifestantes. Lo único que necesitamos es una estimación aceptable, y teniendo en cuenta las enormes discrepancias entre las versiones de las partes interesadas, el margen de ±100.000 que decíamos más arriba ya sería un gran progreso.

*

Para hacer esa estimación basta saber los metros cuadrados ocupados por la manifestación y multiplicarlos por el número de personas que hay en cada metro cuadrado. Lo primero es muy fácil desde que existe Google Maps. Sólo hay que enterarse de qué calles ocupó la manifestación, algo que hicieron cuatro blogueros en El manifestódromo, por el simple procedimiento de darse un paseo y ver hasta dónde llegaba la gente. Sin apenas tecnología, dieron durante unos cuantos años unos datos mucho más fiables que los de toda la prensa… que naturalmente no adoptó su método. El blog cesó su actividad en 2012.

Pero incluso sin saber hasta dónde se extendió realmente la manifestación podemos tener una cota superior aproximada si conocemos su recorrido, porque muy pocas veces se llena éste al completo. Y en cuanto a las personas por metro cuadrado, es muy difícil que sean más de una en una manifestación que avance (es instructivo ver el vídeo de más arriba, a partir de 0:56).

En conclusión: simplemente calculando el área en metros cuadrados del recorrido de la manifestación tenemos una cota superior razonable para el número de manifestantes.

He aplicado este criterio a las últimas Diadas en la tabla siguiente (para cada año hay un enlace a una referencia que he usado para estimar las longitudes y anchuras; en 2013 la manifestación fue una cadena humana por toda la costa catalana, el dato es de la Generalitat).

Asistentes Asistentes
Año Recorrido Longitud
(m)
Anchura
(m)
Área
(m2)
Guardia
Urbana

Delegación
Gobierno

2012 Paseo de Gracia y Via Laietana 2700 50 1,35E+05 1,00E+06 6,00E+05
2013 Costa de Cataluña 415000 1,5 6,23E+05 1,60E+06 4,00E+05
2014 Diagonal+Gran Vía 9000 50 4,50E+05 1,80E+06 5,00E+05
2015 Meridiana 5200 40 2,08E+05 1,40E+06 5,20E+05
2016 Paseo de S Joan y Lluis Companys 1560 50 7,80E+04 8,75E+05 3,70E+05
2017 Paseo de Gracia y Aragó 3400 40 1,36E+05 1,00E+06 3,50E+05
2018 Diagonal 5900 50 2,95E+05 1,00E+06 No da datos
2019 Gran Vía – Paseo de Gracia, etc 3500 50 1,75E+05 6,00E+05 No da datos

 

La mejor forma de apreciar los resultados es en forma de gráfica:

Nuestra “cota superior razonable” para el número de manifestantes, dada por el número de metros cuadrados, es siempre muy inferior a la estimación de la Guardia Urbana (GU) -¡a veces en un orden de magnitud!- y casi siempre inferior también a los números dados por la Delegación del Gobierno (DG).

Pero lo más curioso es la correlación: nuestra estimación no tiene ninguna relación con los datos de DG (el coeficiente de correlación es despreciable, R=0,04) pero sus variaciones van acompasadas con las de los datos de GU (como se puede ver en la gráfica y demuestra el coeficiente de correlación, bastante alto: R=0,78).  Si a mí me presentaran estos datos sin saber de qué se trata, sospecharía que DG se los inventa, mientras que GU los obtiene de los metros cuadrados, mas o menos con esta fórmula:

N = 1,66·M + 725.000

siendo N los asistentes y M los metros cuadrados; lo que significaría que la Guardia Urbana mete a 1,66 personas por metro cuadrado… y añade unos tres cuartos de millón. Al menos, eso es lo que dicen los ajustes por mínimos cuadrados… 😉.

Población y poblaciones (¡Peligro: porcentajes!)

¿Qué porcentaje de las noticias de los medios consiste en dar un porcentaje? Es una interesante pregunta recursiva, que no sería difícil de contestar con un poco de trabajo de campo. Yo no lo he intentado, pero sí he hecho una pequeña cata en Google Noticias, y he encontrado 15.1 millones de resultados para “porcentaje” y 28.6 millones para “por ciento”. Si comparamos con 19.4 millones para “corrupción”, 18.9 para “crimen” o 95.2 para “guerra”, vemos que los porcentajes se codean con algunos de los temas más tratados por los medios (aunque por supuesto no tienen nada que hacer frente a “fútbol”: 480 millones de resultados).

Ahora bien, la pregunta importante sería, ¿qué porcentaje de esas noticias sobre porcentajes es correcto? Aquí habría que hacer mucho más trabajo para estimarlo, pero me atrevo a apostar que no es muy grande. Rara es la noticia que mencione un porcentaje que, de un modo u otro, no tenga algún error.

PeligroPorcentajes

Por ejemplo, aquí tienen dos noticias recientes reseñadas en Malaprensa: La recuperación reduce un 500% las quiebras empresariales en Baleares y El 93 por ciento de los españoles quiere abolir el cambio de hora. La primera es un disparate bastante obvio, en la segunda el fallo es más sutil… pero también está mal.

Aquí les traigo otra:

La Tierra ha perdido el 60% de sus animales salvajes en 44 años

EL titular es del ABC, pero podría haberlo tomado de muchos otros medios: La Verdad titula exactamente igual, El Confidencial dice que Los humanos hemos arrasado el 60% de la vida animal en sólo 40 años, Computer Hoy (que no sé por qué informa de estas cosas) afirma que La población de vida silvestre ha disminuido un 60% desde 1970…y así podríamos poner muchos más ejemplos (¡incluso de años anteriores!: en 2016, El País informaba de que Más de la mitad de las poblaciones de vertebrados han desaparecido en 40 años).

Pero en realidad, el informe del WWF que es la fuente de la noticia, no dice eso: lo que ocurre es que la inmensa mayoría de los periodistas no lo han entendido bien. Un titular mucho más ajustado a la realidad es el de  La Vanguardia, que dice que Las poblaciones de vertebrados se han reducido un 60% en 40 años por el descontrolado consumo humano, según lamenta WWF.

¿No es lo mismo? No. En primer lugar se trata de vertebrados, no de la vida silvestre, ni de los animales (la vida silvestre incluye las plantas, y la inmensa mayoría de los animales son invertebrados).

Pero lo que más nos interesa aquí es algo más sutil. Cuando el WWF habla de “poblaciones de vertebrados”, está usando un término técnico, de manera que, curiosamente, decir que “las poblaciones han disminuido en un 60%” no es lo mismo que decir que “la población ha disminuido en un 60%”.

Lo explican muy bien en un artículo de The Atlantic, titulado “Wait, Have We Really Wiped Out 60 Percent of Animals?”, del que traduzco:

Para comprender la diferencia, imagina que tienes tres poblaciones: 5.000 leones, 500 tigres y 50 osos. Cuatro décadas después, tienes sólo 4.500 leones, 100 tigres y sólo 5 osos (¡vaya por Dios!). Estas tres poblaciones han disminuido en un 10 por ciento, 80 por ciento y 90 por ciento, respectivamente, lo que significa que la disminución promedio es del 60 por ciento. Pero el número total de animales ha pasado de 5.550 a 4.605, que es una disminución de sólo el 17 por ciento.

El decir, en este ejemplo las poblaciones han sufrido una disminución del 60% pero la población ha disminuido sólo el 17%. Y este es un problema recurrente con los tantos por ciento. Imaginen que hacemos algo similar a lo que ha hecho el WWF pero con los municipios de España en vez de con las poblaciones animales. La gran mayoría de municipios son pueblos pequeños cuya población ha declinado espectacularmente en los últimos 40 años. Así que las poblaciones (de los municipios españoles) han sufrido una gran disminución en los últimos cuarenta años, pero la población (de España) no ha disminuido, sino que ha aumentado, gracias al crecimiento de las capitales de provincia y las grandes ciudades.

¿Cuál es la disminución real de la población de vertebrados? Con los datos del informe del WWF no lo podemos saber; de hecho, aproximadamente la mitad de las poblaciones estudiadas están aumentando, pero la media de los porcentajes da una importante disminución porque los porcentajes de disminución son mucho más grandes que los de aumento.

No se trata pues de minimizar el problema: es realmente grave, y está bien que se informe sobre ello. Pero no costaría tanto contar la historia bien: el propio informe del WWF advierte explícitamente que “no es un censo de toda la vida salvaje, sino un informe sobre cómo han cambiado de tamaño sus poblaciones”.

Moraleja: Cuando veas un tanto por ciento, echa mano de tu sentido crítico… o si no, más vale que olvides la noticia.

Jonathan Haidt y el sesgo de confirmación

Hoy aparece en El Mundo una entrevista con Jonathan Haidt, un prestigioso psicólogo social norteamericano. Merece la pena leerla entera (es sorprendentemente buena) pero en relación a lo que estamos estudiando en el curso Ciencia para pensar mejor hay una respuesta que quiero copiar aquí:

El auge del populismo en las democracias occidentales es el resultado de dos factores: la globalización y las redes sociales. Internet y Google fueron dos grandes regalos para el llamado confirmation bias o sesgo de confirmación. La pura reafirmación de nuestros prejuicios. Eso ocurrió a finales de los años 90. Luego llegaron Facebook y el iPhone, que extendió masivamente el uso de las redes sociales.

Desde 2012, cientos de millones de personas están conectadas a través de dispositivos que favorecen la comunicación pero también la más ácida polarización. Las redes se han convertido en una de las más poderosas fuerzas de centrifugación social. En ellas conviven, por decirlo de alguna manera, auténticos guetos morales en los que la verdad es estrictamente irrelevante. Las creencias más exóticas se propagan como el fuego. Y cualquiera que las cuestione es sometido a un linchamiento, como mínimo, virtual.

Así, el procedimiento que nos convierte en seres racionales e inteligentes -una persona hace una afirmación; otra la refuta; llegamos a una conclusión- se está viendo sustituido por el grito de la tribu. Esto es una pésima noticia para la inteligencia colectiva, claro. Y también un peligro para la democracia.

Más sobre el peligro del sesgo de confirmación en las redes sociales en este vídeo corto (recomiendo poner los subtítulos):