Categoría: Matemáticas

Virus, mapas y urnas

Gracias al interés por la evolución del Covid-19 los medios (bueno, algunos) han ido aprendiendo lo que es una gráfica logarítmica[1] (aquí tienen por ejemplo, los excelentes gráficos del Financial Times).  Esto está muy bien, pero todavía les faltan cosas por aprender. Por ejemplo para interpretar mapas como este de incidencia de Covid-19:

20200408_dgsp_tiac19_mundis_d43

Lo publican varios medios, por ejemplo El Confidencial y El Mundo, basándose en datos de la Comunidad de Madrid que se pueden encontrar aquí, en versión interactiva y, mejor aún, en formato excel.

Los periodistas están para procesar la información en bruto, señalar lo realmente significativo y hacer que la entendamos mejor ¿Qué nos explican aquí? El Mundo, tras mencionar los municipios con más contagios (que, señala, “no sorprenden al tratarse de los lugares más poblados de la comunidad”…) explica que:

Más interesante es el análisis de la tasa de contagios por cada 100.000 habitantes, que pone en relación la incidencia del virus con la cantidad de residentes Así, en el Corredor del Henares se localizan varios de los términos con mayor tasa de afectados. Se trata de SantorcazCorpaLos Santos de la HumosaMecoValverde de Alcalá o Villalbilla, todos con datos superiores a los de la ciudad de Madrid, que tiene 743 casos confirmados por cada 100.000 habitantes. En la misma zona, entre los municipios de más población destacan Alcalá de Henares (943), San Fernando de Henares (645) o Torrejón de Ardoz (562).

El Confidencial, por su parte, señala que

Leganés, los municipios cercanos a Alcalá de Henares y Arganda del Rey y las pequeñas localidades de la Sierra Norte son algunas de las zonas con mayor número de positivos por habitante.

¿Realmente es esto significativo? En realidad, en el mapa no se ve ningún patrón claro. Y llama la atención que junto a esas “pequeñas localidades de la Sierra Norte” con una altísima incidencia, aparecen otros municipios en blanco, en los que apenas hay casos. ¿No es también sospechoso que los municipios del corredor del Henares de los que habla El Mundo (Santorcaz, Corpa, etc) sean todos minúsculos?[2] .

Lo que en realidad estamos viendo no son datos significativos, sino un fenómeno muy conocido en estadística, pero, por lo que se ve, ignorado por los periodistas: que en las muestras pequeñas es mucho más probable encontrarse, por puro azar, valores extremos.

Imaginemos una enorme urna con seis millones y medio de bolas. De éstas, 40.000 son negras y las demás son blancas. Ahora supongamos que extraemos 48 bolas. Es probable que la proporción de bolas negras en esa muestra se aleje bastante de la de la urna: basta con que saquemos, por ejemplo, 1 bola negra, para que la proporción sea de 1/48=2%, muy por encima de la proporción de la urna que no llega al 0,7%. Pues bien: esa urna es la Comunidad de Madrid, las bolas negras son los casos confirmados de Covid-19… y la muestra de 48 bolas es La Hiruela, uno de esos municipios de la Sierra Norte con una tasa de incidencia astronómica: 9.000 casos por cada 100.000 habitantes, lo que que en términos absolutos son 5 enfermos.

Moraleja: es de esperar que los municipios más pequeños sea los “mas afectados”… y también los “menos afectados” (porque, si de esas 48 bolas no sale ninguna negra, ¡tenemos una incidencia de cero!).

Vamos a verlo en una gráfica (logarítmica, ya que nos hemos acostumbrado):

Efectivamente: todos los valores más extremos de la tasa de incidencia se concentran en los municipios (o distritos) de menos población. ¿Qué tenemos que hacer para encontrar lo realmente significativo, eso que deberían hacer los periodistas por nosotros? Esto:

Aquí representamos los casos confirmados, no las tasas, y calculamos una recta de ajuste que nos marca los auténticos casos anómalos: los municipios o distritos (estos, con el fondo coloreado) que están muy por encima o muy por debajo de la recta. Toda la nube de puntos pegada al origen son los municipios pequeños, y ahora se ve que no son para nada anómalos. Y se ve también que hay casos realmente curiosos, como que dos municipios vecinos, y aparentemente muy similares, como Getafe y Leganés estén en extremos opuestos. ¿Por qué? Quizá algún periodista que no se distraiga con las “pequeñas localidades de la Sierra Norte” lo investigue.

NOTAS:

[1] O mejor dicho semilogarítmica (con el eje y logarítmico y el eje x lineal)
[2] Salvo Meco, que casi llega a los 14.000 habitantes, pero tiene en realidad una tasa de 801 contagios por 100.000 habitantes, sólo un poco más alta que la media de la Comunidad de Madrid.

Coronavirus: lo que los datos dicen a un físico

Una de las afirmaciones que más se repiten en esta crisis sanitaria que vivimos es que el análisis epidemiológico es muy complicado y que no se pueden hacer predicciones porque la situación es “dinámica” (expresión muy del gusto del gobierno últimamente), de modo que hay que ir actuando en función de los datos de cada día (y, como corolario, se deduce que nadie habría podido ver venir esto antes del 10 o el 12 de marzo… pero mejor no insistamos).

Todo esto puede que sea cierto si queremos predicciones exactas. Y suele creerse que la ciencia sirve precisamente para eso (otra expresión favorita de los portavoces del gobierno es que “hay que escuchar a los científicos”). Pero es un error muy común, y, lo estamos viendo, muy peligroso. La ciencia sirve, antes que nada, para hacer estimaciones de orden de magnitud. Y, por supuesto, que un fenómeno sea “dinámico” no significa para nada que no se pueda hacer tal cosa. Sólo hay que conocer cómo es esa dinámica. Y basta con conocerla de modo aproximado si sólo buscamos un orden de magnitud.

Esto se hace todos los días y a todas horas en física: nunca hagas un cálculo complicado  si no sabes lo que (más o menos) tiene que salir. Es una actitud tan enraizada en la profesión que el legendario John Archibald Wheeler la llamó “primer principio moral“. Esos complicados modelos epidemiológicos están muy bien, pero primero hay que saber más o menos lo que tiene que salir, y eso nos lo dice una estimación de orden de magnitud.

En el caso de una epidemia es de sobra conocido que la dinámica es aproximadamente exponencial. Y de este simple conocimiento se derivan consecuencias dramáticas. En este post voy a analizar los datos como lo haría un físico, si en lugar de una epidemia se tratara de cualquier otro fenómeno que crece exponencialmente. Me lo exige el principio moral de Wheeler. 

*

Decíamos hace ya una semana que las medidas que tomó el gobierno parecía que se estaban empezando a notar, y ahora se confirma sin ningún género de dudas. Con los datos de la última semana, los contagios se duplican cada 4,1 días y los fallecimientos cada 2,8 días. Antes del estado de alarma, los periodos de duplicación eran de 2,0 y 1,4 días, respectivamente: el ritmo de crecimiento de la epidemia se ha reducido a la mitad.

Es una buena noticia, pero ¿qué significa en concreto? Que los (redondeando) 42.000 contagiados y 3.000 muertos de hoy se convertirán dentro de una semana en unos 137.000 contagiados y 17.000 muertos [1].  Si eso le parece una barbaridad, piense que con las tendencias anteriores al estado de alarma tendríamos dentro de una semana 475.000 casos y 96.000 muertos (y ahora, si la cabeza no le da vueltas, puede calcular como ejercicio los miles de muertos que nos habríamos ahorrado si se hubieran tomado las medidas a la vez que Italia, el 8 de marzo en vez del 14…).

Todo esto lo podemos ver en la gráfica siguiente[2]:

ContagiosyMuertes_dia24_tendencia2

Se han dibujado las tendencias obtenidas con los 7 días anteriores al estado de alarma (“tendencia hasta el 13/03/2020”) y los 7 posteriores (“tendencia desde el 14/03/2020”). Una gráfica logarítmica como esta permite ver a ojo el tiempo en el que los contagios o muertes se multiplican por 10. Con la tendencia actual, por ejemplo, vemos en la gráfica que las muertes tardan unos 9 días en multiplicarse por 10. Ahora, para encontrar el periodo de duplicación basta dividir por 3,32[3]. Así, 9/3,32=2,7 (aproximadamente 2,8 días, como habíamos dicho).

Un detalle importante para que estas gráficas sean significativas es elegir bien el origen de tiempos. Ante todo, no conviene representar los datos en la etapa temprana de la epidemia, porque los números son muy pequeños y la escala logarítmica los magnifica (lo lo olviden: ¡entre 1 y 10 hay la misma distancia en vertical que entre 1.000 y 10.000!). Como siempre hay fluctuaciones que no son significativas, este pequeño “ruido”, nada importante,  se amplifica mucho. Por eso hemos tomado el origen de la gráfica de contagios en 100 y el origen de la gráfica de muertes en 10.

Por otra parte, hay que poner para cada país el origen de tiempos en una fecha equivalente: por ejemplo, el día en el que se alcanzaron los 100 contagios o los 10 fallecimientos. Un detalle sutil pero importante: el retraso no es el mismo si se mide por los contagios que si se mide por los muertos. En los post anteriores (por ejemplo aquí) las dos gráficas tenían el mismo origen de tiempo (el día del contagio nº100), y Alemania resultaba un caso anómalo entre los países europeos porque tenía un número excepcionalmente bajo de fallecimientos (sobre ese “misterio alemán” se había especulado mucho últimamente). Al medir el tiempo desde el fallecimiento nº10, Alemania deja de ser una excepción y está en la misma línea que Italia y Francia.

¿Qué significa esto? Que la epidemia está más atrasada en Alemania de lo que sugería el número de contagios, seguramente porque han hecho muchos más tests que el resto de países europeos (más sobre esto un poco más adelante).

[Un inciso: para interpretar las gráficas puede ser útil el dato de los retrasos: tomando Italia como referencia, los retrasos en la gráfica de contagios son:
España=8,5 días, Alemania=7,5 días, Francia=7 días; Corea está adelantada 2 días a Italia.
Y los retrasos en la gráfica de fallecimientos son:
España:=11 días, Alemania=18 días, Francia=10 días; Corea=0 días]

*

Ahora la cuestión es: ¿cuándo lograremos “frenar la curva”? La mejor manera de verlo es representar los casos nuevos en función del tiempo:

CasosNuevosDiarios

[Nota: no hay que preocuparse porque las gráficas sean más “ruidosas” que las anteriores ni porque falten datos en Corea, es normal -pero sería un poco largo de explicar-]

Las dos gráficas anteriores muestran que Italia llegó a un máximo hace tres días, tanto en casos nuevos como en fallecidos diarios, y pese al repunte del último dato, es lógico esperar que recupere la tendencia descendente. Tenemos tendencias similares a Italia (la tendencia se ve en la pendiente de la gráfica) así que podemos estimar que alcanzaremos el pico de casos nuevos dentro de 5 o 6 días y el pico de fallecidos diarios dentro de 8 (ya que nuestro retraso es, respectivamente, de 8,5 y 11 días).

¿Cuál será la altura de esos picos? Una manera burda de estimarla es suponer que las curvas de Italia y España se van a mantener paralelas, como han venido haciendo a grandes rasgos. En la gráfica de contagios la distancia es, muy grosso modo, un factor 2, y en la de muertes algo más. Seamos optimistas y dejémoslo en 2 para ambos datos. Como el pico en  Italia ha sido de 6.550 casos nuevos y 793 fallecidos en un día, redondeamos a 6.500 y 800 y multiplicamos por 2 para obtener esta estimación: el pico de casos nuevos diarios será de unos 13.000 y se alcanzará el 30 o 31 de marzo; el pico de fallecimientos diarios será de unos 1.600 y se alcanzará en torno al 2 de abril[4].

Son órdenes de magnitud, y ojalá me equivoque (¡por exceso!). Pero eso es lo que me dicen los datos, y me atengo al primer principio moral de Wheeler.

*

Antes he dicho que la evolución de los fallecimientos en Alemania está bastante más retrasada que la evolución del número de casos, y que una explicación verosímil es que allí se han realizado muchos más tests, de modo que se vio venir la epidemia antes.

Eso implicaría que su número de contagios reportados sería más cercano al real que el de España e Italia, que estarían subestimando este dato. Una manera de intentar confirmar esta hipótesis es representar la fracción que representan los fallecidos respecto de los contagiados. Si subestimamos el número de contagiados, esta mortalidad aparente será mayor. Digo “aparente” porque los fallecimientos se producen con cierto retraso sobre los contagios, y no siempre es el mismo para todos los pacientes.

He hecho dos estimaciones burdas, una con números totales, dividiendo el número de muertos por el número de contagiados cinco días antes (gráfica siguiente, a la izquierda); otra, dividiendo los muertos de cada día por los contagiados cinco días antes (gráfica siguiente, a la derecha). La segunda estimación es en teoría algo más correcta que la primera pero tiene más ruido porque los datos diarios fluctúan más que los acumulados. Aquí tienen las gráficas:

MortalidadEstimada

En los dos casos los resultados son similares: la mortalidad se situaría en torno al 15% para España e Italia, al 8 o 10% para Francia, y al 1% para Alemania y Corea (no hagan caso a los últimos datos de la gráfica de la derecha para Corea: tienen mucho ruido porque los números de fallecimientos y contagios son ya muy pequeños).

Suponiendo que los sistemas sanitarios español e italiano no son mucho peores que el alemán o el coreano (de modo que la mortalidad real debería ser similar), y suponiendo que en esos países se detecta el 100% de los casos (un poco optimista, pero es lo más sencillo), resultaría que el número de casos real en España e Italia sería unas 15 veces mayor que el oficial.

*

Repito: todo esto son estimaciones de orden de magnitud. Los fenómenos no son impredecibles por ser dinámicos y los datos hablan. Al tratarse de exponenciales puede haber un error importante, pero no creo que sea de más de un factor 2 más o menos un 50%, o de un par de días más o menos.  Ojalá me equivoque, repito, y que sea por exceso.

NOTAS:

[1] Hay que multiplicar los datos actuales por 2^(7/4,1) y por 2^(7/2,8)]

[2] Quizá sería más correcto representar los datos normalizados a la población (muertes por millón de habitantes) pero lo único que cambiaría es que las curvas se desplazarían ligeramente en vertical, pero también en horizontal, porque el origen de tiempos sería un poco distinto. Ambos desplazamientos casi se cancelan, así que no merece la pena.

[3] 3,32 es el logaritmo en base 2 de 10.

[4] El número total de contagiados y de fallecidos seguirá aumentando después de ese día, claro, pero más despacio. Cuándo empezarán a disminuir los contagiados y cuándo dejará de haber fallecimientos es más difícil de saber: para eso sí necesitamos un modelo epidemiológico.

[Actualización, 06/04/20] ¿Se cumplieron mis predicciones? Estas son las gráficas actualizadas para contagios y muertos diarios:

ResultadoPrediccionesTasasEl famoso “pico” no es  muy picudo (habría que haberlo advertido), pero las fechas son casi exactas en los dos casos. Afortunadamente, me equivoqué por exceso en los valores: en vez de 13.000 contagios diarios (el 30 ó 31 de marzo), hemos alcanzado 8.195 (el 1 de abril) y en vez de 1.600 muertos diarios (el 2 de abril) hemos llegado a 961 (justamente el 2 de abril). Como se aprecia en la figura, hasta la fecha de la predicción las tendencias eran muy parecidas a las de Italia; a partir de ese día, nuestras curvas se “aplanaron” respecto a las suyas: esa es la causa del (bendito) error en los valores absolutos de mis predicciones.

Hay que advertir sin embargo, que no hay motivo para el triunfalismo: haber superado el “pico” en las gráficas de casos diarios no se traduce en ningún cambio llamativo en los casos acumulados. Siguen creciendo, cada vez más lentamente, pero falta mucho para que nos parezcamos a Corea, y lo hemos hecho rematadamente mal en comparación con ellos:ResultadoPrediccionesAbs

 

El coste exponencial de la inacción

Sólo tres días después de su implantación, las medidas que tomó el gobierno parece que se están empezando a notar, para bien. Con la tendencia hasta el 13 de marzo, los contagios se duplicaban cada 2 días y las muertes cada 1,4 días. Con la tendencia desde el 14 de marzo el ritmo es menor: los contagios se duplican cada 3,3 días y las muertes cada 2,5 días.

O de otra manera equivalente:

  • antes, en 6,8 días los contagios se multiplicaran por 10; ahora hacen falta 10,8 días
  • antes, en 4,8 días las muertes se multiplicaban por 10; ahora hacen falta 8,3 días.

Esto se puede apreciar muy bien en las siguientes gráficas:

ContagiosyMuertes_dia17_tendencia1

Hay que tener cierto cuidado con el lenguaje: uno está tentado de decir que se está “frenando la epidemia”, pero no es así: las muertes siguen aumentando, y por ahora a un ritmo vertiginoso, sólo que no tan vertiginoso como antes. Las medidas funcionan, pero un crecimiento exponencial no se para de un día para otro.

Ahora bien, ¿qué efecto habría tenido tomar medidas antes? El 8 de marzo se decretaba el aislamiento de la Lombardía y otras 14 provincias italianas, mientras en España el gobierno alentaba a participar en la manifestación del 8M¿Qué hubiera ocurrido si, mirándonos en el espejo de Italia, hubiéramos decretado la cuarentena a la vez que ellos? Aquí tienen las gráficas: 

ContagiosyMuertes_dia17_tendencia2

La línea verde de trazos es la proyección de los datos si la evolución que ha comenzado el 14 de marzo hubiera empezado el día 8. ¿Cuántas víctimas nos habríamos ahorrado? Vamos a verlo.

La siguiente tabla muestra, en la primera fila, los contagios y fallecimientos esperables si se hubiera mantenido la tendencia seguida hasta el 13 de marzo. La segunda fila muestra los datos reales de ayer: el total de contagios es un 82% del esperable y el de muertes el 53%. Es una mejora muy grande, sí, y es una buena noticia, pero si se hubiera actuado a la vez que Italia estaríamos mucho mejor: los números serían del 31% y el 25%.

TablaPredicciones

 

En resumen, mirando ahora a los números absolutos:  llevamos 9.942 contagiados y podríamos llevar 3.702; llevamos 342 muertos y podríamos llevar 158. Seis días de inacción nos han costado a día de hoy unos  6.240 contagiados y 184 muertos. 

Pero la cosa es bastante peor en realidad, por dos razones.

Primero, hemos hablado del coste hoy, pero el coste crece cada día… exponencialmente. En efecto, la distancia entre las líneas de trazos azul y verde es la estimación de lo que hemos perdido por el retraso. Se mantienen paralelas, pero eso es porque la escala es logarítmica: en realidad esa distancia constante representa un coste cada vez mayor: si en la gráfica de muertes corresponde hoy a unas 180, dentro de 8,3 días, cuando se prevé que las muertes se hayan multiplicado por 10, corresponderá a 1.800: mil ochocientas vidas perdidas. Y así sucesivamente: cuando el crecimiento es exponencial, el coste de la inacción crece exponencialmente con el tiempo.

Segundo, hemos supuesto que la tendencia inaugurada estos tres días se mantiene. Pero lo esperable, a la luz de la experiencia de Italia, es que con estas medidas restrictivas la pendiente vaya disminuyendo gradualmente (al fin y al cabo, para eso las tomamos: hasta que la gráfica no sea horizontal no habremos parado la epidemia). Si prolongamos nuestra tendencia hasta el 8 de marzo con la tendencia que adquirió Italia a partir de ese día, lo que obtenemos es la línea continua con puntos en verde:

ContagiosyMuertes_dia17_tendencia3

No llega hasta el último día porque Italia no nos lleva tanto adelanto, pero pueden ustedes estimar a ojo los contagios y los muertos que tenemos y no deberíamos tener (son bastantes más que los que da el cálculo anterior). Yo casi prefiero no hacerlo.

[Actualización, 19/03/20] Dos días después se confirman que los datos siguen muy de cerca la nueva tendencia inaugurada el 14 de marzo:

ContagiosyMuertes_dia18_tendencia2bis

Como las gráficas logarítmicas no son muy intuitivas para el que no está acostumbrado a manejarlas, he marcado los números sobre la gráfica. Ya expliqué que cada día que pasa el precio en contagios y muertes que hemos pagado por no actuar a tiempo va creciendo. Aquí tienen la tabla actualizada:

TablaPredicciones_dia18Seis días de inacción nos han costado a día de hoy (en realidad, a día de ayer) unos  9100 contagiados y unos 363 muertos. (las diferencias entre la segunda y la tercera filas). Son cotas inferiores, como expliqué al final del post… pero una vez más mejor no pensarlo.

*

Más sobre el coronavirus en este blog:
* El coronavirus exponencial [12/03/20]
* “No cabe descartar” dijo el presidente [14/03/20]

“No cabe descartar”, dijo el presidente

El presidente del Gobierno decía ayer “No cabe descartar que en la próxima semana alcancemos los más de 10.000 afectados”.

No cabe descartar, dijo el presidente. Veamos lo que dicen los datos.

La siguiente gráfica representa los casos declarados hasta ayer en España y otros cuatro países, contando el tiempo desde el día en el que se alcanzó el caso número 100. Estas gráficas comparativas se han popularizado en los medios, pero la nuestra tiene una diferencia importante: es logarítmica (como explicaba en el post anterior, eso significa que la distancia en el eje vertical entre 1 y 10 es la misma que entre 10 y 100, entre 100 y 1000, etc.)

Contagios_log_prediccion

Este tipo de gráfica tiene varias ventajas importantes:

  • Nos permite comprobar de un vistazo si el crecimiento es realmente exponencial (la gráfica es entonces una recta). Y efectivamente lo es en los cuatro países europeos, aunque Italia está consiguiendo disminuir ligeramente la pendiente (Corea lo hizo de manera espectacular muy pronto).
  • Podemos apreciar de un vistazo el tiempo que tarda en multiplicarse por 10 el número de casos. En España, aproximadamente cada siete días.
  • Eso nos permite hacer predicciones: si ahora tenemos 5.000 casos, dentro de una semana tendremos previsiblemente 50.000

¿Cómo de fiable es esa predicción? Si tenemos en cuenta que la tendencia desde que se declaró el caso 100 ha permanecido invariable (si acaso, la pendiente ha aumentado últimamente), y si tenemos en cuenta también que Italia, que nos lleva ocho días de adelanto, no ha conseguido apenas ralentizarla, yo diría que muy fiable.

Esto es lo esencial y lo puede entender cualquiera viendo la gráfica. Pero para que la cosa quede más científica, he ajustado una línea de tendencia, que aparece dibujada como una recta de puntos (la ecuación aparece en la figura). Resulta que el coeficiente de determinación R2 es de 0,99: el ajuste es muy bueno (el valor máximo de R2 es de 1). Con la ecuación de la figura y una calculadora pueden estimar con más precisión cuando se alcanzarán los 10.000 casos que “no cabe descartar” según nuestro presidente: para t=13,9 días. Como en estas gráficas t=0 está fijado el día 1 de marzo a mediodía, la predicción es que tendremos 10.000 casos para el día 13,9+1,5=15,4: mañana a mediodía.

[Aclaración (15/03/20): los datos cada día se conocen el día siguiente de madrugada;  la predicción es entonces que en los datos de la madrugada del 16 no habremos llegado a 10.000 y en los del día siguiente los habremos superado]

Hasta aquí hemos hablado de casos, es decir, de personas contagiadas. Pero lo realmente grave son los fallecidos. He aquí la gráfica:

Muertes_log_prediccion

Tenemos, con diferencia, la peor evolución. Hemos alcanzado a Italia, pero lo dramático no es eso, sino la pendiente. Las muertes se multiplican por 10 cada 4,8 días. ¿La predicción? 1.000 muertos el 17 de marzo, y 10.000 para el 21 o 22.

[Aclaración (15/03/20): esto significa que conoceremos esos datos el 18 y el 22 o 23]

Todo esto, claro, si no tomamos medidas realmente drásticas, como las de Corea. Aunque ni siquiera así se puede disminuir la pendiente de un día para otro.

[Actualización 16/03/20] Estas son las gráficas actualizadas. La predicción se realizó usando sólo los datos hasta el 13 de marzo. Parece que empiezan a reducirse las pendientes, sobre todo en la curva de fallecimientos. Ojalá se confirme los próximos días…

ContagiosyMuertes_dia16

(por cierto, las gráficas logarítmicas ya se están imponiendo en los medios más prestigiosos: aquí el Financial Times parece que me las hubiera copiado…)

[Actualización 17/03/20] Se va confirmando que desde el estado de alarma (en realidad, desde desde la víspera, día 13, cuando el presidente del gobierno lo anunció sin activarlo aún) cambia la tendencia. De hecho, ahora tenemos la misma pendiente que Italia, lo cual es bastante razonable porque hemos adoptado por fin unas medias parecidas. Ayer, además, el número de fallecimientos quedó bastante por debajo de la predicción: buenas noticias. Aquí están las gráficas:

ContagiosyMuertes_dia17

En el post hacía una predicción concreta, basándome en la tendencia hasta el 13 de marzo: que “si no tomamos medidas realmente drásticas (…) en los datos de la madrugada del 16 no habremos llegado a 10.000 contagios y en los del día siguiente los habremos superado“. ¿Qué ha ocurrido finalmente? Que ayer teníamos 7.844 y hoy 9.942: no hemos superado los 10.000 por muy poco, a pesar de que por fin se han tomado medidas drásticas. El crecimiento exponencial no se para así como así.

*

(Más sobre el coronavirus en el siguiente post y en el anterior)

El coronavirus exponencial

Uno de los problemas que estamos padeciendo en esta crisis del coronavirus es la desinformación. No es el más agudo, claro está, pero es importante, porque una sociedad bien informada toma decisiones más racionales, y eso, que siempre es conveniente, se convierte en esencial en una epidemia.

Es verdad que las radios, televisiones y periódicos no hablan de otra cosa, pero sus noticias son a menudo anecdóticas (tal o cual famoso infectado), irrelevantes (¡esas entrevistas a las señoras a la salida del Mercadona!), o, peor aún, buscan la rentabilidad política (y eso que ya hemos visto que el virus no distingue entre partidos: Irene Montero se contagia igual que Ortega Smith).

Incluso cuando los medios elaboran un especial informativo con las “claves para entender el coronavirus de Wuhan”, esa información exhaustiva no nos sirve en realidad para hacernos una idea clara de lo que ocurre. No sirve sobre todo por una razón: aunque pretenden informarnos sobre la evolución de la epidemia, no lo hacen. Lo que hacen es dar los números actualizados de muertos y contagiados. Y con eso no se entiende la evolución.

Entender la evolución de la epidemia es clave porque es lo que nos permite prever, al menos hasta cierto punto, lo que va a ocurrir, y por tanto tomar medidas adecuadas. Pero la evolución de una epidemia es sumamente antiintuitiva. Supongamos que cada infectado contagia a dos personas al día siguiente de ser contagiado y que ya no contagia a nadie más: una suposición muy optimista, que seguro que infravalora el caso del coronavirus. El primer día tenemos un infectado, el segundo dos más, el tercero cuatro más, el cuarto ocho más, y así sucesivamente. ¿Cuántos infectados tendremos al cabo de un mes?

La respuesta es que el día 31 tenemos 2^{31} -1=2.147.483.647: ¡más de dos mil millones! En un par de días más, toda la población mundial habría contraído el virus.

El problema es completamente análogo a la célebre leyenda del inventor del ajedrez, que pidió al brahman la modesta recompensa de un grano de trigo por la primera casilla del tablero, dos por la segunda, cuatro por la tercera, etc. No parecía mucho, pero al hacer la cuenta resulta que harían falta las cosechas de trigo del mundo entero durante más de mil años para pagarle (aquí lo explica la Wikipedia, además de demostrar la fórmula que he utilizado).

Quizá lo más interesante de esta historia es que seguramente usted la conoce, pero, a pesar de ello, probablemente ha infravalorado el número de contagios. Si no se toman medidas para evitar el contagio, el crecimiento de una epidemia es exponencial. Y nuestra intuición falla completamente ante un crecimiento exponencial. Incluso aunque estemos avisados, lo subestimamos sistemáticamente. Por eso dar el número de contagiados cada día no sirve. Sólo podemos hacernos una idea de su evolución si nos dan la gráfica. Por ejemplo, esto:

La gráfica la he elaborado yo con datos de esta extraordinaria página, que permite descargar en formato Excel los números actualizados de pacientes contagiados, fallecidos y curados para todos los países del mundo. Para cada país he desplazado el eje horizontal de manera que el día cero sea el día en el que se alcanzó o supero el número de 100 contagiados (he copiado la idea a Mark Handley que viene publicando este tipo de gráficas en su cuenta de Twitter).

Todos los países, salvo Corea a partir del día 7º u 8º, tienen un crecimiento aproximadamente exponencial. Y ya vemos aquí lo antiintuitivo que resulta: a la vista de la evolución de los 5 primeros días, no da la impresión de que se vaya a disparar el crecimiento como ocurre en Italia.

Hay, sin embargo, una manera mucho mejor de representar estos datos, un tipo de gráfica en la que “se les ve venir”. Se trata de poner la escala vertical de manera que las distancias no sean proporcionales a los valores sino a sus logaritmos: es decir, que la distancia entre 1 y 10 sea la misma que entre 10 y 100, entre 100 y 1000, etc. En esta escala logarítmica la gráfica de una exponencial es una recta. Y esto es lo que obtenemos con los datos del coronavirus:

Cualquier recta aquí es una exponencial, y su pendiente indica el tiempo que tarda en multiplicarse por 10 el número de contagiados.

Corea empezó muy rápido (al ritmo inicial, en dos días y medio se habrían multiplicado por 10 los contagios), pero ha conseguido vencer a la exponencial, y en el último tramo va camino de que se deje de aumentar el número de contagiados.

En contraste, los países europeos lo estamos haciendo mucho peor. Italia apenas ha conseguido disminuir la pendiente 18 días después de superar los 100 contagios, mientras que Francia y Alemania muestran una recta casi perfecta: cada 7 días y medio se multiplica por 10 el número de contagiados. El caso de España es el peor: ¡nuestra pendiente tiende a aumentar!

Esto es realmente dramático. Con los últimos datos, el número de casos en España se multiplica por 10 aproximadamente cada 6 días. En esta gráfica, actualizada a ayer, había 2.277 contagiados. Hagan la cuenta: a este ritmo, en 6 días habría 22.770, en 12 días 222.770, en 18 días 2.227.700…

Naturalmente, el crecimiento no puede seguir a ese ritmo: en un mes habría 222 millones y sólo hay 47 millones de españoles. Cuando casi todo el mundo está contagiado, el número diario de nuevos contagios tiene que disminuir a la fuerza. Pero no hace falta decir que esto no es ningún consuelo.

Para terminar, una gráfica que da que pensar: la del número de fallecimientos:

España no lo está haciendo nada bien: llevamos una tendencia peor aún que Italia. ¿Qué han hecho en Corea del Sur, qué hacen en Alemania? Deberíamos copiarlo urgentemente.

Actualización (13/03/2020): Añado gráficas con los datos de ayer; a sugerencia de un lector, ahora represento contagios y fallecimientos por cada millón de habitantes, lo que hace más correcto compararlos… y más evidente que somos el país que tiene una evolución peor (fíjense sobre todo el la pendiente de los últimos días, que es lo realmente crítico)

Contagios_log_dia13

Muertes_log_dia13

[Actualización 16/03/20] Estoy actualizando las gráficas en el siguiente post. El enlace que había utilizado para obtener los datos (este), muy bueno porque permite descargarse un excel con el histórico, no se actualiza desde el viernes, así que los datos nuevos los he obtenido, día a día, del panel informativo de la universidad Johns Hopkins.

La Diada y la superstición de la exactitud

[Disclaimer: He elegido como ejemplo la Diada porque es una manifestación masiva que se repite todos los años, y porque he podido encontrar datos del recorrido para todas las últimas ediciones. Pero por desgracia, ocurre más o menos lo mismo con manifestaciones de todas las ideologías…]

La vida pública está llena de irracionalidades, pero una especialmente llamativa es la que aflora cada vez que una gran manifestación acapara los titulares. No falla: Si el colectivo A protesta contra el colectivo B, A dirá que la asistencia fue masiva y B dirá que sólo fueron cuatro gatos.

El sectarismo es consustancial al ser humano, pero de las instituciones oficiales deberíamos esperar una información más imparcial, ¿no? Bien, aquí pueden comparar los datos sobre la asistencia a las últimas Diadas, según la Guardia Urbana de Barcelona y la Delegación del Gobierno en Cataluña:

Ante tal grado de desacuerdo, y tan sistemático, está claro que no podemos confiar en la neutralidad de las instituciones… Es triste, pero ¿tenemos por eso que conformarnos con incertidumbres de casi un orden de magnitud?¿En una época en la que se ha medido la distancia de la Tierra a la Luna con una precisión de ±1 mm no va a ser posible contar el número de manifestantes en un margen de, digamos, ±100.000?

*

Naturalmente que es posible: basta alquilar una avioneta, tomar fotos de alta resolución y usar un programa de visión artificial para contar cabezas. Eso es lo que hizo una empresa llamada Lynce entre 2009 y 2011. Sus resultados fueron siempre órdenes de magnitud inferiores a los números pregonados por los convocantes, y casi siempre a los de los periódicos; recibió un aluvión de críticas por ello y tuvo que cerrar porque no llegó a ser rentable: los medios tampoco son neutrales y no estaban interesados en conocer los datos reales. Más información en este vídeo:

Es muy interesante que se obtuvieran siempre números drásticamente inferiores a los publicitados. La actividad de Lynce, y la polémica que generó, destapó lo que podíamos llamar un fraude informativo generalizado: el absoluto desinterés de los medios de comunicación por la verdad numérica, y su sometimiento a los intereses propagandísticos de los partidos políticos (y/o al sensacionalismo de los grandes números, porque generan más interés unas cifras hinchadas artificialmente que los datos reales). Posverdad numérica, lo llamé hace un par de años.

Lo cierto es que, pese a que lo hemos oído una y otra vez, ninguna manifestación ha reunido nunca a un millón de personas en España, como explica este magistral artículo de Alex Grijelmo. Ya en la época de Franco vitoreaban al Caudillo un millón de personas en la Plaza de Oriente… en la que difícilmente caben más de 40.000 (ver vídeo anterior, 1:05). Y desde entonces nada ha cambiado: el millón mágico se enarbola despojado de cualquier sentido cuantitativo, como si no fuera un número sino un mantra. Igual que en la Biblia “setenta veces siete” no significa “490 veces” sino “siempre”, el “millón” de manifestantes no significa que acudieran 106, sino algo así como “toda la gente decente de este país”.

*

El problema, claro, es que se nos quiere hacer creer que el “millón” de manifestantes es realmente 106, haciendo pasar por datos objetivos lo que no es más que propaganda. Y es muy sintomático el hecho de que nos traguemos el número, o que al menos no estemos alerta y lo cuestionemos. Esta indiferencia a lo cuantitativo nos está mostrando lo extendido que está el anumerismo en nuestra sociedad, y a la vez apunta a una de sus principales causas: la superstición de la exactitud.

Desde el colegio nos acostumbran pensar que las matemáticas consisten en hacer cuentas y que la única solución que vale para un problema es la solución exacta. Nunca se hace una estimación aproximada. El resultado es que casi todo el mundo cree, sin ser muy consciente de ello, que si no se puede conocer un dato con exactitud, no se puede conocer en absoluto. Así que nos parece normal resignarnos a que no se pueda saber cuántas personas han asistido a una manifestación.

Pero es justo lo contrario. La práctica de la ciencia nos enseña que la exactitud casi nunca es posible, pero casi siempre es innecesaria. Cuando los alumnos, educados en la superstición de la exactitud, llegan al laboratorio de física en 1º de carrera suelen dar resultados con ocho o nueve cifras decimales (¡las que quepan en la calculadora!)… pero no tienen ni idea del orden de magnitud de lo que tiene que salir (para reconocer cuando un resultado es absurdo), ni son capaces de estimar el error de sus resultados (para dar los decimales apropiados).

Si no fuéramos víctimas anuméricas de la superstición de la exactitud entenderíamos de inmediato que en realidad no es necesaria la avioneta, ni las fotos de alta resolución, ni el programa de visión artificial: todo esto es matar moscas a cañonazos. Porque no hace falta contar el número exacto de manifestantes. Lo único que necesitamos es una estimación aceptable, y teniendo en cuenta las enormes discrepancias entre las versiones de las partes interesadas, el margen de ±100.000 que decíamos más arriba ya sería un gran progreso.

*

Para hacer esa estimación basta saber los metros cuadrados ocupados por la manifestación y multiplicarlos por el número de personas que hay en cada metro cuadrado. Lo primero es muy fácil desde que existe Google Maps. Sólo hay que enterarse de qué calles ocupó la manifestación, algo que hicieron cuatro blogueros en El manifestódromo, por el simple procedimiento de darse un paseo y ver hasta dónde llegaba la gente. Sin apenas tecnología, dieron durante unos cuantos años unos datos mucho más fiables que los de toda la prensa… que naturalmente no adoptó su método. El blog cesó su actividad en 2012.

Pero incluso sin saber hasta dónde se extendió realmente la manifestación podemos tener una cota superior aproximada si conocemos su recorrido, porque muy pocas veces se llena éste al completo. Y en cuanto a las personas por metro cuadrado, es muy difícil que sean más de una en una manifestación que avance (es instructivo ver el vídeo de más arriba, a partir de 0:56).

En conclusión: simplemente calculando el área en metros cuadrados del recorrido de la manifestación tenemos una cota superior razonable para el número de manifestantes.

He aplicado este criterio a las últimas Diadas en la tabla siguiente (para cada año hay un enlace a una referencia que he usado para estimar las longitudes y anchuras; en 2013 la manifestación fue una cadena humana por toda la costa catalana, el dato es de la Generalitat).

Asistentes Asistentes
Año Recorrido Longitud
(m)
Anchura
(m)
Área
(m2)
Guardia
Urbana

Delegación
Gobierno

2012 Paseo de Gracia y Via Laietana 2700 50 1,35E+05 1,00E+06 6,00E+05
2013 Costa de Cataluña 415000 1,5 6,23E+05 1,60E+06 4,00E+05
2014 Diagonal+Gran Vía 9000 50 4,50E+05 1,80E+06 5,00E+05
2015 Meridiana 5200 40 2,08E+05 1,40E+06 5,20E+05
2016 Paseo de S Joan y Lluis Companys 1560 50 7,80E+04 8,75E+05 3,70E+05
2017 Paseo de Gracia y Aragó 3400 40 1,36E+05 1,00E+06 3,50E+05
2018 Diagonal 5900 50 2,95E+05 1,00E+06 No da datos
2019 Gran Vía – Paseo de Gracia, etc 3500 50 1,75E+05 6,00E+05 No da datos

 

La mejor forma de apreciar los resultados es en forma de gráfica:

Nuestra “cota superior razonable” para el número de manifestantes, dada por el número de metros cuadrados, es siempre muy inferior a la estimación de la Guardia Urbana (GU) -¡a veces en un orden de magnitud!- y casi siempre inferior también a los números dados por la Delegación del Gobierno (DG).

Pero lo más curioso es la correlación: nuestra estimación no tiene ninguna relación con los datos de DG (el coeficiente de correlación es despreciable, R=0,04) pero sus variaciones van acompasadas con las de los datos de GU (como se puede ver en la gráfica y demuestra el coeficiente de correlación, bastante alto: R=0,78).  Si a mí me presentaran estos datos sin saber de qué se trata, sospecharía que DG se los inventa, mientras que GU los obtiene de los metros cuadrados, mas o menos con esta fórmula:

N = 1,66·M + 725.000

siendo N los asistentes y M los metros cuadrados; lo que significaría que la Guardia Urbana mete a 1,66 personas por metro cuadrado… y añade unos tres cuartos de millón. Al menos, eso es lo que dicen los ajustes por mínimos cuadrados… 😉.

Población y poblaciones (¡Peligro: porcentajes!)

¿Qué porcentaje de las noticias de los medios consiste en dar un porcentaje? Es una interesante pregunta recursiva, que no sería difícil de contestar con un poco de trabajo de campo. Yo no lo he intentado, pero sí he hecho una pequeña cata en Google Noticias, y he encontrado 15.1 millones de resultados para “porcentaje” y 28.6 millones para “por ciento”. Si comparamos con 19.4 millones para “corrupción”, 18.9 para “crimen” o 95.2 para “guerra”, vemos que los porcentajes se codean con algunos de los temas más tratados por los medios (aunque por supuesto no tienen nada que hacer frente a “fútbol”: 480 millones de resultados).

Ahora bien, la pregunta importante sería, ¿qué porcentaje de esas noticias sobre porcentajes es correcto? Aquí habría que hacer mucho más trabajo para estimarlo, pero me atrevo a apostar que no es muy grande. Rara es la noticia que mencione un porcentaje que, de un modo u otro, no tenga algún error.

PeligroPorcentajes

Por ejemplo, aquí tienen dos noticias recientes reseñadas en Malaprensa: La recuperación reduce un 500% las quiebras empresariales en Baleares y El 93 por ciento de los españoles quiere abolir el cambio de hora. La primera es un disparate bastante obvio, en la segunda el fallo es más sutil… pero también está mal.

Aquí les traigo otra:

La Tierra ha perdido el 60% de sus animales salvajes en 44 años

EL titular es del ABC, pero podría haberlo tomado de muchos otros medios: La Verdad titula exactamente igual, El Confidencial dice que Los humanos hemos arrasado el 60% de la vida animal en sólo 40 años, Computer Hoy (que no sé por qué informa de estas cosas) afirma que La población de vida silvestre ha disminuido un 60% desde 1970…y así podríamos poner muchos más ejemplos (¡incluso de años anteriores!: en 2016, El País informaba de que Más de la mitad de las poblaciones de vertebrados han desaparecido en 40 años).

Pero en realidad, el informe del WWF que es la fuente de la noticia, no dice eso: lo que ocurre es que la inmensa mayoría de los periodistas no lo han entendido bien. Un titular mucho más ajustado a la realidad es el de  La Vanguardia, que dice que Las poblaciones de vertebrados se han reducido un 60% en 40 años por el descontrolado consumo humano, según lamenta WWF.

¿No es lo mismo? No. En primer lugar se trata de vertebrados, no de la vida silvestre, ni de los animales (la vida silvestre incluye las plantas, y la inmensa mayoría de los animales son invertebrados).

Pero lo que más nos interesa aquí es algo más sutil. Cuando el WWF habla de “poblaciones de vertebrados”, está usando un término técnico, de manera que, curiosamente, decir que “las poblaciones han disminuido en un 60%” no es lo mismo que decir que “la población ha disminuido en un 60%”.

Lo explican muy bien en un artículo de The Atlantic, titulado “Wait, Have We Really Wiped Out 60 Percent of Animals?”, del que traduzco:

Para comprender la diferencia, imagina que tienes tres poblaciones: 5.000 leones, 500 tigres y 50 osos. Cuatro décadas después, tienes sólo 4.500 leones, 100 tigres y sólo 5 osos (¡vaya por Dios!). Estas tres poblaciones han disminuido en un 10 por ciento, 80 por ciento y 90 por ciento, respectivamente, lo que significa que la disminución promedio es del 60 por ciento. Pero el número total de animales ha pasado de 5.550 a 4.605, que es una disminución de sólo el 17 por ciento.

El decir, en este ejemplo las poblaciones han sufrido una disminución del 60% pero la población ha disminuido sólo el 17%. Y este es un problema recurrente con los tantos por ciento. Imaginen que hacemos algo similar a lo que ha hecho el WWF pero con los municipios de España en vez de con las poblaciones animales. La gran mayoría de municipios son pueblos pequeños cuya población ha declinado espectacularmente en los últimos 40 años. Así que las poblaciones (de los municipios españoles) han sufrido una gran disminución en los últimos cuarenta años, pero la población (de España) no ha disminuido, sino que ha aumentado, gracias al crecimiento de las capitales de provincia y las grandes ciudades.

¿Cuál es la disminución real de la población de vertebrados? Con los datos del informe del WWF no lo podemos saber; de hecho, aproximadamente la mitad de las poblaciones estudiadas están aumentando, pero la media de los porcentajes da una importante disminución porque los porcentajes de disminución son mucho más grandes que los de aumento.

No se trata pues de minimizar el problema: es realmente grave, y está bien que se informe sobre ello. Pero no costaría tanto contar la historia bien: el propio informe del WWF advierte explícitamente que “no es un censo de toda la vida salvaje, sino un informe sobre cómo han cambiado de tamaño sus poblaciones”.

Moraleja: Cuando veas un tanto por ciento, echa mano de tu sentido crítico… o si no, más vale que olvides la noticia.

La EvAU en el mundo real: el desenlace

¿Qué fue de Diego, el alumno que conocimos en el post anterior queriendo entrar en Medicina? Hoy ya conocemos el desenlace. De todos los mundos posibles considerados por la estadística, el que se materializó fue este:

AjusteNotasCorte2018

Esta gráfica es la misma que vimos en el post anterior, con la única diferencia de que aparece un punto más, el de la nota de corte de 2018. Y está justo sobre la recta, es decir, que nuestra extrapolación se ha cumplido casi con toda exactitud: Diego ha podido matricularse en Medicina, en la Universidad de Alcalá.

Ahora podríamos decir triunfantes: ¡así funciona la ciencia! Pero no sería honrado. Las extrapolaciones lineales no siempre aciertan, y en este punto conviene ver cómo ha sido la evolución de las otras universidades de Madrid:

EvolucionNotasCorte2018

A la vista de la gráfica, tenemos que abandonar el triunfalismo, y nos vemos incluso tentados a pasar al extremo opuesto: parece que, en realidad, la única universidad en la que la extrapolación lineal ha acertado es la de Alcalá… Pero una vez más, no sería una buena conclusión. Decir que la extrapolación “ha acertado” es una simplificación, un titular periodístico que traiciona su esencia, que es estadística. El valor que nos proporciona la recta de ajuste en 2018 sólo es el valor más probable de acuerdo con nuestro modelo lineal. Pero no siempre el valor más probable es el que ocurre (ya vimos en el post anterior que había una distribución en torno a ese valor, y que podíamos trazar unos márgenes que acotaban su probabilidad) y no siempre las cosas son lineales.

La suposición de una variación lineal es la más sencilla, y por eso es razonable cuando los datos no nos sugieren lo contrario, como ocurría aquí. Pero incluso con estos datos había alguna razón para sospechar posibles desviaciones de la linealidad, al menos en dos casos.

Un caso es el de la Universidad Autónoma: dado que la nota máxima posible es 14 y ya el año pasado su nota de corte se estaba aproximando a ese valor, era previsible que el crecimiento se ralentizara, tal como ha ocurrido. Y otro es el de la Universidad Rey Juan Carlos… por motivos bien diferentes, que están en la mente de todos: por mucho que los recientes escándalos no hayan afectado a la facultad de Medicina, era previsible cierto efecto de contagio.

La EvAU, la nota de corte y los mundos posibles

Estos días, miles de alumnos que hace poco conocieron la nota de la EvAU (antes llamada Selectividad) se enfrentan a una decisión que va a marcar su futuro: elegir carrera.

La cuestión no es aprobar (lo consiguen más del 90% de los presentados) sino sacar una nota suficientemente alta para ser admitido, algo que sólo resulta difícil en unas cuantas titulaciones, las más demandadas.

Así que si un estudiante madrileño (llamémosle Diego) quiere ser ingeniero de caminos, puede respirar tranquilo porque la nota de corte en la Politécnica de Madrid es un 5. Sin embargo, si su sueño es ser médico, el panorama es muy distinto: en la Autónoma necesitará un astronómico 13,11 (recordemos que la máxima nota posible es un 14) y en la Universidad de Alcalá, la que tiene nota de corte más baja en la Comunidad de Madrid, un 12,747, que no es precisamente fácil de alcanzar. Pero nuestro Diego es un excelente estudiante y ha sacado un 12,854. ¿Puede respirar tranquilo entonces?

No está tan claro. La nota de corte que ha encontrado en la web es la del último alumno que se matriculó el año pasado, en 2017, y lo que importa es la nota del 2018. No la puede saber, claro, pero puede preverla basándose en la evolución de los últimos años. Con un rato de googleo encuentra estos datos:

2012: 12,229       2013: 12,396       2014: 12,422       2015: 12,543       2016: 12,575       2017: 12,747

Malas noticias: la nota del corte está subiendo como la espuma; en cinco años, un poco más de 5 décimas. Si sube a una décima por año, se pondría en 12,877 en el 2018 y ¡se quedaría sin entrar!

Pero no hay que alarmarse todavía. Podemos hacer una predicción mejor, si sabemos cómo procesar mejor estos datos… como lo haría por ejemplo un físico. A Diego no se lo han enseñado en el bachillerato, así que vamos a hacer el trabajo por él.

Lo primero es recabar más datos. No cuesta mucho tener los de todas las universidades madrileñas, y lo mejor es ponerlos en un gráfico:

EvolucionNotasCorte

Se confirma que la tendencia ascendente es universal, y muy acentuada: hace sólo 2 años, en 2016, Diego habría entrado en cualquier universidad de Madrid; en 2017, sólo en la Rey Juan Carlos y la de Alcalá. En 2018… es lo que hay que ver.

En lugar de mirar al pasado, tenemos que mirar al futuro y extrapolar. Centrémonos en el caso más favorable, el de Alcalá. En lugar de unir los puntos como antes, vamos a dibujar una línea de tendencia (hay una manera matemáticamente rigurosa de hacerlo, que se llama regresión lineal, pero sale casi igual de bien a ojo, con una regla). Voilá:

AjusteNotasCorte

Esta es una gráfica más profesional… y más tranquilizadora: vemos que la extrapolación de la nota de corte en medicina en la universidad de Alcalá para el 2018 queda por debajo de la nota de Diego. Es fácil ver por qué antes teníamos una predicción distinta: fijarnos en el incremento total de la nota de corte en estos años es cómo trazar una línea sólo con los puntos primero y último, que tiene más pendiente que la recta de ajuste correcta.

Ahora bien, ¿cómo de tranquilos podemos estar? Sería arriesgado decir con estos datos que Diego va a entrar: en realidad, lo que nos dice nuestra gráfica es que es lo más probable es que entre. ¿Podríamos cuantificar esta probabilidad?

Pues sí: pensando en la tranquilidad de Diego (y de sus padres), hace tiempo que los matemáticos dieron con una forma de hacerlo… que además se basa en algo que Diego sí ha estudiado: la distribución normal de probabilidad, la famosa campana de Gauss, esa de la que le han dado una tabla en el examen de la EvAU…

Pero ¿cómo es que podemos hablar de probabilidades? Cada año, la nota de corte es la que es ¡no hay ninguna “distribución de probabilidades”! Es cierto, pero no subestimemos el ingenio de los matemáticos. Podemos dar un giro a nuestra manera de ver el asunto.

Supongamos que nuestro mundo es sólo uno de los muchos mundos posibles. Supongamos que en cada mundo hay una nota de corte, que están distribuidas según una distribución normal (porque ¿de qué otra manera iban a estarlo?), y que la bonita variación lineal que hemos llamado “ajuste” es el promedio de las notas de corte en todos los mundos posibles. Entonces, las notas de corte que hemos observado de hecho en nuestro mundo (los puntos de la gráfica) se desviarán de esa recta como cabe esperar que se desvíen de la media las muestras extraídas de una distribución normal.

Lo interesante es que esta idea nos permite averiguar cómo es esa distribución: como le han explicado a Diego en el bachillerato, una distribución normal  tiene una anchura dada por el parámetro σ (sigma: la desviación típica), de modo que el 68% de los valores está comprendido en un intervalo de ± σ en torno a la media. Así que podemos saber la σ de la distribución de notas (en todos los mundos posibles) trazando el intervalo en torno a la línea de medias (la recta de ajuste) que contiene el 68% de las observaciones, es decir, 4 de 6. Aquí está:

AjusteConIntervalo

En la banda definida por las dos líneas grises hay cuatro datos: el 68% de los 6 que tenemos. La anchura de esa banda es pues  σ, y sólo tenemos que ver a cuánta distancia está Diego de la línea de ajuste, medida en unidades de σ. Se ve en la gráfica que está a un poco más de una sigma; si lo medimos bien, resulta ser 1,37 sigmas. Y ahora, con una tabla como la del examen de la EvAU, podemos ver que la probabilidad de que un valor esté a una distancia de la media menor o igual que 1,37·σ es del 91%.  Eso significa que en el 91% de los universos posibles, el valor de la nota de corte en 2018 está por debajo de la de Diego: puede respirar tranquilo.

O para ser precisos, un 91% tranquilo…

*

Nota: Los lectores con buena vista habrán observado que las dos líneas grises no son exactamente paralelas, sino que se abren al alejarnos del centro de la gráfica. Y los lectores expertos en estadística sabrán por qué. Pero el post es demasiado largo ya para explicarlo, y lo mejor del asunto es que ese tecnicismo no tiene mucha importancia en realidad…

Contando manifestantes (o la posverdad numérica)

Desde que el Diccionario Oxford la proclamó como “palabra del año” y The Economist le dedicó una portada, no hay día que no oigamos hablar de la posverdad.

Y lo cierto es que necesitábamos la palabra, que no es sinónimo de “mentira”, como dicen algunos críticos de oído poco fino. Posverdad no se refiere a tal o cual noticia falsa, sino a un estado de ánimo: la actitud de quien valora, por encima de la verdad fáctica de las cosas, su particular “verdad” sentimental. Eso tan cursi de “mi verdad”, que hace años sonaba a parla de folclóricas, y que hace aún más años hizo decir certeramente a don Antonio Machado:

¿Tu verdad?  No, la Verdad,
y ven conmigo a buscarla.
La tuya, guárdatela.

La posverdad está hoy por todas partes, y no se detiene ni ante las matemáticas. El President de la Generalitat y el Delegado del Gobierno en Cataluña seguramente coincidirán en que una mano tiene cinco dedos, pero si esa elemental operación de contar la extienden a los manifestantes de la Diada, sus resultados pueden diferir en un orden de magnitud.

Lo más grave es que a nadie parece importarle. Las partes esgrimen sus verdades, los medios las publicitan, y nosotros nos quedamos con la que más nos gusta. Aunque en general, el número que prevalece es al más abultado. Toda manifestación que se precie alcanzará el millón de asistentes, según sus convocantes. Ese es un número que les encanta a los medios (sensacionalismo en acción) y que, repetido una y otra vez, se convierte en canónico, y acaba siendo admitido sin discusión, como algo “que todo el mundo sabe”.

¿Es que es imposible contar manifestantes? Contarlos, quizá, sí; al menos, sin helicópteros, cámaras,  y herramientas de análisis de imagen. Pero ¿quién necesita contarlos? Basta estimarlos con una aproximación razonable, y eso es facilísimo: el número de manifestantes es, en primera aproximación, el número de metros cuadrados que ocupó la manifestación. Y ni siquiera es necesario medir el área con precisión, ya que la estimación de un manifestante por metro cuadrado tampoco es demasiado precisa…

Naturalmente, quien no sabe de números enseguida criticará este desprecio por la precisión, pero se equivoca. La idea importante es que, por burdo que sea el cálculo, es una estimación razonable e imparcial del orden de magnitud: no nos podrá decir si había 82.000 o 97.000 manifestantes, pero sí que no había diez mil ni un millón, digan lo que digan los convocantes.

Para estimar el área de una manifestación basta enviar a cuatro o cinco periodistas que inspeccionen hasta dónde llega la gente, y luego mirarlo en Google Maps. Un periódico que hiciera esto en cada protesta multitudinaria prestaría un impagable servicio a la democracia. Sospecho que si no se hace no es tanto por pereza como por analfabetismo numérico.  La idea de que casi nunca necesitamos una medida exacta, sino una estimación razonable, y que esa estimación puede ser muy fácil de obtener, no forma parte de nuestra cultura. Nadie nos lo enseña en el colegio; al contrario, salimos con la idea de que las matemáticas son cuentas (primer error) y que las cuentas sólo valen si son exactas (segundo error).

Y como no podemos conocer la verdad absoluta (el número exacto de asistentes), nos tragamos impávidos la posverdad, teniendo a nuestro alcance una verdad aproximada… que es la única que necesitamos.

*

NOTA: Este artículo está inspirado por este otro, de Álex Grijelmo: Nunca hubo un millón. Les recomiendo encarecidamente su lectura. A ver si entre todos vamos desmontando el mito del millón de manifestantes (sea cual sea la convocatoria…).