Relaciones que no lo son (y II)

En la entrada anterior vimos la diferencia entre correlación y relación. Confundirlas conlleva caer en la falacia cum hoc ergo propter hoc. Citamos de la Wikipedia:

Cum hoc ergo propter hoc (en latín, ‘con esto, por tanto a causa de esto’) es una falacia que se comete al inferir que dos o más eventos están conectados causalmente porque se dan juntos. Esto es, la falacia consiste en inferir que existe una relación causal entre dos o más eventos por haberse observado una correlación estadística entre ellos. Esta falacia muchas veces se refuta mediante la frase «correlación no implica causalidad».

No podemos evitarlo, amigo lector; los seres humanos tendemos a pensar que si dos sucesos ocurren más o menos a la vez, uno de ellos causa el otro. Además, nos sentimos cómodos con la creencia de que todo ocurre con un propósito. Nos cuesta aceptar que las cosas suceden en muchas ocasiones por azar, que a la naturaleza le importan un comino nuestros prejuicios o que se cumplan nuestros anhelos.

En resumen, es difícil que se nos meta en la cabeza que dos sucesos pueden darse a la vez sin estar conectados. Cuando hay una correlación entre A y B, inmediatamente pensamos que existe una relación y que A es la causa de B. Pero puede que B sea la causa de A. O que haya un factor oculto (o más de uno) que conecte A y B. O que todo se deba al capricho del azar.

Por ejemplo, si calculáramos el coeficiente de correlación entre la calvicie masculina y la deforestación de la jungla en el sudeste asiático, probablemente obtendríamos un valor próximo a +1. En efecto, puede comprobarse que conforme nos vamos quedando calvos, la jungla va desapareciendo. ¿Quiere eso decir que la calvicie provoca la deforestación? ¿O es a la inversa? ¿Hay algún factor oculto que conecta ambos fenómenos? ¿O se debe a una simple casualidad? 🙂

Como siempre viene bien un poco de humor, recomendamos encarecidamente echar un vistazo al sitio web de Spurious Correlations (Correlaciones espurias), cuyo autor es Tyler Vigen. Asimismo, se puede adquirir el libro en papel o la versión Kindle.

La lectura de Correlaciones espurias es muy divertida, incluso hilarante. T. Vigen se dedicó a buscar correlaciones, a cuál más disparatada. Así, encontramos que hay una correlación positiva muy fuerte entre la cantidad de gente que se ahoga en una piscina y el nº de películas en las que aparece Nicholas Cage. O entre el consumo de queso y el nº de personas que mueren enredadas en las sábanas de su cama. O entre el nº de personas que mueren ahogadas al caerse de un barco de pesca y la tasa de matrimonios en Kentucky. O entre la tasa de divorcios en Maine y el consumo de margarina. O… 😀

Fuente: tylervigen.com/spurious-correlations

Divertido, sin duda, pero Correlaciones espurias debería hacernos meditar. T. Vigen nos advierte de que los seres humanos estamos biológicamente inclinados a reconocer patrones, pero que la correlación sólo significa que dos cosas varían juntas. No siempre las correlaciones tienen sentido. Peor aún: el autor señala el peligro del uso impropio de la Estadística.

No es demasiado complicado hallar correlaciones entre las cosas más extrañas. El método se llama «data dredging» (o «data fishing», que podría traducirse como pesca de datos). Se trata de comparar la serie de datos que nos interese con cientos (o miles) de otras series de datos. Comparamos y comparamos sin cesar, hasta tropezarnos con alguna correlación. Así, a lo bruto, en vez de diseñar experimentos cuidadosos que estudien esas comparaciones una a una (que es como debe hacerse).

Hoy, los ordenadores nos permiten manejar ingentes cantidades de datos, mediante algoritmos sencillos. Esto nos facilita hallar muchas correlaciones entre series de datos sin relación alguna (sobre todo, si el nº de datos que se comparan no es muy grande).

T. Vigen usó el «data dredging» para hallar correlaciones graciosas. Sin embargo, a pesar del humor, el libro tiene un lado muy serio. Las gráficas pueden mentir. Las correlaciones no tienen por qué indicar una conexión causal subyacente. Ay, el «data dredging» permite hallar muchas relaciones espurias… Las correlaciones pueden llevarnos por el mal camino si las empleamos incorrectamente. Incluso las gráficas pueden ser engañosas. La forma de representarlas no es tan inocente como parece.

Un ejemplo es el libro The Bell Curve (1994), de Richard J. Herrnstein y Charles Murray. Mucho debate ha habido sobre él, pues aborda un tema espinoso: relaciona el cociente intelectual (CI) con la raza. Y había una correlación: los negros americanos tenían un CI inferior al de los blancos.

Las críticas a The Bell Curve no se centran en su racismo más o menos explícito, sino en el uso tremendamente chapucero que hace de la Estadística para llegar a tales conclusiones. Dejando aparte si tiene sentido reducir algo tan complejo como la inteligencia humana a un único número (CI), y si nuestra especie puede dividirse en razas según el color de la piel (¿por qué no definimos las razas basándonos en la intolerancia a la lactosa, por ejemplo?), los autores caen en la falacia que hemos comentado antes: confunden correlación con causación. ¿Hay una correlación entre la raza y el CI? Pues ambos factores tienen que estar ligados, ¿no? Y de ahí a proponer que la inteligencia, igual que el color de la piel, están condicionados por los genes hay un paso muy pequeño.

Hay otras explicaciones a esa correlación. Por ejemplo, que a lo largo de los siglos, a ciertos grupos (negros, pobres, mujeres…) se les haya negado o dificultado el acceso a una educación de calidad. Algo que se puede arreglar, por cierto, con políticas de igualdad, que ofrezcan a todo el mundo las mismas oportunidades. Pero claro, si las diferencias de inteligencia tuvieran una base biológica, no merecería la pena gastar el dinero público en esas políticas, ¿verdad?

Como el lector habrá deducido, libros al estilo de The Bell Curve son del agrado de los sectores más reaccionarios, aquellos que quieren dejar las cosas tal como están, pues el statu quo es algo que les parece natural. Algún día hablaremos del darwinismo social, que repugnaba al propio Darwin. El uso de la Estadística puede no tener nada de inocente. Por eso es bueno adquirir unos conocimientos matemáticos básicos: hace más difícil que nos vendan milongas.

Actualmente, con el auge de las pseudociencias y el pensamiento mágico, cada dos por tres leemos en la prensa que los científicos han «descubierto» una relación entre algún aparato o alimento y ciertas enfermedades. Tratemos todas esas noticias con espíritu crítico.

Pensemos en un ejemplo hipotético: se ha hallado una correlación entre el uso de hornos microondas y el Alzheimer (me lo estoy inventando, insisto). En efecto, tras recopilar un montón de datos, se llega a la conclusión de que los países con más microondas per cápita tienen una mayor incidencia de Alzheimer. Ergo, hay una relación, nos aseguran, al tiempo que despotrican contra la vida moderna, las ondas electromagnéticas y mil cosas más.

Pues probablemente no. Comprar un microondas cuesta dinero. Por tanto, en los países más ricos es más fácil hacerse con un microondas. Y, por regla general, los países más ricos tienen también mejores servicios, son más seguros y disfrutan de un mejor sistema sanitario. Por tanto, la gente vive más tiempo. Y cuando la esperanza de vida es mayor,  es más probable morir de enfermedades asociadas a la edad, como el Alzheimer o el cáncer, que de otras más típicas de países pobres (enfermedades infecciosas, inanición, muertes violentas, etc.).

En fin, sabemos que fomentar el espíritu crítico no está de moda, pero no cejaremos en el empeño. 🙂

Feliz Año Nuevo, amigo lector.

NOTA: Salvo que se indique lo contrario, las imágenes han sido tomadas de pixabay.com, libres de derechos de autor.

 

Anuncios

Relaciones que no lo son (I)

Cada dos por tres nos encontramos en los medios de comunicación con noticias en las que se afirma que los científicos han hallado una relación entre el consumo de ciertos alimentos y diversas enfermedades, entre las líneas de alta tensión y el cáncer, entre el manejo de teléfonos móviles y problemas de salud, etc. Se trata, en muchos casos, de noticias sensacionalistas que buscan un titular impactante. Más aún: muchas de estas supuestas relaciones no son tales. Debemos aguzar nuestro sentido crítico. Por lo general, cuando los científicos leemos algo al estilo de «La Ciencia dice que…», nos echamos a temblar. 🙂

Lo que ocurre es que muchos estudios se limitan a detectar correlaciones, no relaciones. Y no es lo mismo; no, señor. O dicho más finamente, correlación no implica causalidad. Intentaremos explicarlo, porque las correlaciones las carga el diablo. 🙂

Empecemos por lo básico, citando, cómo no, de la Wikipedia:

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación entre ellas si al disminuir los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad.

Aclarémoslo con un ejemplo hipotético. Se nos antoja averiguar si existe una correlación entre, pongamos por caso, el consumo de mermelada de pera y la distancia a la que somos capaces de escupir un hueso de aceituna (se han estudiado correlaciones más raras, palabra de honor). 🙂 Nos ponemos manos a la obra, convencemos a unos cuantos voluntarios para que participen y diseñamos unos experimentos en los que les damos determinadas cantidades (en gramos) de mermelada y luego medimos la distancia (en centímetros) a la que arrojan los huesos. Los resultados obtenidos podrían mostrarse en una gráfica:

Hay diversas formas de calcular la correlación entre variables. Una de ellas es el coeficiente de correlación de Pearson. Sin entrar en detalles, este coeficiente puede variar entre +1 y -1. Podría darse el caso de la Fig. 1: las dos variables se comportan de forma similar. Es decir, a mayor consumo de mermelada, más lejos se escupen las aceitunas, o viceversa. En este caso tendríamos un índice de correlación de +1: una correlación positiva perfecta.

En la Fig. 2 vemos lo que ocurriría si se diera el caso contrario: al aumentar el consumo de mermelada de pera, disminuye el vuelo de los huesos de aceituna. Hay una correlación negativa perfecta, con un índice de -1.

En la Fig. 3 nos encontramos con que cada una de las variables va a su aire. Al incrementar el consumo de mermelada, la distancia recorrida por los huesos puede aumentar o disminuir. No percibimos ningún patrón de comportamiento. El índice de correlación es 0. Eso indica que no existe una relación lineal entre ambas variables.

Por supuesto, podrían darse todos los casos intermedios, obteniéndose correlaciones positivas o negativas más o menos fuertes. En fin, el concepto de correlación es sencillo de comprender, ¿no?

Supongamos que el resultado obtenido en nuestro experimento es el que aparece en la Fig. 1: un índice de correlación de +1, o un valor muy próximo a este. Habríamos descubierto que existe una correlación entre ambas variables, sin duda. Y el periodista de turno publicaría en grandes titulares: «Los científicos descubren que hay una relación entre el consumo de mermelada de pera y la habilidad para escupir huesos de aceituna», o algo por el estilo.

¿Seguro? Recordemos la última frase de la definición de la Wikipedia, que resaltamos en rojo:

La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad.

De acuerdo, el índice de correlación nos indica que esta existe, pero nada más que eso. No nos dice el tipo de relación que hay entre ambas variables. En nuestro ejemplo hipotético, tal vez el consumo de mermelada permita escupir huesos de aceituna más lejos. O quizá sólo nos sugiere que a la gente aficionada a escupir huesos le gusta más la mermelada. O podría tratarse de una relación espuria, fruto de la casualidad, y que ambas cosas no tuvieran nada que ver la una con la otra.

Quédate con esta idea, amigo lector: el índice de correlación sólo nos dice si dos variables varían del mismo modo o no, pero no nos informa acerca de la relación entre ambas variables, ni si una influye en la otra o se trata de una casualidad… Para averiguar si cicha relación existe, necesitamos más estudios, tener en cuenta más factores, etc.

En la próxima entrada veremos algunos ejemplos hilarantes de correlaciones, en las que el azar nos juega malas pasadas. Pero la confusión entre correlación y relación también tiene un lado oscuro, y puede servir para justificar tremendas injusticias sociales o para estafar al prójimo.