Causalidad, casualidad y estadísticas


“Existen tres tipos de mentiras: las mentiras, las malditas mentiras y la estadística”

Consideren la siguiente información: un estudio de la incidencia de cáncer de riñón en los 3.141 condados de Estados Unidos reveló un patrón notable: los condados en los que la incidencia de cáncer de riñón es más baja son en su mayoría rurales, poco habitados y situados en estados tradicionalmente republicanos en el medio oeste, sur y oeste. Ahora, ¿qué conclusión pueden sacar a partir de esta información?

Su mente ha estado muy activa en los últimos segundos, ya que está trabajando lo que el sicólogo y Premio Nobel de Economía Daniel Kahneman ha llamado Sistema 2: el modo de pensar lento que usamos en actividades complejas, como llenar nuestra declaración de impuestos, comparar dos productos para decidir cual comprar o manejar con tráfico en un día de lluvia. Deliberadamente han buscado datos en su memoria y han formulado ciertas hipótesis. Ciertamente han hecho algo de esfuerzo: sus pupilas se dilataron y su ritmo cardíaco aumentó de manera medible. Sin embargo también han usado el Sistema 1: el modo rápido que usamos cuando reaccionamos a los sonidos fuertes, para comprender oraciones simples o para manejar en una carretera vacía. Este sistema no estaba durmiendo y probablemente ha rechazado la idea de que ser republicano proporciona protección contra el cáncer de riñón. Es muy probable que hayan terminado centrándose en el hecho de que los condados con baja incidencia de cáncer son en su mayoría rurales. Es a la vez fácil y tentador inferir que la baja tasa de cáncer se debe directamente a la vida sana asociada a la vida rural: escasa contaminación del aire, agua pura, acceso a alimentos frescos y sin aditivos. Esto tiene mucho sentido.

Consideremos ahora los condados en los que la incidencia de cáncer de riñón es la más elevada. Estos condados tienden a ser en su mayoría rurales, poco habitados y situados en estados tradicionalmente republicanos en el medio oeste, sur y oeste. Es fácil inferir que sus altos índices de cáncer podrían estar directamente relacionados con la pobreza de la vida rural: no tienen acceso a una buena atención médica, tienen una dieta rica en grasas y tal vez consumen alcohol y/o tabaco en exceso… pero, ¿notan algo raro? Por supuesto que hay algo terriblemente mal aquí: el estilo de vida rural no puede explicar un nivel muy alto y al mismo tiempo muy bajo de incidencia de cáncer de riñón. ¿Qué está pasando?

El factor clave no es que los condados fueran rurales o predominantemente republicanos. El factor clave en esta historia es que los condados rurales tienen poblaciones pequeñas. Y la principal lección que hay que aprender no es sobre epidemiología, sino que se trata de la difícil relación entre nuestra mente y las estadísticas. El Sistema 1 es muy apto para la forma de pensar que automática y fácilmente identifica las conexiones causales entre los acontecimientos, a veces incluso cuando la conexión no existe. Cuando leyeron sobre los condados de alta incidencia de cáncer, ustedes asumieron inmediatamente que estos condados son “especiales” y de alguna forma diferentes de otros condados, que debe haber una causa que explica esta diferencia. Como veremos, sin embargo, el Sistema 1 es muy inapropiado cuando se enfrentan con hechos meramente estadísticos, que cambian la probabilidad de los resultados, pero no causan el resultado.

La previsibilidad de la aleatoriedad

Un evento al azar, por definición, es aleatorio (¡dah!), pero las colecciones de eventos aleatorios se comportan de forma muy regular. Imaginen una gran urna llena de bolitas. La mitad de las bolitas son de color rojo, la otra mitad son de color blanco. Ahora, imaginen a una persona muy paciente (o un robot) que toma sin mirar cuatro bolitas de la urna y anota el número de bolitas rojas en la muestra y luego las devuelve otra vez a la urna. Luego repite el proceso, muchas veces. Si resumimos los resultados, encontraremos que el resultado “dos rojas, dos blancas” se produce (casi exactamente) seis veces más que el resultado “cuatro rojas” o “cuatro blancas.” Esta relación es un hecho matemático.

roll-the-dice

Un hecho estadístico relacionado es relevante para entender lo que pasa con el ejemplo del cáncer. De la misma urna, dos personas se turnarán para extraer las bolitas. Juan saca cuatro bolitas cada vez y Pedro saca siete. Ambos anotan cada vez que observan una muestra homogénea; es decir, todas las bolitas rojas o blancas. Si lo hacen durante un tiempo suficiente, Juan observará estos resultados extremos con más frecuencia que Pedro. De hecho, por un factor de ocho (los porcentajes previstos son el 12,5 % y 1,56 %). No es causalidad, sino un hecho matemático: Las muestras de cuatro bolitas producen resultados extremos con más frecuencia que las muestras de siete bolitas. Es la regularidad subyacente a un evento aleatorio que se repite muchas veces.

Ahora, imaginen a la población de los Estados Unidos como bolitas en una urna gigante. Algunas bolitas están marcadas con las letras CR, por cáncer de riñón.  De esta forma, las muestras rurales son más pequeñas que otras muestras, como la de Nueva York, por ejemplo. Al igual que en el ejemplo de Juan y Pedro, los resultados extremos (muy altas y/o bajas tasas de cáncer) son más probables de encontrar en los condados con bajo número de habitantes. Esa es la explicación para la incidencia de cáncer del ejemplo.

No hay nada especial en esos condados, es pura y sencilla estadística.

Nuestra predilección por el pensamiento causal nos expone a graves errores en la evaluación de la aleatoriedad de los acontecimientos verdaderamente aleatorios. Por ejemplo, tomemos el sexo de seis guaguas nacidas en secuencia en un hospital. La secuencia de los niños y las niñas es, obviamente, al azar; los eventos son independientes entre sí y el número de niños y niñas que nacieron en el hospital en las últimas horas no tiene efecto alguno sobre el sexo del bebé que viene. Consideremos ahora tres posibles secuencias:

 1) Niño – Niño – Niño – Niña – Niña – Niña

 2) Niña – Niña – Niña – Niña – Niña – Niña

 3) Niño – Niña – Niño – Niño – Niña – Niño

¿Son igualmente probables estas secuencias? La respuesta intuitiva “¡por supuesto que no!” es incorrecta. Debido a que los eventos son independientes y porque los resultados Niño y Niña tienen (aproximadamente) la misma probabilidad, entonces una secuencia de seis nacimientos consecutivos es tan probable como cualquiera otra. Incluso ahora que saben esto, sigue pareciendo raro y contrario a su intuición, porque solo la tercera secuencia parece ser al azar. Como era de esperar, la secuencia Niño – Niña – Niño – Niño – Niña – Niño se juzga mucho más probable que las otras dos secuencias. Somos buscadores de patrones, creemos en un mundo coherente, en el que las regularidades (como una secuencia de seis niñas) no aparecen por casualidad, sino como resultado de la causalidad mecánica o de la intención de alguien. No esperamos ver regularidad producida por un proceso aleatorio y, cuando detectamos lo que parece ser un patrón, rechazamos rápidamente la idea de que el proceso es verdaderamente aleatorio.

El secreto del éxito de las escuelas

La Fundación Gates invirtió US $1.700 millones para intentar descubrir qué característica diferencia a las escuelas más exitosas. Muchos investigadores han buscado el secreto del éxito de la educación mediante la identificación de las escuelas más exitosas con la esperanza de descubrir su receta mágica. Una de las conclusiones de esta investigación fue que las escuelas más exitosas, en promedio, son pequeñas. En una encuesta de 1.662 escuelas en Pennsylvania, por ejemplo, seis de los 50 primeros puestos fueron para escuelas pequeñas, lo que que sobrepasaba lo esperado por un factor de cuatro. Estos datos alentaron a la Fundación Gates para hacer una fuerte inversión en la creación de escuelas pequeñas, a veces separando escuelas grandes en unidades más pequeñas.

c
Ok, escuelas no *tan* pequeñas…

Esto probablemente tiene un sentido intuitivo. Es fácil construir una historia causal que explica cómo las escuelas pequeñas son capaces de proporcionar la educación de mejor calidad y por tanto producen estudiantes de alto rendimiento, dándoles una atención más personalizada y mejores estímulos, lo que podría explicar que tengan mejores resultados que las escuelas más grandes… Por desgracia, este análisis causal no sirve de nada, ya que los hechos están equivocados.Si los estadísticos que hicieron el informe para la Fundación Gates se hubieran preguntado por las características de las peores escuelas habrían encontrado que las malas escuelas tienden a ser más pequeñas que el promedio. La verdad es que las escuelas pequeñas no son mejores en promedio; simplemente son más variables. Más aún, las escuelas grandes tienden a producir mejores resultados, sobre todo en los cursos mayores, donde existe más variedad de opciones curriculares (al menos en EEUU).

Esta ley de los números pequeños es parte de una historia más amplia sobre el funcionamiento de la mente: las estadísticas producen muchas observaciones que parecen calzar con explicaciones causales erroneas. Muchos hechos del mundo se deben al azar, incluidos los accidentes de muestreo: las explicaciones causales de eventos fortuitos están inevitablemente equivocadas.

Esta columna es un resumen traducido al castellano de un capítulo del libro “Thinking fast and slow” de Daniel Kahneman. Si pueden leerlo, se los recomiendo con sello de garantía y satisfacción.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s