Tony Crilly[2]
[George Gallup, pionero en la realización de encuestas, es conocido por comentar que podía probar que Dios existía con las herramientas de la estadística. El escéptico historiador del siglo XIX, Thomas Carlyle, igualmente conocido, despreció la estadística por su habilidad para probar cualquier cosa que uno desee. Éstos fueron los extremos, pero sus afirmaciones llaman la atención. Guste o no, hoy vivimos en un mundo abarrotado de estadísticas, ejércitos de investigadores se dedican a la recolección de datos y sacar conclusiones de ellos. Pero ¿qué significado matemático emplean? Y ¿qué es lo que, en el caso de que haya algo, podemos afirmar con las estadísticas?]
Las estadísticas con frecuencia sufren de mala prensa, siendo vistas con recelo como un medio engañoso de exponer un punto, especialmente en el terreno político, un terreno en el cual surgió el término «estadística». Mark Twain atribuyó la acusación «mentiras, grandes mentiras y estadísticas» a Benjamin Disraeli y, aunque no es seguro si el estadista victoriano realmente dijo la frase, desde entonces ha sido pronunciada muchas veces para expresar desprecio por argumentos discutibles «reforzados» con datos.
Pero ¿está esta reputación justificada? A pesar de ella, no cabe duda de que la sociedad actual y la economía no podrían funcionar sin estadísticas; ellas apuntalan las decisiones de gobiernos, organizaciones nacionales e internacionales y compañías grandes y medianas.
Los estadísticos son, en consecuencia, profesionales muy demandados. Hay algo reconfortante y no abstracto en sus prácticas matemáticas lo que las hace parecer mucho más ligadas a aplicaciones prácticas.
Diagramas de sectores y la dama de la lámpara
La relación entre los gráficos estadísticos y el objetivo de promover un razonamiento significa que la presentación juega un papel importante. La estadística genera una colección de diagramas y gráficos para traducir las con frecuencia intimidatorias cantidades de datos numéricos, en recursos visuales digeribles y persuasivos. Desde el primer momento esta lección estaba aprendida, incluso, a mediados del siglo XIX, por Florence Nightingale, quien administraba la atención hospitalaria para el ejército británico en la guerra de Crimea. Recopilaba estadísticas para resaltar las malas condiciones en las cuales los soldados británicos tenían que servir, afirmando que se perdían más vidas debido a enfermedades que en combate y por heridas. Diseñó un tipo de diagramas de sectores, el cual llamó «ala de murciélago», para ilustrar drásticamente las causas de mortalidad.
En sus diagramas, en los cuales hacía un seguimiento de las muertes por mes, las causas de mortalidad estaban organizadas en un código de tres colores: enfermedades prevenibles, heridas de combate y otras causas, y las áreas de los sectores eran proporcionales al número de muertes. Claramente, la categoría de enfermedades prevenibles era el sector más grande en todos los meses. Los diagramas tenían la intención de persuadir, «para provocar a través de la vista lo que no transmitimos al público con palabras que parecen estar a prueba de oídos». En este caso, las estadísticas realmente tenían una lectura clara, y sus representaciones visuales las resumían poderosamente. El coetáneo de Nightingale, el Dr. John Snow, también aportó una forma para representar estadísticas cuando marcó los casos de cólera en un mapa de Londres. Los modelos de distribución que se hacían patentes reforzaban su conclusión de que la enfermedad se extendió por beber agua infectada proveniente de surtidores públicos, más que de «aire contaminado», que era la creencia generalizada. Aunque ambas aproximaciones usaban las estadísticas de un modo muy simple, ambos demostraron lo que pretendían.
Las medias estadísticas
En la documentación de la guerra de Crimea y de las epidemias de cólera en Londres, la totalidad de los datos se observaba en términos de distribución y causas, y luego se representaba el resultado en diagramas y mapas. Sin embargo, en las estadísticas es frecuente el caso de que páginas de datos sean reducidas a una única medida importante, una «media estadística». Pero ¿qué significa una «media estadística»? Si el salario medio en una compañía es de £45.000, podría significar que todo el mundo gana esta cantidad o podría significar que la mayoría gana menos pero, digamos, el salario del presidente de £200.000 ha sido incluido en el cálculo. Lo último sería lo más probable, pero no lo podríamos saber realmente.
Lo que la mayoría de la gente asocia a media estadística es normalmente la media aritmética, la cifra obtenida al sumar todas las lecturas y dividirlas por el número total de ellas. El problema aquí es que un valor aislado, alto o bajo, puede producir una media que, aunque es técnicamente correcta, en realidad da una falsa impresión. SI la media es la mediana, esto es el valor de la mitad cuando los datos están colocados en orden numérico, entonces la media sería insensible a valores altos o bajos. Sin embargo, si la media es la moda, la cual es el valor más repetido entre los datos, sabríamos el salario que recibe la mayoría de la gente de la compañía.
Al calcular las medias estadísticas, los estadísticos con frecuencia están también interesados en hasta qué punto las cifras se desvían de la media. De un modo simple, usando nuestro ejemplo, podemos solucionar la variación de la media sumando todas y cada una de las desviaciones de £45.000 en los salarios, un salario de £40.000 produciría una desviación de £5.000. El resultado total de todas las desviaciones es después dividido por el número de lecturas, para dar una desviación media. Los estadísticos están particularmente interesados en estos cálculos más sofisticados, la desviación estándar, representada por la letra griega σ (sigma). Es la estadística de las dispersiones la que con frecuencia revela una verdad de otro tipo tras cifras de los titulares, por ejemplo que, mientras un grupo de gente podría estar haciéndose más rica como conjunto, las desigualdades entre ellos podrían también estar creciendo.
Muestreo
Con frecuencia es simplemente poco viable e inimaginable intentar reunir todos los datos para un fenómeno en particular, tales como el total de una población; un gobierno difícilmente podría organizar un censo cada vez que desease saber algo sobre su gente. Por lo tanto, un aspecto vital de muchas investigaciones estadísticas implica identificar un grupo de muestra fiable y luego sacar conclusiones de los resultados.
Imaginemos, a manera de ejemplo, que deseamos encontrar la altura media de una población. Los estadísticos tendrían cuidado en escoger la muestra aleatoria de gente para evitar cualquier sesgo consustancial. No tendría sentido una muestra en un vecindario donde, digamos, hay un número de niños superior a la media. Los estadísticos aprendieron una valiosa lección en las elecciones presidenciales de EE.UU. en 1936, cuando los sondeos predecían una ajustada carrera, pero Franklin D. Roosevelt ganó con una victoria realmente aplastante. En este caso, los encuestadores habían considerado para las muestras directorios telefónicos y listas de propietarios de coches, y habían llegado sin darse cuenta a una muestra desviada hacia un grupo socioeconómico relativamente acomodado.
Para estimar la altura media, los estadísticos tienen que figurarse cuál es la media de la población, la cual se representa tradicionalmente con el símbolo µ, la letra griega que se pronuncia como «mu». Si el grupo de muestra es escogido de modo adecuado, entonces es probable que la altura media de la gente en la muestra, la cual los estadísticos denotan como , que se lee como «x barra», será una buena estimación de la media poblacional µ.
En la estimación de una manera rigurosa es donde surge una herramienta vital en la armería del estadístico: el teorema central del límite, el cual afirma que, si tomamos muestras de manera repetida, la media muestral debería seguir lo que se conoce como la «distribución normal».
La campana de Gauss
La representación gráfica de la distribución normal es la famosa curva con forma de campana. Ha sido descrita como algo tan fundamental para la estadística como la línea recta lo es a las matemáticas. Abraham de Moivre, cuya familia emigró a Londres desde Francia en el siglo XVI, descubrió sus propiedades principales, pero sólo se hizo con la designación de «distribución normal» después de haber pasado a través de las manos de otros. Es a veces conocida como la distribución gaussiana, después del trabajo de Carl Friedrich Gauss en el siglo XIX.
De Moivre abordó un problema semejante al tradicional problema del lanzamiento de una moneda. Si lanzamos una moneda de cierto número de veces, digamos n veces, podemos calcular la probabilidad de obtener x caras. De Moivre consideró un gran número de lanzamientos y encontró una vía rápida para calcular estas probabilidades, ya que seguían una distribución normal.
Si lanzamos una moneda 100 veces, la media de la distribución de caras obtenidas es 50. Esto no es muy sorprendente ya que coincide con la probabilidad de obtener cara más o menos la mitad de las veces. De Moivre nos demostró cómo podemos medir la probabilidad calculando el área bajo la campana de Gauss. Así, por ejemplo, la probabilidad de obtener más de 60 caras quiere decir que tenemos que calcular el área bajo la curva a la derecha de 60. La realidad es que los estadísticos recurren a tablas de la distribución normal hechas con este fin. Averiguaríamos que la probabilidad de obtener 60 o más caras es 0,0228, si repetidamente lanzásemos 100 veces la moneda, esperaríamos superar las 60 caras sobre un 2% de las veces.
Es el teorema central del límite el que une la práctica del muestreo con la distribución normal. El teorema dice que las medias, i.e. , de muestras aleatorias siguen una distribución normal centrada en la media µ, y que una muestra grande dará una respuesta más ajustada a nuestra estimación de µ que una pequeña. Según el teorema, si la variación de altura en la población es conocida, la variación de las medias muestrales se reduce en un
así una mayor muestra aleatoria, dará una mejor estimación de la media poblacional µ. Esto es usar las estadísticas como una ciencia.
La ciencia de las estadísticas
El diagrama de Florence Nightingale transmitía un mensaje y efectivamente probaba algo, pero no hacía uso de la teoría estadística. La ciencia de las estadísticas, la estadística, por el contrario, es la teoría matemática usada para sacar conclusiones sobre poblaciones basándose en muestras.
Además, la naturaleza de la estadística es cuantificar la diferencia entre lo que esperamos, basado en la teoría y lo que en realidad tenemos como resultado de un experimento. De modo que, en el experimento del lanzamiento de una moneda, esperamos 50 caras en 100 lanzamientos, y podemos medir la probabilidad de una desviación de este número. El importante estadístico británico, R.A. Fisher, formuló un método para manejar este tipo de análisis en su Métodos estadísticos para investigadores (1925), una guía práctica en al cual describe las pruebas de hipótesis.
El famoso ejemplo de Fisher de la prueba de hipótesis se refiere al arte de servir el té. ¿Se debería servir el té con la leche ya en la taza o se debería añadir la leche al té después de que se haya servido? Una dama que conocía reivindicó que ella podría notar la diferencia. En calidad de escéptico, Fisher estableció la hipótesis de que ella no tenía tal habilidad. Luego él examinó su afirmación con un experimento de sabor del té. Si ella tenía ocho aciertos en ocho intentos, Fisher diría que el resultado era estadísticamente significativo, ya que era improbable que el resultado pudiese ser obtenido por pura casualidad. Luego él rechazaría la hipótesis como improbable y reconocería que había más arte en el hacer el té del que había asumido.
¿Cómo aplicaría Fisher las pruebas de hipótesis al problema de la moneda? ¿Cómo podría decir si una moneda dada no estaba trucada? Podría haberse añadido peso a una de sus caras, pero no está permitido inspeccionarla para averiguar una posible falsificación. Para configurar el experimento, Fisher formularía la hipótesis de que «la moneda no está trucada», lo cual él describió como probar la «hipótesis nula», tomó el término de la física donde describen un experimento exitoso como «nulo» cuando no da resultados. Normalmente se usa la notación H0. De modo que Fisher podía aceptar H0 o podía rechazarlacon un alto grado de seguridad.
Supongamos que hemos logrado un resultado extremo: 100 caras lanzando la moneda 100 veces. ¿Podríamos concluir que la moneda está trucada y no es fiable? No con certeza, ya que podría ser que obtuviésemos 100 caras por casualidad. Sin embargo, este resultado es muy improbable basándonos en que H0 es correcta. La probabilidad de obtener 100 caras con una moneda no trucada es en realidad 0,5 multiplicado por sí mismo 100 veces, dando un número minúsculo, más o menos 8 x 10-31 (esto es 30 ceros después del punto decimal). Entonces, podríamos concluir, de manera razonable, que la probabilidad de que la moneda no esté trucada es, en consecuencia, minúscula.
¿Podríamos sacar la misma conclusión si el resultado ha sido 60 caras? En otras palabras, ¿qué cantidad de divergencia del resultado experimental con respecto al número esperado de 50 causaría sospechas? La probabilidad de que el número de caras sea 60 o más, basándonos en que la moneda no está trucada, es alrededor del 2%, una probabilidad lo suficientemente baja para que Fisher cuestionase la imparcialidad de la moneda.
Un método alternativo para probar la hipótesis fue propuesto por Jerzy Neyman y Egon Pearson en la tercera década del siglo XX, el cual finalmente dio como resultado una amarga controversia con Fisher. En la teoría de Fisher hay sólo una hipótesis y la atención se centra en rechazarla. En la teoría de Neyman-Pearson, hay dos hipótesis contrastadas. Sus modelos de decisión nos llevan a considerar la hipótesis alternativa, H1. De manera que siguiendo con nuestras monedas, Neyman y Pearson podrían plantear las hipótesis:
H0: la moneda no está trucada
H1: la moneda está trucada
O, dependiendo del propósito del experimento, podrían plantear las hipótesis:
H0: la moneda no está trucada
H1: la moneda está predispuesta a favor de las caras
En esta aproximación, una regla de decisión se da antes de que se lleve a cabo cualquier experimento. No esperamos hasta que nos topamos con algo improbable. Por otra parte, dos probabilidades de cometer un error surgen en la teoría.
La probabilidad de concluir que la moneda está trucada (rechazando H0) cuando en realidad no lo está (H0 es correcta).
La probabilidad de considerar que la moneda no está trucada (aceptando H0) cuando en realidad lo está (H0 es falsa).
La teoría de Neyman-Pearson consiguió crédito porque apelaba de manera explicita a la probabilidad y por un uso eficaz del «equilibrio» entre las dos probabilidades de cometer un error.
Los discípulos de Fisher continuaron el debate de estos asuntos con los seguidores de la aproximación de Neyman—Pearson. Hay también un tercer modo, propugnado por los partidarios de un enfoque «bayesiano», llamada así por el clérigo y matemático del siglo XVIII, Thomas Bayes. A los bayesianos les gusta la idea de introducir una probabilidad a priori en la que una hipótesis es cierta y limitar las conclusiones a afirmaciones de la forma: «La probabilidad de que la moneda no esté trucada es tal vez o cual valor basado en los datos que hemos obtenido». El debate está servido.
Estadística, prueba y verdad
Cualquiera que sea el método de contraste que los estadísticos adopten para realzar la credibilidad de sus hallazgos, sus resultados penetran en nuestras vidas. Los gobiernos justifican sus políticas de acuerdo con las estadísticas de criminalidad, inmigración, empleo y muchas más. En la psicología experimental, emplean estadísticas cuando investigan la capacidad de percepción, memoria o atención. Las investigaciones de mercado están constantemente preguntándonos sobre nuestras circunstancias y elecciones, y las respuestas justifican las grandes sumas de dinero de compañías comerciales que desean vendernos sus productos. Los sociólogos y demógrafos realizan experimentos a gran escala a través del muestreo, mientras las «ciencias duras» tales como la termodinámica y algunas ramas de la mecánica también se aventuran en el análisis estadístico. En astronomía, Gauss inició el camino en el uso de técnicas de mínimos cuadrados para minimizar los errores experimentales. Su trabajo le permitió analizar datos experimentales para exitosamente situar el asteroide Ceres después de que el Sol lo ocultase, pero la técnica de mínimos cuadrados, en la teoría estadística moderna tiene un valor mayor que el de encontrar un asteroide.
¿Qué es lo que en última instancia la estadística puede probar? Como de costumbre, esto depende de lo que la pregunta plantee. Hay mucho que puede demostrarse y, ha sido demostrado, de modo creíble por el método estadístico. Sin embargo, las estadísticas no pueden probar las causas. Más bien, muestran una asociación. Si, volviendo a nuestro ejemplo, resulta que la gente más alta vive en vecindarios más ricos, una relación entre las rentas y la altura se podría demostrar , pero es otro paso posterior discutir si una es la causa de la otra.
Sin embargo, en algunos casos análisis estadísticos adicionales pueden recudir, incluso resolver la discusión de modo contundente. En al campaña contra el tabaco, nunca se ha establecido de modo definitivo un vínculo causal entre fumar y el cáncer, no se probó que la razón fisiológica para el comienzo del cáncer estuviese provocada por el humo que entraba en los pulmones. Pero se estableció una asociación estadísticamente significativa, por la comparación de grupos de fumadores y grupos de control de no fumadores. Calculando por lo bajo, se mostró que el 80% de la gente que moría de cáncer de pulmón cada año era fumadora, y esto fue una prueba suficiente.
Mientras algunos esfuerzos estadísticos pueden fallar estrepitosamente, como ocurrió durante las elecciones de EE.UU. de 1936, los estadísticos pueden también obtener respuestas espectacularmente acertadas. Los modernos sondeos a pie de urna, tomando muestras de votantes después de que las votaciones se hayan cerrado, han sido con frecuencia, muy precisos. En el caso de las elecciones generales británicas de 2010, las supuestamente maliciosas encuestas a pie de urna suscitaron al principio las burlas de los entendidos en política, hasta que los resultados reales confirmaron las estadísticas.
Las estadísticas a secas no prueban nada con una certeza desmedida y son capaces, en las manos equivocadas, de ser víctimas de abusos. Sin embargo, la certeza casi nunca se alcanza en asuntos relacionados con el hombre, y en la práctica sólo podemos sacar conclusiones con una cierta probabilidad de que sean ciertas. Con investigaciones estadísticas bien diseñadas, esperamos poner límites a la incertidumbre de la vida. En ese sentido, el método estadístico está muy lejos de ser insustancial y no es una mentira. En la mayoría de las situaciones, es todo lo que tenemos. Ω