Incertidumbre en la era de los datos

Como seres humanos que somos, nos equivocamos constantemente. Todos recordamos algún error que nos hizo sentir miserables o pequeñas equivocaciones que ocultamos por vergüenza.

Si resulta indudable que errar es humano, las ciencias tampoco están exentas de errores. Como ha contado Rocío Benavente, periodista y editora de Maldita Ciencia, hasta las mentes más brillantes se equivocaron en alguna ocasión, llegando incluso a producir accidentes que costaron millones. Sin embargo, la palabra «error» adquiere una connotación distinta cuando la tratamos en el mundo de los datos. Por supuesto que las personas que trabajamos en estadística nos equivocamos, pero no hablamos de ese tipo de error.

Un error un poco diferente

Para entender bien el concepto de error en estadística, podemos recurrir a una metáfora. Imaginemos que estamos recluidos en una habitación y, durante toda nuestra existencia, solo hemos podido ver la calle a través de una ventana con una cortina que difumina los objetos. Nos han contado que hay algo que se llama «coche» y hemos ido recogiendo datos sobre cómo los vemos nosotros. Con esos datos hacemos un dibujo de lo que creemos que es un coche y nos sale algo un poco diferente de un coche real ¿Diríamos en este caso que nos hemos equivocado al dibujar un coche? Evidentemente habremos cometido un error con respecto a cómo son los coches realmente, pero, teniendo en cuenta que nunca hemos visto uno, ese error no es equiparable a una equivocación propiamente dicha.

Metafóricamente hablando, dibujar ese coche es lo que hacemos en el día a día quienes nos dedicamos a la estadística y al análisis de datos, ámbitos que hoy en día participan de lo que llamamos inteligencia artificial. En definitiva, nuestro trabajo trata de extraer información sobre la realidad (el coche) que ha originado los datos (la visión borrosa del coche) que recibimos. Pero, para entender mejor la esencia del error en estadística y sus diferencias con una mera equivocación, vamos a intentar desmenuzarlo.

Error al observar

Al pensar en el error estadístico, con lo primero que nos topamos es con el llamado «error de muestreo», un intruso que se cuela en nuestras observaciones, recordándonos que la verdad puede escaparse cuando solo vemos fragmentos de ella. Porque no lo olvidemos: los coches observados serán solamente una parte de los que pasan bajo nuestra ventana. En el vasto universo de los datos, este error adquiere una frecuencia mayor de la que podríamos sospechar, especialmente cuando han sido recopilados mediante sistemas poco fiables o poco representativos. Y ahí está la clave, en la representatividad. George Gallup, pionero en el mundo de las encuestas, comparaba la obtención de una muestra representativa con el acto de probar la sopa: removemos bien y tomamos una cucharada que abarque todos sus elementos.

Sin embargo, la definición de qué es representativo y la elección de una muestra que lo sea son bastante más complejas. Por ejemplo, si queremos conocer la opinión de una población sobre un tema concreto y lanzamos una pregunta a números de teléfono aleatorios utilizando WhatsApp, ¿a quién representarán los datos recogidos? Primero, a quienes tienen WhatsApp, y segundo, a aquellas personas, de entre quienes tienen la aplicación, que hayan contestado. Algo parecido nos pasará si queremos estudiar el asma en España y solo seleccionamos a personas en hospitales de València o de Madrid, ciudades cuya distancia al mar y contaminación pueden tener una influencia directa en la evolución de la enfermedad. Alguien podría decir que estos sí son errores de verdad, equivocaciones a la hora de elegir la muestra, y estaría en lo cierto. Sin embargo, en muchas ocasiones no podemos ser conscientes del error de muestreo que estamos cometiendo porque no conocemos la realidad completa. Volviendo a nuestra pequeña habitación, posiblemente a través de nuestra ventana nunca pasen limusinas y no tendremos forma de saber que existen. Por eso debemos asumir que siempre habrá un error de muestreo en los resultados.

La cuestión es que, además de que solo veamos una parte de los coches, estos son de diferentes colores y formas. Podríamos decir que existe una gran «variabilidad», que constituye otra de esas fuentes de error estadístico: en general, los datos, cambiantes como son, desafían nuestros intentos de encasillarlos con definiciones precisas, recordándonos que la realidad puede ser más fluida de lo que somos capaces de observar.

Y ya que hablamos de observar, podemos añadir una nueva fuente de error a esta aventura, una que tiene que ver con qué observamos y, sobre todo, cómo lo observamos. Al mirar los coches podemos decidir qué vamos a observar: cuántas ruedas tiene, su color, el número de puertas… Parece fácil, pero se trata de medir y las cosas se pueden complicar mucho. Hablamos del «error de medida», concepto que ha sido una constante a lo largo de la historia de la observación científica. Incluso para figuras como Galileo, que a pesar de revolucionar nuestra comprensión del cosmos, era consciente de las limitaciones de sus instrumentos y las imprecisiones en sus mediciones. Siglos después, científicos como Laplace y Gauss se dedicaron a entender y cuantificar este error, marcando el camino hacia una comprensión más profunda. De hecho, fue en ese intento en el que Gauss se topó con lo que hoy en día llamamos «campana de Gauss» o «distribución normal». Estos pioneros no solo dejaron valiosas lecciones sobre la naturaleza del error en la observación científica, sino que sentaron las bases para las modernas técnicas de manejo de errores, recordándonos la importancia de reconocer y cuantificar el error de medida en campos que van desde la astronomía hasta la medicina.

Pero las complicaciones no terminan con estos tres errores derivados de la observación porque, tras observar, toca analizar lo observado y extraer conclusiones.

Error al analizar

Ahora queremos hacer, en nuestra pequeña habitación, un modelo de cómo son los coches en la realidad. Esta modelización requiere de suposiciones sobre aquellos detalles que son imposibles de observar desde nuestra ventana, y es importante hacerlo con cuidado, pues la adopción de supuestos erróneos puede distorsionar nuestra percepción de la verdad.

Para entender lo bueno o lo malo que es un modelo, lo habitual es medir la «distancia» entre lo que dice el modelo y lo observado. Cuanto más cerca estén o, dicho de otra forma, más compatibles sean, mejor será nuestro modelo. Aunque, ojo, un modelo puede ser muy bueno para entender lo que observamos, pero mostrarse nefasto para predecir nuevas observaciones, así que, a la hora de medir este tipo de error, será muy importante entender cuál es nuestro objetivo principal. ¿Queremos entender cómo son los coches que ya hemos visto o saber cómo será cualquier nuevo coche que pase por nuestra calle?

Cada componente de nuestro error, ya sea debido al resultado de un muestreo incorrecto, de la variabilidad de los datos, de las imprecisiones al medir o de los supuestos del modelo, contribuye a la rica trama de la estadística. Al descifrar estas complejidades, nos acercamos a una comprensión más profunda, permitiendo que la verdad se revele entre los pliegues del error, desafiándonos a mirar más allá de las imperfecciones y a abrazar la incertidumbre como una compañera de viaje ineludible en nuestra búsqueda de la realidad. Pero, cuidado, porque es fácil que esta compañera de viaje nos haga descarrilar.

Del error estadístico al error humano

No podemos dejar de lado que el error estadístico, sin representar una equivocación en sí mismo, es un fenómeno que puede llevarnos por caminos equívocos, desviándonos de la verdad y tejiendo un tapiz de consecuencias inesperadas.

Uno de los peligros más notables es la introducción de sesgos en nuestras interpretaciones, convirtiendo así el error estadístico en un actor principal en la toma de decisiones. El hecho de no ser conscientes de que los datos y su análisis están velados por la incertidumbre puede conducirnos a consecuencias adversas. Desde políticas gubernamentales hasta decisiones empresariales, el impacto de tomar el camino equivocado puede ser significativo, afectando a comunidades enteras o incluso desencadenando crisis financieras con predicciones que pueden alejarse significativamente de lo que sucederá.

Además, la malinterpretación de la distancia entre las predicciones del modelo y los valores observados puede llevar a la falta de preparación para eventos inesperados. Un modelo que subestima la variabilidad de los datos puede dejarnos vulnerables ante cambios bruscos en el entorno, como crisis económicas, pandemias u otros fenómenos imprevistos.

En resumen, el error estadístico es más que una complicación técnica; es una fuerza que puede moldear nuestras percepciones, influenciar nuestras decisiones y definir el curso de eventos en el mundo real. Reconocer y mitigar estos riesgos es crucial para utilizar la estadística como una herramienta valiosa en la toma de decisiones informadas y en la comprensión precisa de la realidad que nos rodea.

Anabel Forte es doctora en Matemáticas, profesora en el área de Estadística e Investigación Operativa de la Universitat de València, autora del libro ¿Cómo sobrevivir a la incertidumbre? (2022) y divulgadora en programas de radio, pódcast y su blog BayesAna.

Incertidumbre en la era de los datos

Deja un comentario Cancel

Nuevo