Espiar a sesenta millones de personas no tiene sentido

Ben Goldacre
The Guardian / SOTT
Traducción del equipo SDLT
28/02/09


Esta semana Sir David Omand, el antiguo coordinador de seguridad e inteligencia de Whitehall, describió cómo el estado debería analizar información sobre individuos a fin de encontrar sospechosos de terrorismo: información de viajes, impuestos, registros de llamadas telefónicas, correos electrónicos, etc. “Averiguar los secretos ajenos significaría, entre otras cosas, quebrantar las reglas morales comunes,” dijo, ya que necesitaríamos filtrar a todos para encontrar un pequeño número de sospechosos.

...Siga leyendo, haciendo click en el título...


Existe un aspecto bastante significativo que siempre hará de este procesamiento de datos algo inexplotable cuando es usado para buscar a sospechosos de terrorismo en la población en general, y es lo que podríamos llamar el “problema fundamental”: incluso con la prueba más precisa imaginable, el riesgo de resultados positivos falsos se incrementa a altos niveles inexplotables, ya que los resultados que se tratan de predecir se vuelven inusuales en la población que se trata de examinar. Este aspecto es delicado pero importante. Si pones atención lo entenderás.

Imaginemos que tienes una prueba sorprendentemente precisa, y cada vez que usas este método en un sospechoso real, identificará a los culpables de manera correcta tanto como ocho de cada diez veces (pero erraría dos de cada diez veces); y cada vez que lo aplicas al estudio de una persona inocente, identificará de manera correcta nueve de cada diez veces, pero las identificará de manera incorrecta como sospechosa una de cada diez veces.

Estas cifras exponen las probabilidades del resultado de una prueba precisa, determinado el estado del individuo, el cual ya conoces (y las cifras son una propiedad estable de la prueba). Pero estás parado del otro extremo del telescopio: tienes el resultado de una prueba, y quieres usar esto para calcular el estado del individuo. Esto depende completamente de cuántos sospechosos se encuentran en la población examinada.

Si tienes diez personas, y sabes que una es sospechosa, obtendrás un resultado positivo falso, en
promedio. Si tienes a cien personas, y sabes que una de ellas es sospechosa, obtendrás tu verdadero test positivo y, en promedio, diez falsos positivos. Si estás buscando a un sospechoso entre mil personas, lo hallarás, junto con otros cien falsos resultados positivos. Una vez que tus falsos positivos empequeñecen tus verdaderos positivos, un resultado positivo de la prueba se vuelve bastante inútil.

Recuerda que esta es una herramienta de filtrado, para evaluar el comportamiento sospechoso en la población común. Se nos invita a aceptar que la información personal sobre cada unos de nosotros será examinada y procesada, porque la MI5 tiene ingeniosos algoritmos para identificar a personas que nunca antes han sido catalogadas como sospechosas. La población del Rieno Unido alcanza los sesenta millones de habitantes, con, digamos, diez mil sospechosos que verdaderamente han cometido un crímen. Usando tu imaginaria prueba de filtrado extremadamente precisa, obtienes seis millones de resultados positivos pero falsos. Al mismo tiempo, de tus diez mil sospechosos verdaderos, el examen falla en dos mil de ellos.

Su aumentas las cifras en cualquier prueba, para incrementar lo que los estadísticos llaman la “especificidad” y, por lo tanto, la haces menos propensa a resultados positivos falsos, entonces también la vuelves mucho menos sensible, e incluso comienzas a perder el rastro a una cantidad más importante de tus sospechosos que realmente han cometido un crímen.

¿O acaso deseas aplicar una prueba imaginaria aún más estúpidamente precisa, sin sacrificar a los verdaderos culpables? No te llevará lejos. Digamos que identificas erróneamente como sospechosa a una persona inocente, una de cada cien veces: obtienes seiscientos mil resultados positivos falsos. ¿Una vez de cada mil? Seamos realistas. Incluso con estas prueba imaginarias inverosímilmente precisas, cuando filtras a una población común tal y como se propone en este proyecto, es difícil imaginar un punto en el cual los resultados positivos incorrectos sean útilmente bajos, y no se sacrifique a quienes realmente merecen un resultado positivo en la prueba. Y nuestra prueba imaginaria realmente fue ridículamente buena: es muy difícil identificar a sospechosos mediante el mero análisis de patrones de comportamiento ligeramente anormales.

Pero eso no es todo. Estos sospechosos soperan de manera encubierta, por lo que harán todo lo posible por fabricar rastros que puedan confundirte.

Y finalmente, tenemos el problema de la validación de tus algoritmos y de la calibración de tus sistemas de detección. Para lograrlo, necesitas información con la cual poder entrenarte: diez mil personas acerca de quienes sabes con seguridad existen sospechas fundamentadas, y que podrás comparar con los resultados de tu prueba. Es difícil imaginar cómo podría lograrse llevar a cabo tal examen.

No pretendo afirmar que no se debería espiar a personas comunes: dejaré la moralidad y la política a aquéllos menos tontos que yo. Sólo expongo los cálculos de la especificidad, la susceptibilidad y lo resultados positivos incorrectos.

0 comentarios: