Incompleto – Bad Data Clinic

octubre 5, 2018

Nombre incompleto

“Mi mamá tiene un nombre oficial que es a la vez poco normativo, ya que contiene una letra y un punto: M. Irene. Y eso le ha comportado muchos problemas, e incluso a mi!”

La mamá de Alejandra fue registrada al nacer con el nombre M. Irene. Esta “M.” le ha conllevado muchos problemas porque le dicen que un nombre no puede ser una letra y un punto, pero sin embargo este el nombre suyo oficial. Incluso Alejandra, su hija, tuvo serios problemas cuando quiso abrirse una cuenta en un banco.

octubre 5, 2018

NIE erróneo sin fecha de nacimiento

“Mi NIE no tiene completa la fecha de nacimiento, así que en lugares oficiales me han pedido también el pasaporte para comprobar mi identidad”

octubre 5, 2018

Recortes a la asistencia sanitaria basados en la evaluación algorítmica

“Los trabajadores sociales visitaron a un amputado y a la pregunta de “problemas en los pies” pusieron en sus informes que no tenía ningún problema”

En los Estados Unidos ha habido varios casos en los que se hicieron reajustes radicales a la atención domiciliaria que recibían las personas que padecían una amplia variedad de enfermedades y diversidad funcional, como consecuencia de la introducción de inteligencia artificial en el proceso de toma de decisiones. Si bien la mayoría de los informes sobre esta cuestión se han centrado en los algoritmos y sus códigos, también se encontraron problemas importantes con las evaluaciones realizadas por los trabajadores sociales que recopilan datos. Kevin De Liban, un abogado de Ayuda Legal de Arkansas, comenzó a realizar una lista de ellos. Una variable en la evaluación algorítmica fue “problemas en los pies”. Por ejemplo, cuando los trabajadores sociales visitaron a un amputado, afirmaron que la persona no tenía ningún problema. A lo largo del tiempo, dice De Liban, descubrieron puntuaciones muy diferentes de las del procesamiento algorítmico cuando se evaluaron las mismas personas, a pesar de sufrir la misma condición.

https://www.theverge.com/2018/3/21/17144260/healthcare-medicaid-algorithm-arkansas-cerebral-palsy

octubre 5, 2018

Reconocimiento de imágenes

“Google Photos etiquetó erróneamente a los negros como gorilas, ya que el algoritmo fue entrenado con datos sesgados hacia los hombres blancos”

Google Photos etiquetó erróneamente a los negros como gorilas. Este es un caso claro de mal entrenamiento de algoritmos. La foto que se envió al clasificador de Google era tan buena como cualquier foto que se clasificó correctamente. El problema aquí radica en cómo se entrenó el algoritmo, es decir, cómo aprendió a reconocer personas y objetos. Las personas que trabajan en este algoritmo son en su mayoría hombres blancos, por lo que los datos que seleccionaron para entrenar el algoritmo ciertamente fueron sesgados hacia los hombres blancos. El algoritmo aprende de esta muestra sesgada y hereda el sesgo transmitido por el conjunto de datos de entrenamiento.

https://elpais.com/tecnologia/2018/01/14/actualidad/1515955554_803955.html

https://www.wired.com/story/when-it-comes-to-gorillas-google-photos-remains-blind/

octubre 5, 2018

Incrustaciones de palabras

“El sesgo de género de la sociedad hace que los algoritmos aprendan de datos que contienen un sesgo, y no reconocen conductas que escapan a roles de género predominantes”

Los datos de una gran cantidad de corpus de palabras se analizan para medir la distancia promedia entre palabras. Un estudio mostró que los resultados son bastante sesgados, como por ejemplo, «hombre» era «programador informático» y «mujer», «ama de casa». La aplicación de este algoritmo puede llevar a los motores de búsqueda a pasar por alto las páginas web de las universidades de informática con mayoría de los nombres de estudiantes femeninas. El algoritmo no es malo, de hecho no hay aprendizaje automático involucrado, por lo que no se introduce un «sesgo algorítmico». Los resultados revelan el sesgo de género inherente presente en la sociedad (específicamente, en corpus de palabras), y también revelan los problemas de la aplicación a ciegas de los datos procesados.

Recognizing (and Solving) Bad Algorithms

https://arxiv.org/pdf/1607.06520v1.pdf

octubre 5, 2018

Entrega de anuncios sesgada

“Las evidencias demuestran que los nombres de personas negras tienen un 25% más de probabilidades de ofrecer como resultado un registro de detención policial”

Ha habido muchos casos en los que los sistemas de recomendación para la colocación de anuncios en los motores de búsqueda proporcionan resultados discriminatorios o sesgados. Algunos casos son de publicación de anuncios racialmente sesgados, por ejemplo, cuando muestran datos de detenciones al buscar nombres que se asocian a personas negras.

https://www.technologyreview.com/s/510646/racism-is-poisoning-online-ad-delivery-says-harvard-professor/

octubre 5, 2018

Sesgos en datos policiales predictivos

«Los datos policiales no se recopilan de manera uniforme, y el seguimiento de los datos policiales reflejan sesgos institucionales de largo acerca de los ingresos, la raza y el género»

La policía está utilizando cada vez más software predictivo. Esto es particularmente complejo porque en realidad es bastante difícil identificar sesgos en los modelos de predicción de justicia penal. Esto se debe en parte a que los datos de la policía no se recopilan de manera uniforme, y en parte a que el seguimiento de los datos de la policía refleja sesgos institucionales acerca de de ingresos, raza y género.

Si bien los datos policiales a menudo se describen como «delitos», eso no es del todo exacto. El crimen en sí es un fenómeno social en gran parte oculto que ocurre en cualquier lugar donde una persona viola una ley. Lo que se denomina «datos del crimen» generalmente tabula eventos que no son necesariamente violadores de la ley, como una llamada al 911, o que están influenciados por las prioridades policiales existentes, como el arresto de personas sospechosas de delitos particulares o informes de incidentes vistos al patrullar un barrio particular.

Los barrios donde mucha gente llama a la policía no son necesariamente puntos de acceso a un mayor crimen. Son, más bien, donde está la mayor atención policial. Y donde la atención se centra a menudo puede estar sesgada por los factores de género y raciales.

Un estudio reciente realizado por Human Rights Data Analysis Group encontró que el algoritmo supuestamente neutral de PredPol -el proveedor de vigilancia predictiva- apuntaba a los vecindarios negros aproximadamente al doble de la tasa de los vecindarios blancos cuando se los entrenaba en datos históricos sobre delitos relacionados con las drogas en Oakland, California. Se encontraron resultados similares al analizar los datos por grupo de ingresos, con comunidades de bajos ingresos dirigidas a tasas desproporcionadamente más altas en comparación con los vecindarios de altos ingresos. Esto sucedió a pesar del hecho de que las estimaciones de las encuestas de salud pública y los modelos de población sugieren que el uso de drogas ilícitas en Oakland es aproximadamente igual en todos los grupos raciales y de ingresos. Si el algoritmo fuera verdaderamente neutral en cuanto a la raza, extendería la atención de la policía antidrogas de manera uniforme en toda la ciudad.

Los reporteros de investigación de ProPublica encontraron evidencia similar de sesgo racial cuando observaron COMPAS, un algoritmo que predice el riesgo de una persona de cometer un delito, utilizado en fianzas y decisiones de sentencia en el condado de Broward, Florida y en otras partes del país. Estos sistemas aprenden solamente lo que se les presenta; si esos datos están sesgados, su aprendizaje no puede ayudar, sinó que también puede estar sesgado.

https://www.fastcompany.com/40419894/how-big-bad-data-could-make-policing-worse

octubre 5, 2018octubre 5, 2018

Datos de filiación (nombres) incorrectos

“Julián se percató cuando renovó su DNI de que el nombre de su padre aparecía incompleto, pero aunque avisó de ello, lo renovó igualmente”

Julián se dio cuenta al ir a renovar su DNI que el nombre de su padre aparece mal en su DNI. Avisó a la policía de ello, y le dijeron que para cambiarlo debía acudir a otro sitio que no era donde estaba, y tuvo que seguir con la tramitación del DNI con el nombre sin corregir.

octubre 5, 2018

Nombres mal escritos o escritos de maneras diferentes

“Hay nombres de persona que se recogen o escriben mal -o diferente- y luego no los encuentras en la base de datos (ejemplo común en la oficina de Medialab)”

En muchas oficinas que trabajan con bases de datos de personas se encuentran con un problema a la hora de introducir nombres personales. A veces, las personas tenemos nombres oficiales y nombres habituales que no coinciden, o quizás nombres compuestos que no siempre usamos de la misma manera, según el contexto, o apodos o nombres cortos que significan lo mismo (Bob i Robert). Dificultades para encontrar a alguien en estas bases de datos, o bien generar duplicados sin saberlo, son problemáticas que están a la orden del día.

octubre 5, 2018

Correo postal mail dirigido

“En 2002 un informe publicó que el 23.6% de todo el correo postal de EE.UU. no estaba correctamente direccionado”

En 2002, USPS y PricewaterhouseCoopers publicaron un informe que indicaba que el 23.6 por ciento de todo el correo enviado de los EE. UU. se envió de manera incorrecta.

¿Cómo es posible que casi un cuarto de todo el correo en los Estados Unidos se envíe de forma incorrecta? Es sencillo. Los trabajadores de los ‘call centers’ pueden cometer errores tipográficos o malinterpretar acentos extranjeros o nombres de calles. Los propios clientes pueden introducir información de direcciones incompletas a través de la Web, omitiendo detalles críticos como números de pisos o direcciones (NW, Este). Algunos clientes pueden no estar seguros de sus códigos postales exactos.

https://www.directionsmag.com/article/3583