Sesgos en datos policiales predictivos

«Los datos policiales no se recopilan de manera uniforme, y el seguimiento de los datos policiales reflejan sesgos institucionales de largo acerca de los ingresos, la raza y el género»

La policía está utilizando cada vez más software predictivo. Esto es particularmente complejo porque en realidad es bastante difícil identificar sesgos en los modelos de predicción de justicia penal. Esto se debe en parte a que los datos de la policía no se recopilan de manera uniforme, y en parte a que el seguimiento de los datos de la policía refleja sesgos institucionales acerca de de ingresos, raza y género.

Si bien los datos policiales a menudo se describen como «delitos», eso no es del todo exacto. El crimen en sí es un fenómeno social en gran parte oculto que ocurre en cualquier lugar donde una persona viola una ley. Lo que se denomina «datos del crimen» generalmente tabula eventos que no son necesariamente violadores de la ley, como una llamada al 911, o que están influenciados por las prioridades policiales existentes, como el arresto de personas sospechosas de delitos particulares o informes de incidentes vistos al patrullar un barrio particular.

Los barrios donde mucha gente llama a la policía no son necesariamente puntos de acceso a un mayor crimen. Son, más bien, donde está la mayor atención policial. Y donde la atención se centra a menudo puede estar sesgada por los factores de género y raciales.

Un estudio reciente realizado por Human Rights Data Analysis Group encontró que el algoritmo supuestamente neutral de PredPol -el proveedor de vigilancia predictiva- apuntaba a los vecindarios negros aproximadamente al doble de la tasa de los vecindarios blancos cuando se los entrenaba en datos históricos sobre delitos relacionados con las drogas en Oakland, California. Se encontraron resultados similares al analizar los datos por grupo de ingresos, con comunidades de bajos ingresos dirigidas a tasas desproporcionadamente más altas en comparación con los vecindarios de altos ingresos. Esto sucedió a pesar del hecho de que las estimaciones de las encuestas de salud pública y los modelos de población sugieren que el uso de drogas ilícitas en Oakland es aproximadamente igual en todos los grupos raciales y de ingresos. Si el algoritmo fuera verdaderamente neutral en cuanto a la raza, extendería la atención de la policía antidrogas de manera uniforme en toda la ciudad.

Los reporteros de investigación de ProPublica encontraron evidencia similar de sesgo racial cuando observaron COMPAS, un algoritmo que predice el riesgo de una persona de cometer un delito, utilizado en fianzas y decisiones de sentencia en el condado de Broward, Florida y en otras partes del país. Estos sistemas aprenden solamente lo que se les presenta; si esos datos están sesgados, su aprendizaje no puede ayudar, sinó que también puede estar sesgado.

https://www.fastcompany.com/40419894/how-big-bad-data-could-make-policing-worse

El Departamento de Interior del Reino Unido realiza deportaciones basadas en un mal reconocimiento de voz

“Hasta 7000 estudiantes extranjeros fueron expulsados del Reino Unido debido a errores  en los datos de reconocimiento de voz”

En mayo de 2018, el Ministerio del Interior del Reino Unido enfrentó una crisis cuando surgieron acusaciones de que se obligó a 7,000 estudiantes extranjeros a que abandonaran el Reino Unido por error. Después de ver un informe del programa Panorama de Channel 4 sobre el fraude de inmigración a través de exámenes de lenguaje falsificados, Theresa May solicitó un examen más detenido de los resultados de las pruebas de Educational Testing Services, una compañía con sede en Princeton, Nueva Jersey. ETC creó y administra la Prueba de Inglés para la Comunicación Internacional (TOEIC), así como una serie de otras pruebas estandarizadas importantes, incluyendo el GRE y el TOEFL.

El análisis entregado al gobierno del Reino Unido dijo que había cerca de 34,000 resultados de prueba TOEIC «no válidos». Más de 22,000 resultados adicionales se consideraron «cuestionables». Actuando en esos casos, el gobierno negó, recortó o canceló los visados de casi 36,000 personas. De ellas, 1,400 personas fueron detenidas por algún tiempo, y otras 4,600 fueron expulsadas del país.

Sin embargo, el sistema automatizado que ETS usó para identificar resultados de pruebas falsas fue defectuoso, lo que significa que algunas de esas deportaciones podrían no estar justificadas. ETS había tratado de identificar el fraude utilizando un software de reconocimiento de voz, de acuerdo con la decisión del tribunal de apelaciones. Analizaron todas las pruebas del Reino Unido e intentaron identificar los casos en los que la misma persona hablaba en la parte verbal de las pruebas múltiples. Una sola voz que tome varias pruebas con diferentes nombres probablemente hubiera sido una persona que realizó la prueba de manera fraudulenta.

Sin embargo, la tecnología de reconocimiento de voz no es perfectamente confiable. Si bien los mejores sistemas de identificación de voz tienen tasas de error muy bajas, solo identifican incorrectamente a alguien entre el 0,5% y el 1% de las veces. La compañía estaba al tanto de las limitaciones de la identificación automática de voz y, en su proceso, cada muestra vocal marcada como «sospechosa» por el algoritmo fue luego verificada por dos humanos en la compañía. Pero los analistas humanos solo estuvieron de acuerdo con la computadora alrededor del 60% de las veces.

Los expertos que luego llamaron para ese caso dijeron que estos empleados de ETS probablemente no estaban adecuadamente capacitados, y estimaron la tasa general de falsos positivos en torno al 1%. Sin embargo, incluso al 1%, varios cientos de resultados de prueba marcados como «no válidos» por la tecnología podrían haber sido, de hecho, analistas honestos. También podrían haber ocurrido otros errores. Algunos de los que apelaron dijeron que la grabación de voz que recibieron de su sesión de prueba no era el archivo correcto. Un abogado de inmigración colocó la tasa de error entre 5% y 10%, según The Guardian. Eso supondría la cantidad de deportaciones injustas en miles.

https://qz.com/1268231/a-toeic-test-led-the-uk-to-deport-thousands-of-students/

Home Office in fresh crisis after telling 7,000 foreign students to leave UK in error

Mortalidad indígena mal contabilizada

“Debido a inexactitudes en las estadísticas sobre vidas de personas indígenas, no se actuó para prevenir muertes evitables”

Las inexactitudes en la recopilación y el acceso a las estadísticas vitales de los pueblos indígenas impiden la implementación estratégica de iniciativas de salud pública basadas en evidencias para reducir las muertes evitables. Hay disponibles cinco fuentes de datos de salud pública primarias o básicas: censo, registro vital, vigilancia, datos administrativos o de utilización de la atención de salud y datos de encuestas de salud, y se ven afectadas por los retos subyacentes. En general, el desafío es sobre la identificación correcta, inclusiva y coherente de los pueblos indígenas en los 5 grupos. Sin embargo, la determinación precisa de los nacimientos y defunciones de la población (estadísticas vitales) es fundamental para la evaluación precisa de las tendencias de mortalidad (…) Aunque los datos básicos de salud pública demuestran el estado de salud cambiante de la población y posibilitan los efectos de las políticas de salud, de los servicios e intervenciones que se deben monitorear y evaluar, los datos de estadísticas vitales proporcionan el numerador y el denominador necesarios para calcular las tasas de mortalidad. Las deficiencias e imprecisiones en las estadísticas vitales y otras recopilaciones de datos impiden la implementación estratégica de intervenciones de salud pública basadas en evidencia para prevenir la mortalidad evitable (por ejemplo, falta de datos de vacunación y accidentes y lesiones evitables). Por lo tanto, se requieren nuevas estrategias para mejorar la determinación, la recopilación y el informe de los datos dentro de las poblaciones indígenas, prestando más atención a la política ética y al rigor metodológico.

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4358192/

Mezcla de datos biométricos en ID de Índia

“Datos biométricos mezclados en un documento de identidad de la Índia impiden acceder a los servicios sociales”

En julio de 2018 se ha informado de un caso de errores en datos biométricos en el documento de identidad de Índia. Aadhaar mezcla datos de personas y este error afecta alrededor de un 1 y un 1.5% de las inscripciones realizadas en los últimos 7 años. Según Unique Identification Authority of India (UIDAI) ya se ha identificado los números con biometría mezclada y han escrito cartas a los afectados. La mayoría de personas que se encuentran con el problema provienen de áreas rurales, con la esperanza de poder aprovechar varios beneficios de bienestar del gobierno. Según las fuentes, los datos biométricos de los miembros de la familia y los familiares se mezclaron durante las fases iniciales de la inscripción. «Con el fin de cumplir los objetivos, algunas agencias de inscripción utilizaron datos biométricos de familiares acompañantes si no podían registrar los datos biométricos de la persona que se estaba inscribiendo. Las ramificaciones de esto están surgiendo ahora ya que algunas personas tienen problemas para acceder a los servicios sociales vinculados a Aadhaar «, dijo un oficial.

Dichos datos biométricos defectuosos se marcan solamente si hay una queja. Así, hasta que un titular de Aadhaar tenga problemas al usar el número para inscribirse en un servicio, es poco probable que la persona sepa que su biometría está mezclada/errónea. Las fuentes en el Centro de E-governance en Karnataka dijeron que se están recibiendo mensualmente alrededor de 450 quejas sobre el tema.

http://www.newindianexpress.com/specials/2018/jul/26/biometric-mix-up-affects-nearly-2-crore-aadhaar-holders-1848692.html

https://www.thequint.com/news/india/aadhaar-biometric-data-mix-up

https://www.biometricupdate.com/201807/close-to-20-million-aadhaar-records-could-have-mixed-biometrics

Mutua de salud mezcla datos de dos personas diferentes

“Por un error de la aseguradora estuve pagando durante 2 años el seguro de otra persona”

Alison pagó el seguro médico durante 2 años y el dinero iba para otra persona. Se dio cuenta su médico de cabecera. Al cabo del tiempo, le dieron 2 años de servicios Premium de compensación. Durante los 2 años que duró el error, cada vez que acudía al médico en su mutua, los trabajadores se enfadaban con ella porque le decían que no tenía derecho a ser visitada puesto que no estaba pagando nada.

Error en datos de cliente de operadora

“Tenía un contrato doméstico con una operadora pero siempre me llamaban para hacerme ofertas comerciales dirigidas a empresas o autónomos”

Pablo nos cuenta el caso de su conexión adsl/fibra casera, en la que sin embargo figuraba como si fuera de una empresa. Le llamaban y le mandaban mensajes ofreciendo productos que no quería, y aunque los hubiera querido, tampoco los podía aceptar porque no cumplía los requisitos legales para ello.

Error en transferencia bancaria

“Una transferencia bancaria errónea hace que su banco la considere millonaria”

Alba nos cuenta su caso cuando trabajaba en una multinacional y a toda la plantilla les ingresaron las nóminas en euros como si fueran pesetas. A raíz de este error, su banco la consideró una persona rica y le mandaba publicidad de cosas que ella no necesitaba (fondos de inversión, etc.)

Datos de filiación (nombres) incorrectos

“Julián se percató cuando renovó su DNI de que el nombre de su padre aparecía incompleto, pero aunque avisó de ello, lo renovó igualmente”

Julián se dio cuenta al ir a renovar su DNI que el nombre de su padre aparece mal en su DNI. Avisó a la policía de ello, y le dijeron que para cambiarlo debía acudir a otro sitio que no era donde estaba, y tuvo que seguir con la tramitación del DNI con el nombre sin corregir.

Datos de filiación (nombres) no actualizados

“Los nombres de mis padres en mi DNI son incorrectos y no consigo cambiarlos. He tenido problemas para verificar mi identidad”

Griselda fue a renovarse el DNI y al pedir cita previa los datos de filiación daban un error. “Al probar los mismos nombres en castellano en lugar de en catalán, ya no daba error. En mis documentos figuraban los nombres de mis padres en castellano, aunque ellos ya hace años que tienen sus DNIs respectivos en catalán.”

Personas con el mismo nombre

“Cuando fuí a colegiarme como abogado en el Registro Civil me dieron un certificado con mi nombre pero con el DNI y el nombre de los padres de otra persona”