Info
Content

Capítulo 4-4º | Chapter 4-4º

Sesgo racial en el procesamiento del lenguaje natural | Racial bias in natural language processing


Racial-bias-in-NLP.JPG


Fig. I A. C4.4.1-. Crédito imag ( El riesgo de sesgo racial en la detección del discurso de odio | The Risk of Racial Bias in Hate Speech Detection).


Ir al índice principal del libro Go to the main index of the book

Contenidos

Contents

4.4-1.- Introducción

4.4-1.- Introduction

4.4-2.- Informe Sesgo racial en el procesamiento del lenguaje natural (Informe de investigación, agosto de 2019. Oxford Insights)

4.4-2.- Racial Bias Report in Natural Language Processing (Research Report, August 2019. Oxford Insights)

4.4-3.- Informe: El riesgo de sesgo racial en la detección del discurso de odio

4.4-3.- Report: The Risk of Racial Bias in Hate Speech Detection


Autor / Author: Juan Antonio Lloret Egea | Miembro de la Alianza Europea para la IA /Member to the European AI Alliance |https://orcid.org/0000-0002-6634-3351|© 2019. Licencia de uso y distribución / License for use and distribution: [ Los estados de la inteligencia artificial (IA) | The states of artificial intelligence (AI) ] creative commons CC BY-NC-ND |ISSN 2695-3803|| Escrito / Writed: 16/07/2019. Actualizado / Updated: 18/08/2019 |


4.4-1.- Introducción | Introduction

(Ver también / See too: Procesamiento del Lenguaje Natural (PLN) / Natural Language Processing (NLP)



Fig. I A. C4.4.2-. Una herramienta creada por Google que utiliza inteligencia artificial para controlar el discurso de odio en los comentarios en línea en sitios como el New York Times se ha sesgado racialmente | A Google-created tool that uses artificial intelligence to police hate speech in online comments on sites like the New York Times has become racially biased. Crédito Img. (FORTUNE). URL: https://fortune.com/2019/08/16/google-jigsaw-perspective-racial-bias/


4.4-2.- Del informe Sesgo racial en el procesamiento del lenguaje natural (Informe de investigación, agosto de 2019. Oxford Insights) extraemos los elementos más significativos que se describen en él. | From the Racial Bias report in natural language processing (Research Report, August 2019. Oxford Insights) we extract the most significant elements described in it.

Si los gobiernos adoptan ampliamente los sistemas de procesamiento del lenguaje natural, existe un riesgo de sesgo racial en tres áreas: prejuicios raciales encontrados en el lenguaje en los datos de capacitación; debilidades en los filtros diseñados para captar el lenguaje racista; incapacidad de los algoritmos para manejar la variación lingüísticaC4.4-1.

Muchas herramientas de procesamiento del lenguaje natural (PNL) parecen ofrecer nuevas formas para que los gobiernos se conecten con sus ciudadanos. Los sistemas de análisis de sentimientos se pueden usar para rastrear la opinión pública y ver dónde los ciudadanos tienen respuestas positivas o negativas a la política gubernamental. Se pueden instalar agentes de diálogo en los sitios web del gobierno para proporcionar respuestas rápidas a las consultas de los ciudadanos, como una alternativa a esperar para hablar con una persona en un centro de llamadas.

Sin embargo, si los sistemas de PNL demuestran ser sesgados racialmente, esto amenaza su promesa de hacer que los gobiernos sean más sensibles y más receptivos a las preocupaciones de los ciudadanos. Especialmente dada la realidad de las desigualdades raciales en muchos estados,  el sesgo racial en la PNL corre el riesgo de profundizar las tensiones existentes y perpetuar el sentimiento compartido por muchas personas de color de que su gobierno no las representa. Aunque el lenguaje puede parecer una parte periférica del aumento de la tensión racial, la forma en que usamos el lenguaje es fundamental para nuestra capacidad de relacionarnos y participar como iguales en una democracia. Cualquier tecnología que amenace con limitar la capacidad de las personas de color para expresarse plenamente o para comprometerse con su gobierno, por lo tanto, amenaza algunos de sus derechos civiles más fundamentales.

Este informe considera dos posibles aplicaciones de PNL en el gobierno, el análisis de sentimientos y los agentes de diálogo. Para cada uno de estos sistemas, examina tres fuentes de prejuicios raciales:

  • Las incrustaciones de palabras recogen los estereotipos y prejuicios existentes que existen en el lenguaje, y los sistemas que usan estas incrustaciones perpetuarán estos prejuicios contra las personas de color.
  • Los sistemas necesitan ser programados para lidiar con lenguaje ofensivo y discurso de odio, como insultos raciales. Sin embargo el límite entre lo que es y lo que no es ofensivo puede ser muy específico del contexto, lo que significa que las soluciones técnicas a menudo son inadecuadas.
  • Los sistemas de PNL actuales no se ocupan de la variación lingüística. Son más precisos para las variedades estándar de un idioma que para las variedades no estándar, como el inglés vernáculo afroamericano.

A través de una investigación documental sobre la literatura académica existente sobre el sesgo en la PNL y las herramientas actuales utilizadas por los gobiernos, así como entrevistas con académicos e investigadores en la PNL, este informe encuentra que cada una de estas fuentes de sesgo amenaza con hacer análisis de sentimientos y agentes de diálogo menos útil y menos preciso para personas de color. Esto significa que, si bien la PNL puede hacer que los gobiernos sean más sensibles a las necesidades de sus ciudadanos blancos, es probable que se pasen por alto las necesidades y opiniones de las personas de color.

Con base en estos hallazgos, este informe recomienda que los gobiernos adopten y extiendan marcos para el diseño de servicios como el Estándar de Servicio del Servicio Digital del Gobierno del Reino Unido, para minimizar los riesgos de sesgo racial. El estándar de servicio divide un nuevo proyecto de servicio digital en cuatro fases basadas en el marco ágil: descubrimiento, alfa, beta y en vivo. Este marco prioriza las necesidades de los usuarios y fomenta una investigación cuidadosa de sus requisitos, así como pruebas exhaustivas y auditorías de nuevos sistemas.

Recomendamos que los gobiernos integren tres principios en las fases de un proyecto: especificidad, transparencia y responsabilidad.


[English]

If governments widely adopt natural language processing systems, there is a risk of racial bias in three areas: racial prejudices found in language in training data; weaknesses in filters designed to capture racist language; inability of algorithms to handle linguistic variation C4.4-1.

Many natural language processing (NLP) tools seem to offer new ways for governments to connect with their citizens. Sentiment analysis systems can be used to track public opinion and see where citizens have positive or negative responses to government policy. Dialogue agents can be installed on government websites to provide quick responses to citizen inquiries, as an alternative to waiting to speak with a person in a call center.

However, if NLP systems prove to be racially biased, this threatens their promise to make governments more sensitive and more responsive to citizens' concerns. Especially given the reality of racial inequalities in many states, racial bias in NLP runs the risk of deepening existing tensions and perpetuating the feeling shared by many people of color that their government does not represent. Although language may seem a peripheral part of the increase in racial tension, the way we use language is fundamental to our ability to relate and participate as equals in a democracy. Any technology that threatens to limit the ability of people of color to fully express themselves or to commit to their government, therefore, threatens some of their most fundamental civil rights.

This report considers two possible applications of NLP in government, sentiment analysis and dialogue agents. For each of these systems, examine three sources of racial prejudice:

  • Word inlays pick up the existing stereotypes and prejudices that exist in language, and the systems that use these inlays will perpetuate these prejudices against people of color.
  • Systems need to be programmed to deal with offensive language and hate speech, such as racial slurs. However, the limit between what is and what is not offensive can be very context specific, which means that technical solutions are often inadequate.
  • Current NLP systems do not deal with linguistic variation. They are more accurate for standard varieties of a language than for non-standard varieties, such as vernacular African-American English.

Through documentary research on the existing academic literature on bias in NLP and current tools used by governments, as well as interviews with academics and researchers in NLP, this report finds that each of these sources of bias threatens make analysis of feelings and dialogue agents less useful and less accurate for people of color. This means that while NLP can make governments more sensitive to the needs of their white citizens, the needs and opinions of people of color are likely to be overlooked.

Based on these findings, this report recommends that governments adopt and extend frameworks for the design of services such as the UK Government Digital Service Service Standard, to minimize the risks of racial bias. The service standard divides a new digital service project into four phases based on the agile framework: discovery, alpha, beta and live. This framework prioritizes the needs of users and encourages a thorough investigation of their requirements, as well as thorough testing and audits of new systems.

We recommend that governments integrate three principles into the phases of a project: specificity, transparency and accountability.


Sesgo en inteligencia | Intelligence bias


El informe llama la atención sobre dos áreas poco estudiadas. La primera es que la investigación existente sobre el sesgo en la PNL a menudo se centra en el tema del género en lugar de la raza. Aunque puede haber algunas conclusiones que pueden extraerse sobre el sesgo racial del estudio de género, las dos no siempre son análogas. La investigación de cuestiones específicas de prejuicio racial es importante para garantizar que los sistemas de PNL funcionen en interés de todos, independientemente de su género o raza.

La investigación del MIT sobre reconocimiento facial significa que una amplia gama de las herramientas comerciales como el etiquetado automático en Facebook o los filtros en Snapchat funcionan mal en personas de color, una injusticia que sin duda merece una reparación. Sin embargo, si los departamentos de policía están utilizando un software de reconocimiento facial defectuoso para identificar a las personas con órdenes de arresto pendientes, lo que está en juego es mayor.

Ser malentendido o malinterpretado por un sistema de PNL parece menos importante. A medida que nuestra relación con el gobierno se filtra cada vez más a través de intermediarios como chatbots o sistemas de análisis de sentimientos, el sesgo en estas tecnologías amenaza con distorsionar este derecho fundamental para hacernos escuchar.

En un momento en que muchos sienten que el racismo y las tensiones raciales en la política están en aumento, es vital que los gobiernos tengan una respuesta política a los problemas de prejuicio racial en la PNL. Si no lo hacen, corren el riesgo de exacerbar las desigualdades existentes y alienar aún más a las personas de color del gobierno.


[English]

The report draws attention to two poorly studied areas. The first is that existing research on bias in NLP often focuses on the issue of gender rather than race. Although there may be some conclusions that can be drawn about the racial bias of the gender study, the two are not always analogous. Investigating specific issues of racial prejudice is important to ensure that NLP systems work in everyone's interest, regardless of gender or race.

MIT's research on facial recognition means that a wide range of commercial tools such as automatic Facebook tagging or Snapchat filters work badly on people of color, an injustice that certainly deserves repair. However, if police departments are using faulty facial recognition software to identify people with pending arrest warrants, what is at stake is greater.

Being misunderstood or misunderstood by an NLP system seems less important. As our relationship with the government is increasingly filtered through intermediaries such as chatbots or sentiment analysis systems, the bias in these technologies threatens to distort this fundamental right to make us listen.

At a time when many feel that racism and racial tensions in politics are on the rise, it is vital that governments have a political response to the problems of racial prejudice in NLP. If they do not, they run the risk of exacerbating existing inequalities and alienating even more people of government color.


Sesgo en el procesamiento del lenguaje natural | Bias in natural language processing


La raza, el racismo y el lenguaje a menudo están entrelazados, de manera que pueden tener un profundo efecto en los sistemas de PNL. La relación entre el racismo y el lenguaje es quizás más obvia en el caso de los insultos raciales y los discursos de odio: palabras reconocidas casi universalmente como racistas y perjudiciales para las personas de color. Sin embargo, hay otras formas más sutiles de relacionar el racismo y el lenguaje. Los psicólogos sociales han documentado cómo las personas forman asociaciones implícitas entre diferentes palabras y conceptos que pueden revelar sesgos ocultos.

Para capturar las muchas formas en que se cruzan la raza y el idioma, este informe considera múltiples fuentes de sesgo en la PNL. Tres cuestiones diferentes pueden conducir a sesgos raciales: incrustaciones de palabras, lenguaje ofensivo y variación lingüística.


[English]

Race, racism and language are often intertwined, so they can have a profound effect on NLP systems. The relationship between racism and language is perhaps more obvious in the case of racial insults and hate speech: words recognized almost universally as racist and harmful to people of color. However, there are other more subtle ways of relating racism and language. Social psychologists have documented how people form implicit associations between different words and concepts that can reveal hidden biases.

To capture the many ways in which race and language intersect, this report considers multiple sources of bias in NLP. Three different issues can lead to racial biases: word inlays, offensive language and linguistic variation.


Incrustaciones de palabras | Word inlays


En esencia, la incrustación de palabras permite que las palabras se representen como datos. Al examinar grandes cantidades de texto, los sistemas de PNL pueden determinar dónde en las oraciones tiende a usarse una palabra, con qué otras palabras aparece con frecuencia, y así sucesivamente. La imagen estadística que esto construye de una palabra le permite ser representada como un vector de múltiples dimensiones, en otras palabras, como una cadena de números, cada uno de los cuales asigna a una palabra una ubicación particular en el espacio en función de lo que el sistema ha aprendido sobre ella. Todas las palabras para las cuales un sistema de PNL tiene vectores pueden considerarse como puntos en el espacio, y el sistema puede 'entender' el lenguaje basándose no solo en dónde está cada palabra individual, sino también en dónde están las palabras en relación con otras palabras en ese espacio.

La investigación sobre el sesgo de la PNL ha utilizado dicha aritmética vectorial para demostrar cómo las incorporaciones de palabras contienen huellas de estereotipos y prejuicios.

Las incrustaciones de palabras comparten muchos de los mismos prejuicios que los humanos, incluido el sexismo, el racismo, el ageismo y los estigmas contra las enfermedades mentales. Su estudio incluye tres ejemplos de sexismo: los nombres masculinos están más estrechamente asociados con los conceptos de carrera y los nombres femeninos con los conceptos familiares; la ciencia se asocia más estrechamente con los términos masculinos y las artes con los términos femeninos; y las matemáticas están más estrechamente asociadas con los términos masculinos.


[English]

In essence, word embedding allows words to be represented as data. When examining large amounts of text, NLP systems can determine where a word tends to be used in sentences, with what other words it appears frequently, and so on. The statistical image that this constructs of a word allows it to be represented as a multi-dimensional vector, in other words, as a string of numbers, each of which assigns a particular location in a space to a word based on what The system has learned about it. All the words for which an NLP system has vectors can be considered as points in space, and the system can 'understand' the language based not only on where each individual word is, but also on where the words are in relation to others. Words in that space.

NLP bias research has used such vector arithmetic to demonstrate how word incorporations contain traces of stereotypes and prejudices.

Word inlays share many of the same prejudices as humans, including sexism, racism, ageism and stigmas against mental illness. His study includes three examples of sexism: male names are more closely associated with career concepts and female names with family concepts; science is more closely associated with masculine terms and the arts with feminine terms; and mathematics are more closely associated with masculine terms.


Lenguaje ofensivo | Offensive language


Un caso notorio de racismo en un sistema de PNL involucró un chatbot llamado Tay, lanzado por Microsoft en Twitter en 2016. Microsoft diseñó a Tay para tener conversaciones con los usuarios en Twitter, y cada interacción le permitió convertirse en un agente de conversación más sofisticado. Sin embargo, se desconectó después de menos de un día, cuando comenzó a tuitear declaraciones racistas.

Cuando los sistemas de PNL van a generar su propio texto, como Tay el chatbot, los desarrolladores generalmente responden al problema del lenguaje ofensivo introduciendo una lista negra. Destacar las limitaciones de la lista negra. Argumentan que simplemente cortar palabras del vocabulario de un chatbot limita su capacidad de manejar cualquier tipo de 'charla racial' matizada, lo que significa que el chatbot no puede interactuar con humanos sobre temas relacionados con la raza, el poder y la justicia.


[English]

A notable case of racism in an NLP system involved a chatbot called Tay, launched by Microsoft on Twitter in 2016. Microsoft designed Tay to have conversations with users on Twitter, and each interaction allowed him to become a more sophisticated conversation agent . However, he disconnected after less than a day, when he began tweeting racist statements.

When NLP systems will generate their own text, such as Tay the chatbot, developers generally respond to the problem of offensive language by entering a blacklist. Highlight blacklist limitations. They argue that simply cutting words from the vocabulary of a chatbot limits their ability to handle any type of nuanced 'racial talk', which means that the chatbot cannot interact with humans on issues related to race, power and justice.


Variación lingüística | Linguistic variation


El área final de sesgo potencial en PNL es la variación lingüística. Un idioma rara vez se habla exactamente de la misma manera por todos, y los diferentes grupos sociales tendrán su propio acento, jerga y, a veces, su propia gramática única.

La raíz del problema es que los sistemas de PNL suelen estar capacitados en fuentes escritas tradicionales, como los periódicos, que utilizan de manera abrumadora formas de lenguaje estándar y formales. Sin suficientes datos sobre variantes no estándar, los sistemas NLP no pueden procesar con precisión estos lenguajes utilizando un enfoque estadístico; simplemente no habrán visto suficientes ejemplos de ellos utilizados.

La siguiente sección explorará con más detalle algunos de los efectos nocivos que se derivan del hecho de que los sistemas de PNL son menos precisos cuando se trata de la forma en que hablan muchas personas de color.


[English]

El área final de sesgo potencial en PNL es la variación lingüística. Un idioma rara vez se habla exactamente de la misma manera por todos, y los diferentes grupos sociales tendrán su propio acento, jerga y, a veces, su propia gramática única.

La raíz del problema es que los sistemas de PNL suelen estar capacitados en fuentes escritas tradicionales, como los periódicos, que utilizan de manera abrumadora formas de lenguaje estándar y formales. Sin suficientes datos sobre variantes no estándar, los sistemas NLP no pueden procesar con precisión estos lenguajes utilizando un enfoque estadístico; simplemente no habrán visto suficientes ejemplos de ellos utilizados.

La siguiente sección explorará con más detalle algunos de los efectos nocivos que se derivan del hecho de que los sistemas de PNL son menos precisos cuando se trata de la forma en que hablan muchas personas de color.


Procesamiento del lenguaje natural en el gobierno | Natural language processing in government


PNL tiene una variedad de aplicaciones potenciales o existentes en el gobierno, incluida la automatización de la organización de archivos e informes gubernamentales por tema; y mejorar los modelos de predicción al descubrir temas o patrones ocultos en el texto.

 Esta sección se centrará en dos tecnologías, ambas relacionadas con ayudar a los gobiernos a conectarse mejor con sus ciudadanos: el análisis de sentimientos y los agentes de diálogo.


[English]

NLP has a variety of potential or existing applications in government, including the automation of file organization and government reports by topic; and improve prediction models by discovering hidden themes or patterns in the text.

This section will focus on two technologies, both related to helping governments better connect with their citizens: sentiment analysis and dialogue agents.


Análisis de los sentimientos | Feelings Analysis


El análisis de sentimientos implica el uso de PNL para detectar el tono en lenguaje escrito o hablado. Puede ayudar a los gobiernos a rastrear la opinión pública para adaptar la formulación de políticas o evaluar las políticas existentes. El análisis de sentimientos promete hacer que los gobiernos se involucren más con sus ciudadanos, pero algunos de los prejuicios descritos anteriormente amenazan con hacerlo menos preciso y menos útil para las personas de color.

Problema 1: variación lingüística

Problema 2: incrustaciones de palabras

En el análisis de sentimientos, una oración neutral puede clasificarse como negativa si contiene palabras históricamente sesgadas. Por ejemplo, la palabra 'gay' se asoció con contenido negativo y apareció en contextos negativos en las últimas décadas, sin embargo, ahora muchos la consideran una palabra neutral y aceptable. En cualquier caso, las incrustaciones de palabras formadas en datos históricos que contienen injusticias y prejuicios históricos asocian la palabra 'gay' con un sentimiento negativo. Como resultado, encontrar tales palabras históricamente cargadas en una oración conduce a clasificaciones erróneas en los sistemas de clasificación de sentimientos.


[English]

Sentiment analysis involves the use of NLP to detect tone in written or spoken language. It can help governments track public opinion to adapt policy formulation or evaluate existing policies. The sentiment analysis promises to make governments more involved with their citizens, but some of the prejudices described above threaten to make it less accurate and less useful for people of color.

Problem 1: linguistic variation

Problem 2: word inlays

In the analysis of feelings, a neutral sentence can be classified as negative if it contains historically skewed words. For example, the word 'gay' was associated with negative content and appeared in negative contexts in recent decades, however, many now consider it a neutral and acceptable word. In any case, the inlays of words formed in historical data that contain injustices and historical prejudices associate the word 'gay' with a negative feeling. As a result, finding such historically charged words in a sentence leads to erroneous classifications in sentiment classification systems.



Además del análisis de sentimientos, los gobiernos también están utilizando agentes de diálogo para conectarse con sus ciudadanos. Los agentes de diálogo son sistemas de PNL que pueden tener conversaciones con humanos. Por lo tanto, combinan tanto el procesamiento como la generación de lenguaje natural. Tay, el chatbot racista discutido anteriormente, es un ejemplo de un agente de diálogo, como lo son Alexa de Amazon y Siri de Apple. Los agentes de diálogo se utilizan cada vez más en tareas orientadas al servicio al cliente, ya que son más baratos y, a menudo, más eficientes que emplear a muchos agentes humanos para atender consultas. Junto con los actores comerciales, los gobiernos se han interesado en utilizar agentes de diálogo para ayudar a quienes acceden a los servicios gubernamentales.

Amelia es un agente de diálogo diseñado por IPSoft. El sistema se ha utilizado en varias industrias, incluidas la banca, los seguros y el comercio minorista, y también se ha utilizado en el gobierno. El Consejo de Enfield en Londres adoptó a Amelia para ayudar a atender las consultas sobre sus servicios. A medida que aumenta el volumen de la demanda de servicios pero se reducen los recortes en el gasto del gobierno central, el consejo espera que el uso de Amelia sea más rentable para tratar con sus constituyentes. El estudio de caso explica parte de la atracción de Amelia:

Problema 1: malentendidos

Es probable que los agentes de diálogo, como los sistemas de análisis de sentimientos, hayan sido capacitados en lenguaje estándar en lugar de variedades no estándar. Esto significa que es poco probable que entiendan lo que les dice una persona de color que habla tal variedad. Para utilizar la herramienta, las personas de color pueden verse obligadas a "cambiar de código". El 'cambio de código' se refiere a la práctica de cambiar su idioma o acento, y en un contexto racial se usa específicamente para explicar cómo las personas de color a menudo tienen que hablar de una manera 'más blanca' en entornos particulares.55

Problema 2: lenguaje ofensivo

Uno de los problemas más apremiantes que enfrentan los agentes de diálogo, debido al hecho de que necesitan generar su propio texto, es el problema del lenguaje ofensivo. Si aprenden de sus interacciones pasadas con los usuarios, son vulnerables a aprender lenguaje ofensivo y discurso de odio, especialmente si algunas personas se desviven por explotar esta característica. Sin embargo, una respuesta en la lista negra a este problema podría evitar que un agente de diálogo hable adecuadamente sobre la raza.

Esto significa que evitar que estos sistemas utilicen insultos no es suficiente para garantizar que nunca digan algo que pueda dañar u ofender a un usuario de color.


[English]

In addition to sentiment analysis, governments are also using dialogue agents to connect with their citizens. Dialogue agents are NLP systems that can have conversations with humans. Therefore, they combine both the processing and the generation of natural language. Tay, the racist chatbot discussed above, is an example of a dialogue agent, such as Alexa from Amazon and Siri from Apple. Dialogue agents are increasingly used in customer service-oriented tasks, as they are cheaper and often more efficient than employing many human agents to answer questions. Together with commercial actors, governments have been interested in using dialogue agents to help those who access government services.

Amelia is a dialogue agent designed by IPSoft. The system has been used in several industries, including banking, insurance and retail, and has also been used in government. The Enfield Council in London adopted Amelia to help answer questions about their services. As the volume of demand for services increases but cuts in central government spending are reduced, the council expects the use of Amelia to be more profitable to deal with its constituents. The case study explains part of Amelia's attraction:

Problem 1: misunderstandings

It is likely that dialogue agents, such as sentiment analysis systems, have been trained in standard language rather than non-standard varieties. This means that they are unlikely to understand what a person of color who speaks such a variety tells them. To use the tool, people of color may be forced to "change code." 'Code change' refers to the practice of changing your language or accent, and in a racial context it is specifically used to explain how people of color often have to speak in a 'whiter' way in particular settings.55

Problem 2: offensive language

One of the most pressing problems that dialogue agents face, due to the fact that they need to generate their own text, is the problem of offensive language. If they learn from their past interactions with users, they are vulnerable to learn offensive language and hate speech, especially if some people go out of their way to exploit this feature. However, a blacklisted response to this problem could prevent a dialogue agent from speaking properly about race.

This means that preventing these systems from using insults is not enough to ensure that they never say anything that could harm or offend a user of color.


Recomendamos que los gobiernos sigan tres principios al decidir por qué y cómo implementar herramientas de PNL / We recommend that governments follow three principles when deciding why and how to implement NLP tools:

  • Especificidad: delimitar una tarea clara para la que las herramientas de PNL pudieran ser útiles.
  • Transparencia: tener claro dónde se utilizan las herramientas de PNL y cómo funcionan.
  • Responsabilidad: tener canales claros y accesibles para informar problemas con un sistema gubernamental de PNL.

En muchos casos, estos principios pueden seguirse dentro de las directrices de política existentes para minimizar los riesgos de disparidad racial. En particular, recomendamos que los gobiernos de todo el mundo sigan algo como el proceso del Servicio Digital del Gobierno del Reino Unido (GDS) para la puesta en marcha de nuevos proyectos de TI. El estándar de servicio GDS divide los proyectos en cuatro fases, basadas en los principios de entrega ágil.

  1. Fase de descubrimiento: comprensión del problema que debe resolverse.
  2. Fase alfa: construcción y prueba de diferentes prototipos en respuesta al problema descrito en la fase de descubrimiento.
  3. Fase Beta: Tomando la mejor idea de la fase alfa y construyendo una herramienta real para los usuarios.
  4. Fase en vivo: ejecutar el nuevo servicio de manera sostenible y continuar haciendo mejoras.

[English]

Specificity: delimit a clear task for which NLP tools could be useful.
Transparency: be clear about where NLP tools are used and how they work.
Responsibility: have clear and accessible channels to report problems with a government NLP system.

In many cases, these principles can be followed within existing policy guidelines to minimize the risks of racial disparity. In particular, we recommend that governments around the world follow something like the UK Government Digital Service (GDS) process for the launch of new IT projects. The GDS service standard divides projects into four phases, based on agile delivery principles.

  1. Discovery phase: understanding the problem to be solved.
  2. Alpha phase: construction and testing of different prototypes in response to the problem described in the discovery phase.
  3. Beta Phase: Taking the best idea of ​​the alpha phase and building a real tool for users.
  4. Live phase: execute the new service in a sustainable way and continue making improvements.

Conclusión | Conclusion

Si los gobiernos siguen las recomendaciones descritas anteriormente, reducirán el riesgo de perpetuar o ampliar el sesgo racial mediante el uso de herramientas de PNL. Vale la pena enfatizar que la ventaja del Estándar de Servicio GDS no es solo que conduce a sistemas de gobierno más justos y menos sesgados. También evita que se implementen proyectos inapropiados para los usuarios, a través del proceso de entrega ágil. Si una fase de descubrimiento descubre que el análisis de sentimientos no es la mejor manera de conectarse con una comunidad en particular, o si una fase alfa descubre que un agente de diálogo a veces estereotipos y ofende a sus usuarios, el proyecto puede finalizar en esta etapa. Como se destacó anteriormente, puede ser fácil olvidar que los daños del prejuicio racial en la PNL aún justifican la precaución por parte de los formuladores de políticas, tanto como los daños del prejuicio racial en las herramientas de sentencia o en el reconocimiento facial.

Nuestras recomendaciones pueden significar que los gobiernos van a la zaga de las tecnologías de PNL equivalentes del sector privado en términos de sofisticación técnica, y esto puede necesitar una defensa explícita para el público en general. El documento de trabajo del Centro para el Impacto Público sobre inteligencia artificial en el gobierno advierte que cuando los gobiernos no mantienen el ritmo del desarrollo tecnológico en el sector privado, esto podría socavar la legitimidad del gobierno.74 Esto se debe a que las expectativas de los ciudadanos sobre los servicios son moldeados por sus experiencias en el sector privado, por lo que si constantemente encuentran que faltan servicios gubernamentales en comparación con el sector privado, esto afectará su percepción del gobierno en su conjunto. Sin embargo, con base en los resultados del presente informe, sugerimos que los gobiernos que intentan mantenerse al día con los agentes de diálogo cada vez más antropomorfizados del sector privado, o los sistemas de análisis de sentimientos que prometen identificar más y más emociones, corren el riesgo de exacerbar la desigualdad racial.

La existencia de prejuicios raciales en la PNL es preocupante en todas las esferas, públicas y privadas, pero el gobierno tiene responsabilidades particulares cuando se trata de herramientas como el análisis de sentimientos y los agentes de diálogo destinados a aumentar la participación ciudadana en el gobierno. Uno de los temas centrales de la democracia es cuyas voces se escuchan (y no se escuchan). Este informe ha demostrado que las herramientas actuales de IA contienen muchas características preocupantes que podrían conducir a resultados dispares para diferentes grupos raciales. Sus recomendaciones están diseñadas para evitar perpetuar esas desigualdades y para garantizar que los gobiernos se esfuercen por incluir las voces de todos sus ciudadanos, sin importar cómo hablen.


[English]

If governments follow the recommendations described above, they will reduce the risk of perpetuating or widening racial bias through the use of NLP tools. It is worth emphasizing that the advantage of the GDS Service Standard is not only that it leads to fairer and less biased government systems. It also prevents inappropriate projects from being implemented for users, through the agile delivery process. If a discovery phase discovers that sentiment analysis is not the best way to connect with a particular community, or if an alpha phase discovers that a dialogue agent sometimes stereotypes and offends its users, the project can end in this stage. As noted above, it can be easy to forget that the damage of racial prejudice in NLP still justifies the precaution of policy makers, as well as the damage of racial prejudice in sentencing tools or facial recognition.

Our recommendations may mean that governments lag behind private sector equivalent NLP technologies in terms of technical sophistication, and this may need explicit defense for the general public. The working document of the Center for Public Impact on artificial intelligence in government warns that when governments do not keep pace with technological development in the private sector, this could undermine the legitimacy of the government.74 This is because the expectations of citizens on services are shaped by their experiences in the private sector, so if they constantly find that government services are lacking compared to the private sector, this will affect their perception of the government as a whole. However, based on the results of this report, we suggest that governments trying to keep up with the increasingly anthropomorphized agents of the private sector, or sentiment analysis systems that promise to identify more and more emotions, run the risk of exacerbating racial inequality.

The existence of racial prejudices in NLP is worrisome in all spheres, public and private, but the government has particular responsibilities when it comes to tools such as sentiment analysis and dialogue agents aimed at increasing citizen participation in government. One of the central themes of democracy is whose voices are heard (and not heard). This report has shown that current AI tools contain many worrisome features that could lead to disparate results for different racial groups. Their recommendations are designed to avoid perpetuating these inequalities and to ensure that governments strive to include the voices of all their citizens, no matter how they speakC4.4-1.


4.4-3.- El riesgo de sesgo racial en la detección del discurso de odio | The Risk of Racial Bias in Hate Speech Detection


Fig. I A. C4.4.3-. Crédito imag ( The Risk of Racial Bias in Hate Speech Detection).


* (Ver también / See too: Procesamiento del Lenguaje Natural (PLN) / Natural Language Processing (NLP)


Bibliografía | Bibliography


[C4.4-1] Shearer, E.; Martin, S.; Petheram, A.; Stirling, R. (Agosto, 2019). Racial bias in natural language processing. Oxford Insight. [Recuperado (20/08/2019) de: https://www.oxfordinsights.com/racial-bias-in-natural-language-processing ]


Back to top