MrShadwx
Himbersor
- Desde
- 9 Dic 2020
- Mensajes
- 310
- Reputación
- 2.662
- Los malos actores que perpetran daños en línea son cada vez más peligrosos y sofisticados, lo que supone un reto para los actuales procesos de confianza y seguridad.
- Las metodologías existentes, incluidas la detección automática y la moderación manual, son limitadas en su capacidad de adaptación a amenazas complejas a escala.
- Se necesita un nuevo marco que incorpore los puntos fuertes de los humanos y las máquinas.
Con el 63% de la población mundial en línea, Internet es un espejo de la sociedad: habla todos los idiomas, contiene todas las opiniones y alberga una amplia gama de individuos (a veces desagradables).
A medida que Internet ha evolucionado, también lo ha hecho el oscuro mundo de los daños en línea. Los equipos de confianza y seguridad (los equipos que suelen encontrarse dentro de las plataformas online y que son responsables de eliminar los contenidos abusivos y de hacer cumplir las políticas de las plataformas) se enfrentan a una lista cada vez mayor de abusos, como el abuso de menores, el extremismo, la desinformación, la incitación al repruebo y el fraude; y a actores cada vez más avanzados que hacen un uso indebido de las plataformas de formas únicas.
La solución, sin embargo, no es tan sencilla como contratar otra sala llena de moderadores de contenidos o crear otra lista de bloqueo. Sin una profunda familiaridad con los diferentes tipos de abuso, una comprensión de la verborrea de los grupos de repruebo, la fluidez en los lenguajes terroristas y la comprensión matizada de las campañas de desinformación, los equipos de confianza y seguridad sólo pueden arañar la superficie.
Se necesita un enfoque más sofisticado. Al combinar de forma única el poder de la tecnología innovadora, la recopilación de inteligencia fuera de la plataforma y la destreza de los expertos en la materia que entienden cómo operan los actores de la amenaza, la detección a escala del abuso en línea puede alcanzar una precisión casi perfecta.
Los daños en línea son cada vez más complejos
Desde la introducción de Internet, se han librado guerras, se han producido recesiones y nuevos bichito han causado estragos. Si bien Internet desempeñó un papel fundamental en la percepción de estos acontecimientos, otros cambios -como la radicalización de las opiniones extremas, la difusión de información errónea y el amplio alcance del material de abuso sensual infantil (CSAM)- han sido propiciados por ella.
Los intentos de las plataformas en línea por detener estos abusos han dado lugar a una situación similar a la del Correcaminos y Wile E. Coyote, en la que los actores de las amenazas utilizan tácticas cada vez más sofisticadas para evitar los mecanismos de detección en evolución. Esto ha dado lugar al desarrollo de una nueva jerga, como que los depredadores de niños se refieran a la "pizza de queso" y otros términos que incluyen las letras c y p en lugar de "pronografía infantil". Se emplean nuevas metodologías, como el uso de acortadores de enlaces para ocultar una referencia a un sitio web de desinformación; y tácticas de abuso, como la coordinación fuera de la plataforma de los ataques a las minorías.
Los métodos tradicionales no son suficientes
La base de la mayoría de los métodos de detección de contenidos nocivos es la inteligencia artificial (IA). Esta potente tecnología se basa en conjuntos masivos de entrenamiento para identificar rápidamente comportamientos violentos a escala. Construida sobre conjuntos de datos de abusos conocidos en idiomas conocidos, la IA puede detectar abusos conocidos en idiomas conocidos, pero es menos eficaz a la hora de detectar infracciones matizadas en idiomas en los que no ha sido entrenada, una brecha de la que pueden aprovecharse los actores de amenazas.
Aunque proporciona velocidad y escala, la IA también carece de contexto: un componente crítico del trabajo de confianza y seguridad. Por ejemplo, existen modelos robustos de IA para detectar desnudos, pero pocos pueden discernir si esos desnudos forman parte de una pintura renacentista o de una imagen pronográfica. Del mismo modo, la mayoría de los modelos no pueden descifrar si el cuchillo que aparece en un vídeo se utiliza para promocionar un equipo de carnicería o un ataque violento. Esta falta de contexto puede llevar a un exceso de moderación, limitando la libertad de expresión en las plataformas online; o a una inframoderación, que supone un riesgo para la seguridad de los usuarios.
A diferencia de la IA, los moderadores humanos y los expertos en la materia pueden detectar abusos matizados y entender muchos idiomas y culturas. Esta precisión, sin embargo, está limitada por el área específica de especialización del analista: un moderador humano experto en la supremacía blanca europea no será necesariamente capaz de reconocer el contenido dañino en la India o las narrativas de desinformación en Kenia. Este enfoque limitado significa que, para que los moderadores humanos sean eficaces, deben formar parte de equipos grandes y sólidos, un esfuerzo exigente para la mayoría de las empresas tecnológicas.
Tampoco hay que ignorar el elemento humano. Los miles de moderadores encargados de mantener fuera de línea los contenidos aborrecibles deben presenciarlos ellos mismos, lo que les expone a un alto riesgo de sufrir enfermedades mentales y trastornos traumáticos. Más allá del cuidado de los moderadores, esta situación puede limitar la eficacia de la operación, ya que la alta rotación y la inestabilidad del personal conducen a una baja estabilidad organizativa y a inevitables errores de moderación.
La solución inteligente "Trust & Safety
Aunque la IA proporciona velocidad y escala y los moderadores humanos aportan precisión, sus esfuerzos combinados aún no son suficientes para detectar proactivamente el daño antes de que llegue a las plataformas. Para lograr la proactividad, los equipos de confianza y seguridad deben entender que el contenido abusivo no empieza y termina en sus plataformas. Antes de llegar a las plataformas principales, los actores de las amenazas se reúnen en los rincones más oscuros de la web para definir nuevas palabras clave, compartir URLs a recursos y discutir largamente nuevas tácticas de difusión. Estos lugares secretos en los que se comunican libremente terroristas, grupos de repruebo, depredadores de menores y agentes de desinformación pueden proporcionar un tesoro de información a los equipos que buscan mantener a sus usuarios a salvo.
El problema es que el acceso a esta información no es en absoluto escalable. La recopilación clásica de inteligencia requiere una profunda investigación, experiencia, acceso y una buena cantidad de habilidades de asimilación, capacidades humanas que no pueden ser imitadas por una máquina.
Incorporar la inteligencia
Hemos comprobado que el proceso estándar de algoritmos de IA para la escala y moderadores humanos para la precisión no equilibra adecuadamente la escala, la novedad y el matiz. También hemos establecido que la recopilación de inteligencia fuera de la plataforma puede proporcionar contexto y matices, pero no escala y velocidad.
Para superar las barreras de las metodologías de detección tradicionales, proponemos un nuevo marco: en lugar de confiar en la IA para detectar a escala y en los humanos para revisar los casos límite, es crucial un enfoque basado en la inteligencia.
Al incorporar la inteligencia humana, multilingüe y fuera de la plataforma a los conjuntos de aprendizaje, la IA podrá detectar a escala los abusos novedosos y matizados, antes de que lleguen a las plataformas principales. Si se complementa esta detección automática más inteligente con la experiencia humana para revisar los casos límite e identificar los falsos positivos y negativos, y luego se retroalimentan esos hallazgos en los conjuntos de entrenamiento, podremos crear una IA con inteligencia humana incorporada. Esta IA más inteligente se vuelve más sofisticada con cada decisión de moderación, permitiendo finalmente una detección casi perfecta, a escala.
El resultado
El desfase entre la aparición de nuevas tácticas de abuso y el momento en que la IA puede detectarlas es lo que permite que los daños en línea proliferen. La incorporación de inteligencia en el proceso de moderación de contenidos permite a los equipos reducir significativamente el tiempo entre la introducción de nuevos métodos de abuso y el momento en que la IA puede detectarlos. De este modo, los equipos de confianza y seguridad pueden detener las amenazas que surgen en línea antes de que lleguen a los usuarios.